Google App Engine介紹

雲端運算平台Google App Engine簡介
An Introduction to Cloud Computing Service Platform - Google

App Engine
張銘峰許閔雄陳桂慧
Ming-Feng Chang, Min-Hsiung Hsu, Kuei-Hui Chen
中文摘要
Google 在 2004 年收購 Picasa 以擴充 Blogger 的功能，更在 2006 年以 16.5 億美元的天價併購
YouTube ，與其花大錢併購市場上熱門的網路服務，不如開放自家的雲端運算服務平台吸引各家
好手前來開發下一個熱門的網路服務，在這樣的前提之下， Google 開發並開放了 Google App Engine
平台。在這篇文章中，我們將對 Google App Engine 所提供的功能與支援的開發工具做簡單的介紹。
文中並將對搭建 Google App Engine 背後的雲端運算服務平台所包含的技術做進一步的說明。
Abstract
Google bought Picasa to extend the function of Google Blogger in 2004. And then it spent 1.65 billion
dollars to buy YouTube in 2006. Google now would rather release their own cloud computing service platform
to appeal to developers to build the next popular network service, than spend huge money to buy popular
network services on the market. That’s the reason why Google App Engine is released. This paper presents a
brief introduction to the function and supported development tools of Google App Engine. In addition, the key
technologies of the cloud computing service platform of Google App Engine are also introduced in this paper.
關鍵詞 (Key Words)

Google 雲端運算服務平台 GAE (Google App Engine)
雲端運算 (Cloud Computing)
Google 檔案系統 (Google File System)
１．前言主機，這對網站開發者來說是個福音，但對虛
擬主機商來說卻是個惡耗。對 Google 來說也有
今年 Google 2008 台北程式開發日的重頭它的利益考量，一旦開發者成功的在 GAE 平台
戲之一，就是 Google 來台推廣他們的雲端運算上建立了熱門的服務網站，吸引龐大網路流量
服務平台 GAE(Google App Engine) 。藉由這個之後， Google 就可以坐收超過流量的費用以及
平台所提供的免費服務，開發者不用再去管理廣告費。但對開發者來說，服務網站無法離開
龐大的伺服器群、電力、網路頻寬等等的問題，這個平台，因為帳號管理都是使用 Google
只要專心發展網站並上傳至 GAE 即可；換句話 Account，雖然軟體可以複製，但是卻無法帶走
說， Google 就是打算提供一個強大的免費虛擬龐大的使用者。
24 ICL TECHNICAL JOURNAL 12.25.2008 第126期電腦與通訊

Google 為了推廣雲端運算服務平台 GAE ， Google 所提供的雲端運算服務資源，並提供直
與 IBM 進行一項研究計畫，將投資建立兩個大譯式語言、資料庫與開發測試輔助工具等，讓
型的資料中心，配置在 6 個大學中，包括卡內基開發者更方便的建立與維護網站，同時隨著網
美隆大學、麻省理工學院 (Massachusetts 站流量的成長，硬體效能與頻寬的問題也可透
Institute of Technology) 、史丹佛大學 (Stanford 過付費的方式取得 GAE 平台上額外的資源而不
University) 、華盛頓大學 (University of 需要變動原來的網站設計。本章將依序說明
Washington) 、馬里蘭大學 (University of GAE 平台的開發與執行環境，以及目前所提供
Maryland) 與加州大學柏克萊分校 (University of 的功能與限制 [1] 。
California at Berkeley) 。同時， Google 也和台 2.1 GAE開發與執行環境
大、交大和北京清華合作推動雲端運算 (Cloud
computing) 課程，教授下列課程： (1) 可開發雲
目前 GAE 只支援使用 Python 語言開發，此
平台所提供的執行環境包含特別版的 Python 直
端運算應用的開原碼 Java 軟體框架 Hadoop ； (2)
由 Google 提供，可在平行運算系統上進行
譯器、標準的 Python 函式庫、 GAE 特有的函式
100TB 以上巨資料處理的軟體框架
庫與 APIs 以及為網頁伺服器層所提供的標準介
面。其中有六項標準函式庫中的功能因安全性
MapReduce ；以及 (3) 其專屬的檔案系統 Google
的問題被關閉，分別為 (1)networking 模組； (2)
File System 等技術。
Google 提供全球大量的服務與儲存空間，
寫入檔案系統功能； (3) 將 cPickle 模組更換為
pickle 模組； (4)marshal 模組； (5)imp 、 ftplib 、
而且持續不斷成長中，在 GAE 推出後，勢必加
select 、 socket 等模組；以及 (6)tempfile 模組。
速這成長。是什麼樣的架構使得 Google 可以提
Google 提供 GAE 軟體開發工具 (SDK) 供開
供這麼大量而穩定的服務與空間， Google
發者下載，用以開發 GAE 上的應用程式，其中
Fellow Jeff Dean 在 2008 年 4 月 Yahoo 所舉辦的
包含安裝在本機端電腦上的 web server，以模擬
Data-Intensive Computing Symposium 中揭開
所有 GAE 平台上的服務，並支援所有 GAE 上提
Google 的神秘面紗，解釋如何用 Google File
供的 API 和 libraries ，讓開發者在本機端電腦上
System 、 Bigtable ，與 MapReduce 三大核心技術
進行模擬與測試。並可透過 SDK 所附的上傳工
來處理大量的資訊，使得 Google 即使只是用大
記憶具程式，將程式與檔案上傳至 GAE 平台上。本
機端的模擬 Web Server 提供以下的功能：檢查
量的平價伺服器、處理器、硬碟、體等，
仍能穩定提供服務。
import 的模組是否合乎 GAE 的要求、模擬 App
亦透
GAE 是過這三大核心技術，來提供使
caching 的行為、模擬 datastore 功能、模擬 Google
用者大量而穩定的服務，本文第二章介在中將
Accounts 登入登出的動作、模擬 URL fetch 、以
紹 GAE 目前能方接著
所提供的功與開發式，在
及模擬 mail service 等，但不模擬 GAE 有關儲存
後續的章節介紹背
中 GAE 後的雲端運算服務平
容量與 timeout 時間的檢查。 GAE 並提供五種等
台所包含第章介紹
的這三大技術，在三中
級的日誌功能方便除錯，分別為 debug 、 info 、
能設第四
Google File System 的功與計架構，在
章明第五章則簡介
中將說 MapReduce 架構，
warning 、 error 和 critical ，並可使用 admin
console 或是以指令下載日誌資料。
設最章結論
BigTable 的計，後一為。
GAE 會選擇將某些程式碼長時間的放在記
憶體裡，以避免浪費時間重複載入這些程式
２． GAE平台所提供的功能與限制碼，這些程式碼分別為 imported modules 與含有
GAE 平台讓 Web 應用程式開發者用簡單的 main() 函式的 handler scripts，其中 handler script

是由使用者定義，用來處理特定 web request 的
方式部署其所開發的網路應用程式，以使用
ICL TECHNICAL JOURNAL 12.25.2008 第126 電腦與通訊 25

模組。運用這個 App cache 的特性搭配使用 Google 定義的 SQL-like language 。
global variable 將可加快應用程式的執行速度。 Datastore 的 Query 功能所提供的可描述
開發者開發完成後，經模擬與測試，上傳查詢條件為 entity 的種類、 entity property 值
至 GAE 網站上後，即可對外提供服務。為提高的比較條件，和查詢結果的排序條件。每一
開發者上傳程式與檔案的效率， GAE 平台利用個曾被執行過的 query 都會產生一個 index 放
版本控制機制，未經修改的檔案將不會重複上在 index.yaml 中。datastore 執行查詢的步驟如
傳，而本機刪除的檔案則在伺服器上先給予刪下，首先使用 entity 的種類、filter properties、
除的標籤，而不是真正進行刪除，讓開發者得 filter operators 和 sort orders 這四個條件來進
以有效率的更新網站。行 query，接著在 index.yaml 中從第一個 index
GAE 是由許多個 web servers 所組成，在收開始逐條比對直到檔尾或是下一條已不符
到 web request 後， GAE 會根據當前系統狀況，合 filter 的條件。
分配一個 web server 並根據設定檔找到相對應 Images 的功能
的 handler script 處理該 request。但由於 GAE 只有這部分功能取自 Python Image
在 handler script 結束時才將資料送出，在 Library ，支援檔案格式包含 JPEG 、 PNG 、
handler 結束前，無法傳送資料至使用者瀏覽 GIF( 包含靜態與動態 ) 、 BMP 、 TIFF 、 ICO ；
器，因此 Streaming 相關的功能無法支援。另共有六種功能，包含維持原比例放大縮小、
外， GAE 支援 Accept-Encoding 與 User-Agent 兩旋轉、水平對調、垂直對調、裁剪、顏色與
個參數，可傳送壓縮的 response 給使用者端。對比度最佳化。
2.2 GAE的功能 Mail 的功能
GAE 上的應用程式可利用 GAE 所提供
作為一個 web 應用程式平台， GAE 除了提之郵件服務，送出電子郵件，並支援傳送夾
供強大的硬體效能，與龐大的網路頻寬資源之檔，但不提供收信的功能。郵件傳送服務只
外，亦提供各種功能介面，讓開發者可整合目有系統管理者和一般使用者登入後，才允許
前 Google 的其他技術與服務，以進行開發。簡提供服務。郵件應用程式介面 (mail API) 提供
介如下：兩種方式來使用郵件傳送服務，呼叫
Datastore 的功能
mail.send_mail() 函式與使用 EmailMessage 類
GAE 提供強大的分散式儲存機制
datastore ，具搜尋引擎與 transactions 的特
別。
Memcache 的功能
色，如同分散式的 web server 可以隨著網站 Cache 功能採用 key-value cache 的形
流量成長而增加，使得網站的儲存空間，隨式，用來儲存暫時的資料或是將 datastore 中
著應用程式的資料增多而成長。讓開發者可的資料搬到 cache 中以取得較快的存取速
專心致力於網站的程式開發，無須再受硬體度，並提供 cache 資料 expire time 的設定。
與頻寬的限制。 URL Fetch 的功能
為了資料庫的擴充性， datastore 並非採支援使用 HTTP 與 HTTPS 存取網路上的
用關連式資料庫架構。Datastore 以 entity 為單主機，但有以下的限制：(1) 只能存取 ports 80
位進行儲存與查詢操作，同時提供 (HTTP) 與 port 443(HTTPS)；(2)urlfetch.fetch()
transaction 為單位的操作，若 transaction 中有
其中一個操作失敗，則整個 transaction 都回函式為同步運作，即此函式會被凍結，直到
溯，並提供兩種查詢介面 Query Object 收到遠端伺服器傳回的結果； (3) 在使用
HTTPS 時，目前版本無法認證遠端的伺服
Interface 和 GQL interface ，其中 GQL 為
器； (4) 最多只允許 HTTP redirect 5 次，也可

以使用參數取消 redirect 。多，也將更增加程式開發者的使用意願。
User accounts 管理功能
此功能讓 GAE 與 Google Accounts 作整３．Google File System-GFS的介紹
合，讓使用者登入 Google accounts 並讓應用
程式可查詢目前使用者的資料，像是使用者 GFS(Google File System) 是一個高可擴充
的 email address ， nickname 以及此使用者是性的分散式檔案系統，具有高容錯率可以讓廉
否具有管理者的權限。價的消費性硬體達到高累加的效能以應付為數
2.3 GAE的限制眾多的使用者，目前最大的叢集 (cluster) 是由超
過一千台機器搭載數千顆硬碟所組成，提供超
GAE 免費提供系統開發者應用程式執行環過 300TB 的儲存空間，並且容許數百個使用者
境，每個免費帳號的限制有：可註冊三個應用連續存取 [2] 。
程式、最多使用 500MB 的儲存空間、每天 10GB GFS 與一般的分散式檔案系統具有相同的
的頻寬、每天 200M CPU cycles、每月五百萬次特性，目的是要達成效能、擴充性、可靠度和
以內的瀏覽次數。雖然超過限制需要付費才能可實作性四個特性的最佳化，除此之外 GFS 採
使用，但依據其收費標準每多增加 1GB 的儲存用了以下的四個有別於一般的分散式系統的觀
空間，每月只需額外再付出 0.15 到 0.18 美金，每點來設計這個檔案系統：
多增加 1GB 對外頻寬，每月額外再付出 0.11 到 (1) GFS 由廉價並且容易損壞的消費性元件所
0.13 美金等，相較於一般硬體成本，開發者所組成，必須能定期的自我檢視、偵測、容錯，
需負擔的成本仍是非常低。
雖然在資料庫儲存空間與瀏覽次數上限制 (2) 並從錯誤中恢復原狀態。相較於傳統的標準， GFS 處理的檔案非常巨
很寬，但程式上傳的限制，無形中也限制了可大，通常在 100MB 或者更大，數 GB 的檔案
開發的應用程式類型。開發好的程式碼與檔案很常見，必須為數 GB 以上的大型檔案作系
透過 GAE 軟體開發工具程式上傳至 Google 的統最佳化。
Server 時，有限制單一檔案不得超過 1MB ，檔 (3) Google 大部分的文件修改都是採用循序寫
案數量不得超過 1000 個，同時又不支援入資料到檔尾的方式，而非使用覆蓋的方
Streaming ，網站若欲提供影音服務或炫麗的畫式，這種寫入方式通常寫入檔案後就很少作
面等將受到限制。更動。因此必須支援大量資料連續寫入，當
除了儲存空間與頻寬的限制之外，為了確然小量隨機寫入資料到檔案也必須支援，但
保應用程式在安全的環境下執行， GAE 安全的是不必最佳化。
sandbox 環境限制平台上應用程式不可以寫入 (4) 讓使用者可以同時附加資料到同一個檔
資料到檔案系統，不可以直接使用 socket 服案，而不會出現因為同步進行操作造成需要
務，必須透過 port 80 使用 HTTP 或是 port 443 使等待的問題。
用 HTTPS 方式存取，也不可以建立 subprocess Google 應用程式通常需要快速處理巨量的
或是 thread ，所有的程式碼必須在單一 process 資料，或是有嚴格的回應時間限制，因此 GFS
中，且在數秒內完成。
此外目前只支援以 python 程式語言開發，的高容量頻寬處理效能遠比低延遲效能來得重
這讓不熟悉 python 的系統開發者卻步，幸而要的多。
2008 年 10 月在印度 Bangalore 所進行的 Google 3.1 系統架構
Developers Day 中主講者 Prasad Ram 表示，未來一個 GFS 系統包含了一個 GFS master 以及
GAE 將支援 Java ，未來 GAE 支援的程式語言越多個 GFS chunkservers 所組成，可以讓多個 GFS
clients 同時進行存取，其讀取檔案的架構圖如

圖 3.1-1 Google File System的架構(讀取檔案)[2]
圖 3.1-1 所示。置此 chunk 的所有 GFS chunkservers 位置資訊傳
GFS chunkserver 負責儲存所有的檔案資給 GFS client ，最後 GFS client 根據 GFS master
料， GFS 上檔案儲存的方式是將每一個檔案切所回覆的訊息，以及想要在 chunk 中取得的資料
割為固定大小的 chunks，每一個 chunk 都會被指範圍 (byte range) ，直接向最近的 GFS
定一個唯一的 chunk handle 然後由 chunkserver chunkserver 提取檔案資料直到結束。
將每個 chunk 當作一個 Linux 檔案儲存在這個分散式檔案系統總共提供 8 種檔案操
chunkserver 的硬碟上。為了資料的可靠度，每作，包含 create 、 delete 、 open 、 close 、 read 、
一個 chunk 都會被複製三份存在不同的 write 、 snapshot 、 record append ，其中 snapshot
chunkserver 上。與 record append 是 GFS 獨有的操作方式，
GFS master 負責管理 GFS 系統中所有的 snapshot 是以極少的運算複製檔案或建立一個
metadata ，包含檔案 namespace( 檔案路徑 ) 、檔目錄樹，record append 則是在不使用 lock 的前提
案的對應 (mapping) 以及檔案的位置資訊。除了下，同時讓多個 GFS client 附加資料到同一個檔
管理 metadata 外，GFS master 需要做 chunks 的使案的檔尾。
用管理、回收不再使用的 chunks ，同時以資料的收集與使用
heartbeat 的方式定期與 chunkservers 更新狀態
3.2 Metadata
GFS master 會將三種 metadata 儲存在記憶

資訊。體中： (1) 檔案和 chunk 的 namespace； (2) 檔案和
GFS client 內嵌在應用程式裡，實作了 GFS
chunk 之間的對應；(3)chunks 所放置的位置。其
的 API ，負責與 GFS master 互動取得最新的中為了預防 GFS master 當機造成資料的損失，
metadata 資訊，並且協助應用程式直接跟
chunkserver 提取 chunks 資料。
前兩種資料會另外使用紀錄檔 (log) 的方式存在
為了避免 GFS master 成為整個系統的瓶硬碟以及遠端備份硬碟中。 GFS master 並不會
頸，必須減少對 GFS master 做讀寫的動作，所將 chunks 所放置的位置存在磁碟中，而是在啟
以 GFS master 只負責讓 GFS client 查詢 chunks 所動的時候向 GFS chunkserver 要求這些訊息，然
在的 chunkservers 的位置， GFS client 端不透過後用 heartbeat 的方式監控 chunkserver 的狀態，
GFS master 存取資料。
並控制所有 chunks 的放置位置。
GFS 系統運作流程如下：首先，由於 chunk
對於存在 GFS 中檔案資料的維護， GFS
master 會周期性的執行以下的三個動作：
的大小是固定為 64MB ， GFS client 根據應用程 (1) 針對沒有使用的 chunk 做回收
式所要讀取的檔案名稱與檔案中的位置，算出 (2) 當 chunkserver 有錯誤發生時，重新複製
chunk 的索引，將檔案名與索引送給 GFS
master ， GFS master 收到後將 chunk handle 與放 chunks
(3) 在 chunkservers 之間移動 chunk 資料，以均勻

分配 chunkservers 之間的負載和硬碟使用 GFS 使用以下的原則執行所謂的 relaxed
量。 consistency model ，其作法是： (1) 在每隔一些
紀錄檔是 metadata 唯一永久儲存的資料，資料變動之後執行查核點紀錄。 (2) 大量使用附
一旦 GFS master 發生錯誤，需要復原 metadata 加 (append) 取代覆寫 (overwrite)。例如要做覆寫
的時候， GFS master 會用重新播放紀錄 (replay 動作時，就將它拆解為讀取 (read) 和附加
log) 的方式來復原資料。但是為了減少啟動的 (append) ，先讀取檔案沒有變動的部份，然後
時間， GFS 必須控制紀錄檔不能太大，當紀錄附加需要覆寫的部份以產生此檔案。附加操作
檔的大小超過一定時， GFS master 就會建立一擁有可以讓多個 GFS clients 同時對同一檔案操
個查核點 (checkpoint) ，在查核點建立完成之作的特性，用此方法比隨機寫入 (random write)
後，就將之前的紀錄資料刪除，這個查核點是有彈性的多。
以一個 compact B-tree 的方式儲存，可以快速的
被載入記憶體。當 GFS master 啟動的時候，會４．的介紹
先載入最新的查核點，再重新播放剩餘的紀錄。 MapReduce
MapReduce 是一種 Prgramming Model[3] ，

3.3 檔案資料一致性的維護用於大規模資料的平行運算。在解決複雜的問
GFS 最重要的目標是為高度分散的應用程題時，我們常常使用 Divide and Conquer 的方式
式建立一個一致的檔案系統。在系統中，檔案來簡化問題的難度，而 MapReduce 就是
有兩種資料需要維護其一致性：namespace 與檔 Divide/Conquer 的過程，找出問題或資料可以平
案區域 ( 實際儲存資料的區域 ) 。行化處理的部份，再針對平行處理的部份寫成
GFS 系統中只有 GFS master 能進行檔案 Map 程式，而後將 Map 後的結果根據每個鍵值進
namespace 的改變，並且使用到 lock 的機制確保行 Reduce ，得到最終運算結果。
正確無誤。
檔案區域資料的改變可以是寫 (write) 或是 4.1 MapReduce Programming Model
紀錄附加 (record append) 兩種方式。寫的方式是 MapReduce 主要的架構是由 Map 以及
由 GFS client 指定寫入的檔案位置 (offset)。紀錄 Reduce 兩個函數所組成，使用者指定一個 Map
附加的方式是在 GFS 所指定的檔案位置不被中函數來處理一組輸入的 key/value 來生成多組的
斷地將資料全部寫入。多個 GFS clients 同時附 intermediate key/value，然後指定的 Reduce 函數
加資料到同一個檔案的方法如下： (1) 預留每個將相同的 intermediate key 合併成最終的結果。
GFS client 附加資料的空間，亦即 GFS 指定給每例如要統計一個文字檔集合中每個單字出
個 GFS client 的檔尾位置會不一樣。(2) 每個 GFS 現的次數， Map 函數的工作是將輸入的文字檔
client 各自寫入資料到各自的預留空間中，寫入中所出現的每一個單字作為輸出的
順序則是先寫入原本要寫入的資料，然後寫入 intermediate key ，並賦予 value “1” ，將這樣的
資料的 checksum，最後多餘的預留空間補 0。(3) intermediate key/value 寫入中間文件裏。例如輸
在讀取檔案的時候將整個預留空間一次讀出入 “I love travel, you love travel too” 的文字
來，根據 checksum 捨棄補 0 的部分即可。檔，經過 Map 運算後輸出的結果是：
當經過一連串成功的操作後， GFS 會對所 (I, 1), (love, 1), (travel, 1), (you, 1), (love, 1),
有的備份資料進行相同步驟的操作，且 GFS (travel, 1), (too, 1)
master 和 GFS chunkservers 之間會有 heartbeat 檢 Reduce 函數的工作是將有相同的
查資料的正確性，一旦發現錯誤的 chunks ，則 intermediate key 的值匯總起來，在進行 Reduce
立刻由備份的 chunks 將資料恢復。運算前， MapReduce 函式庫會將有相同的
intermediate key 的 value 彙整成一個串列輸入

Reduce 函數，例如前面 Map 所產生的結果，經 8. 執行 Reduce 的 worker 用 RPC 讀取暫存的資
過 MapRedure 函式庫處理後，輸入 Reduce 函數料，進行 Reduce 運算
將會是： (“I”, [1]), ( “love”, [1,1]), (“travel”, 9. Reduce worker 將 Reduce 運算的結果存入
[1,1]), (“you”,[1]), (“too”, [1]) ，經過 Reduce 函 GFS 中，通知 Master 儲存的位置
數運作後輸出的結果會是：(“I”, 1), (“love”, 2), 10. 全部的 Map/Reduce 執行完畢後，Master 喚醒
(“travel”, 2), (“you”, 1), (“too”, 1) 。使用者程式，傳回結果
4.2 MapReduce 運作流程 4.3 容錯處理與效能
首先 MapReduce Library 把要處理的資料 MapReduce 的設計是使用多台機器平行處
分成數份，放到 GFS 上，分配給不同的機器執理大量資料的運算，在運算過程中發生機器錯
行 Map 函數，執行 Map 函數的機器將執行後的中誤時，如何降低因為機器錯誤造成的效能影響
間文件存在本地端，然後執行 Reduce 函數的機是一個很重要的課題，在 MapReduce 架構中可
器將存在 Map 機器上的中間文件取回進行運能發生兩種錯誤：
算，得到最後結果，詳細流程如圖 4.2-1 ： 1. Worker 錯誤
1. MapReduce Library 將要處理的資料分割成 Master 節點會定時對 worker 作 ping 的動作，
多份，寫到 GFS 上一旦沒有收到 worker 的回覆， Master 認定
2. 將使用者程式複製到多台機器上，其中一 worker 失效。如果失敗的節點是執行 Map 的
台機器為 Master ，其他的機器為 worker worker ，所有該 worker 已經完成的工作必須
3. Master 挑出所有閒置的 worker ，指定每個重新執行 ( 因為 Map 執行的結果是存在本地
worker 處理 Map 工作，或處理 Reduce 工作端檔案系統 ) ，此時 master 會指定另一個 Map
4. 執行 Map 的 worker 從 GFS 中讀取分割資料， worker 來執行，同時通知所有執行 Reduce 的
進行 Map 運算，將結果暫存在記憶體上 worker ，讓 Reduce worker 從取代失敗的 Map
5. 執行 Map 的 worker 定期將暫存的結果寫到 worker 讀取資料。如果失敗的節點是 Reduce
本地端檔案系統上 worker ，那麼已經完成的 reduce 工作不需要
6. 資料儲存到本地端檔案系統後，worker 將寫重新執行，因為 Reduce 執行的結果是存在
入的位置傳回給 Master GFS 中。
7. Master 通知執行 Reduce 的 worker 資料暫存 2. Master 錯誤
的位置 Master 會定期寫入查核點 (checkpoint) 紀錄
圖 4.2-1 MapReduce運作流程

執行狀態，一旦 Master 發生錯誤，取代的序，相似字串的 row key 資料就會排序在鄰近，
Master 可以從最後一次查核點的狀態開始執以動態方式切割 row range 。為了管理巨大的
行。 table ，把 table 依據 row range 做分割，分割後的
另一個對效能影響很大的問題是掉隊者每個 row range 被稱為一個 tablet，分散式與負載
(straggler)：某一台機器可能因為資源競爭 (CPU, 平衡 (load balancing) 分散式與負載平衡 (load
記憶體等 ) 或緩慢的 I/O 使得該機器負責的工作 balancing) 為的最小單位。每個 tablet 大概有 100
比其他機器慢，影響到整體執行效能。 Google 到 200 MB ，每個機器儲存一百個左右的
在這邊提出一個簡單的方法：每一份 tablets 。 BigTable 底層的架構是 GFS ，由於 GFS
Map/Reduce 都同時由兩個 workers 來執行 ( 兩個是分散式檔案系統，加上 tablet 的機制，可以做
workers 同時做相同的工作 ) ，當其中一份完成到很好的負載平衡。比如說可以把經常被查詢
後就可以傳回結果， master 再將另一份未完成的 table 移動到其他空閒機器上，然後快速重建。
的刪除，這樣的運作管理少量增加了所花費的以圖 5.1-1 中以儲存網頁資料為範例 [4] 為例，網
資源，但是可以縮短整體執行的時間。址 maps.google.com/index.html 的資料，儲存在
com.google.maps/index.html 的 row key 之下，相
５．的介紹同 domain 的資料便會隸屬於相同的 row range ，
BigTable
以提高資料存取之效率。
Google 提供全球使用者大量的服務，
BigTable 是設計用來處理與儲存這大量結構性
Column Families
資料的分散式資料庫系統，這項技術目前應用可以將具有相同性質的 Column keys 歸類
在包括 Google Reader 、 Google Maps 、 Google 在一起，稱為 Column family ，是存取控制的最
Book Search 、 Google Earth 、 Blogger 、 Google 小單位。 Column family 必須在資料被儲存之前
Code hosting 、 Orkut 和 YouTube 等， BigTable 產生，有了 column family 後， column key 才得
提供這些 Google 服務一個靈活、高效能資料庫以被使用。 Column key 的命名方式依據
的解決方案，用以儲存管理橫跨數千台主機、 family:qualifier 語法，column family 的名稱必須
約 6 PT(petabytes) 的資料。為 printable，而 qualifier 可為任意的字串。於圖
5.1-1 中以儲存網頁資料為範例 [4]，以 URL 作為
5.1 Data Model
row key ，以網頁的各項性質作為 column
BigTable 的資料索引可使用 row key 、 families 名稱，例如以 contents 和 anchor 作為
column key 以及 timestamp ，除了 timestamp 以 column families 名稱。 anchor:cnnsi.com 和
int64 格式儲存外， row key、 colum key 以及 data anchor:my.look.ca. 屬於相同 column family 下的
均以 string 方式儲存。每筆資料都是以下列格不同 column key 。
式儲存：
(row:string, column:string, time:int64) data:string
BigTable 中每個 table 都是一個多維的
sparse map ， table 由 row 與 column 組成，與一般
常見的 row-oriented 資料庫不同。圖 5.1-1 BigTable中以儲存網頁資料為範例[4]
Rows
Timestamps
在 table 中的 row key 都是任意的字串，對於 BigTable 裡的每個儲存單元 cell 都有
每個唯一的 row 做讀寫都是不可中斷的。 timestamp ，可儲存有多個版本的相同資料，這
BigTable 使用 row key 依據字典編纂的方式做排

些版本以 timestamp 作為區分。以 int64 格式儲存 Google Adwords 廣告全球化銷售與曝光度。而
的 timestamp 可以讓版本控制準確至百萬分之網路應用程式開發者或其他企業也可以在製作
一秒。而應該保留最新的幾份版本資料，可由和發佈應用軟體上有更多的選擇，可避免設立
Bigtable 或客戶端應用程式所設定，於圖 5-1 中和維護基本設施的麻煩和昂貴成本。
以儲存網頁資料為範例 [4] ，每個 anchor cell 可但在 2008 年 6 月 26 日的雲端運算 Structure
以有一個版本的資料，而 contents: column 則可會議 [5] 中， Joyent 創辦人兼技術長 Jason
有三個最新版本資料，如範例中有 t3 、 t5 、 t6 Hoffman 提出質疑，使用雲端運算不應像是出賣
三個 timestamp 的資料。靈魂，若使用者採用 GAE 平台執行應用程式，
5.2 APIs 其資料持續累積儲存在 BigTable 中， BigTable
BigTable 的 API 提供以下功能：
提供高效能與高可靠度的方式來存取分散式資
(1) 建立、刪除 table 與 column family
料庫中的資料。一段時日之後，若有其他雲端
(2) 修改 table 和 column family 的存取控制權限
運算平台推出，恐因儲存在資料庫中的資料無
(3) 支援讓客戶端可以撰寫 script 放到伺服器上
法取出移轉至其他平台，而迫使使用者放棄使
執行，以便在 BigTable 中寫入或刪除資料。用新的平台，繼續使用 GAE 的平台。雖然
Hoffman 對 GAE 的質疑，其實是在推廣 Joyent 的
此 script 僅支援由 Sawzall 語言撰寫，該語言雲端運算平台 Cloud 9，但也無疑提出了各家雲
是由 Google 為了處理資料所發展。端運算平台之間，目前並沒有標準存在的問
(4) MapReduce 可以使用其 APIs
題，恐影響使用者來去自由的權益。
5.3 BigTable的基礎架構此外， GAE 平台因侷限於安全性問題，且
BigTable 是建立在 Google 所發展的其他幾目前只限於以 Python 程式語言發展，箝制了程
個基礎架構之下。式開發者可運用的資源，使用者必須在開發自
(1) 使用 GFS，用以儲存記錄及資料，是一個高由度與應用程式網站維護成本之間有所抉擇。
可擴充性的分散式檔案系統，每個儲存的基計畫相關資訊
本單位 chunk 為 64MB 。本文為工研院資通所執行經濟部 97 年度寬
(2) 以 Google SSTable 檔案格式儲存 BigTable 的頻無線通訊關鍵技術發展計畫「 IMS
資料， SSTable 提供持續性且不變的映射 Technology 」，計畫代號為 7352B41200 之部分
(key->value)，其中 key 和 value 可以是任意字計畫成果。
串的格式，可有效率地在特定的 key 範圍中
反覆查詢其 key/value pairs 。參考文獻
(3) Chubby 提供高可靠度且穩固的分散式資料 [1] Google App Engine Documentation,
鎖定服務，負責分配 tablets 與管理其鎖定機 http://code.google.com/appengine/
制，並保證同一時間內只能有一個 [2] Sanjay Ghemawat, Howard Gobioff, and
TabletServer 可以對應存取使用 tablet ，達到 Shun-Tak Leung, “The Google File System.”
同步的作用以提高 BigTable 之可靠度。 [3] MapReduce: Simpli_ed Data Processing on
Large Clusters, Jeffrey Dean and Sanjay
６．結論 Ghemawat, Google, Inc.
[4] Fay Chang, Jeffrey Dean, Sanjay Ghemawat,
Google 雲端運算平台 GAE 推出後，結合 Wilson C. Hsieh, Deborah A. Wallach Mike
Google 背後強大技術支持，預估 3 年內將可網羅 Burrows, Tushar Chandra, Andrew Fikes,
全球近 88.252% 的企業與個人網站，進一步擴大 Robert E. Gruber “Bigtable: A Distributed

Storage System for Structured Data”, OSDI,
2006.
[5] Structure 08,
http://events.gigaom.com/structure/08/
作者簡介
張銘峰
現任職於工研院資通所網路技術
組核心網路系統部軟體工程師，交
通大學資訊科學研究所碩士，從事
無線通訊網路 (3G GPRS Core
Network) 、多媒體訊息服務
(MMS)、號碼可攜服務相關研究。
E-mail: changmingfeng@itri.org.tw
許閔雄
組核心網路系統部工程師，畢業於
交通大學資訊科學研究所，專長為
無線通訊網路技術。
E-mail: LucienHsu@itri.org.tw
陳桂慧
組核心網路系統部工程師，畢業於
元智大學資訊科學研究所，專長為
無線通訊網路技術、 TTCN-3 測試
平台技術等相關研究。
E-mail: chloe@itri.org.tw

Google App Engine介紹

Uploaded by

Copyright:

Available Formats

You might also like

Google App Engine介紹

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Google App Engine介紹

Uploaded by

Copyright:

Available Formats

雲端運算平台Google App Engine簡介

An Introduction to Cloud Computing Service Platform - Google

關鍵詞 (Key Words)

24 ICL TECHNICAL JOURNAL 12.25.2008 第126期電腦與通訊

GAE 平台讓 Web 應用程式開發者用簡單的 main() 函式的 handler scripts，其中 handler script

ICL TECHNICAL JOURNAL 12.25.2008 第126 電腦與通訊 25

26 ICL TECHNICAL JOURNAL 12.25.2008 第126期電腦與通訊

ICL TECHNICAL JOURNAL 12.25.2008 第126 電腦與通訊 27

GFS master 會將三種 metadata 儲存在記憶

28 ICL TECHNICAL JOURNAL 12.25.2008 第126期電腦與通訊

MapReduce 是一種 Prgramming Model[3] ，

ICL TECHNICAL JOURNAL 12.25.2008 第126 電腦與通訊 29

30 ICL TECHNICAL JOURNAL 12.25.2008 第126期電腦與通訊

ICL TECHNICAL JOURNAL 12.25.2008 第126 電腦與通訊 31

32 ICL TECHNICAL JOURNAL 12.25.2008 第126期電腦與通訊

ICL TECHNICAL JOURNAL 12.25.2008 第126 電腦與通訊 33

You might also like

Google App Engine介紹

Uploaded by

Copyright:

Available Formats

You might also like

Google App Engine介紹

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Google App Engine介紹

Uploaded by

Copyright:

Available Formats

雲端運算平台Google App Engine簡介

An Introduction to Cloud Computing Service Platform - Google

關鍵詞 (Key Words)

24 ICL TECHNICAL JOURNAL 12.25.2008 第126期 電腦與通訊

GAE 平 台 讓 Web 應 用 程 式 開 發 者 用 簡單 的 main() 函 式 的 handler scripts，其 中 handler script

ICL TECHNICAL JOURNAL 12.25.2008 第126 電腦與通訊 25

26 ICL TECHNICAL JOURNAL 12.25.2008 第126期 電腦與通訊

ICL TECHNICAL JOURNAL 12.25.2008 第126 電腦與通訊 27

GFS master 會將三種 metadata 儲存在記憶

28 ICL TECHNICAL JOURNAL 12.25.2008 第126期 電腦與通訊

MapReduce 是一種 Prgramming Model[3] ，

ICL TECHNICAL JOURNAL 12.25.2008 第126 電腦與通訊 29

30 ICL TECHNICAL JOURNAL 12.25.2008 第126期 電腦與通訊

ICL TECHNICAL JOURNAL 12.25.2008 第126 電腦與通訊 31

32 ICL TECHNICAL JOURNAL 12.25.2008 第126期 電腦與通訊

ICL TECHNICAL JOURNAL 12.25.2008 第126 電腦與通訊 33

You might also like

24 ICL TECHNICAL JOURNAL 12.25.2008 第126期電腦與通訊

GAE 平台讓 Web 應用程式開發者用簡單的 main() 函式的 handler scripts，其中 handler script

26 ICL TECHNICAL JOURNAL 12.25.2008 第126期電腦與通訊

28 ICL TECHNICAL JOURNAL 12.25.2008 第126期電腦與通訊

30 ICL TECHNICAL JOURNAL 12.25.2008 第126期電腦與通訊

32 ICL TECHNICAL JOURNAL 12.25.2008 第126期電腦與通訊