Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 30

淺析大數據對日常生活影響及實例運用(NBA 和 MLB)

第七組 S0862001 陳冠霖 S0862002 鍾艾蓉 S0862025 陳峻睿


S0862026 何明璟 S0862037 吳宸東 S0862038 丘鏡禾 S0862151 張閔皓

一、淺析大數據

(一)過去人們說「知識就是力量」(Knowledge is power),之後又改為
「資訊就是力量」(Information is power),隨著時代的進步,現在「大數
據就是力量」(Big data is power)。舉例來說,我們經常在瀏覽網頁過後,
在社群網站或是搜尋引擎提供的廣告看到與我們瀏覽內容相關的廣告,這些廣
告甚至能跟著我們的喜好而改變內容,這樣的現象引起了我們對大數據的好奇。
大數據在我們的日常生活中扮演了重要的角色,日常生活中的許多面向都受到
大數據的影響。

(二)何謂大數據:

大數據是近年來新穎的一個詞彙,在網路盛行的世代它遍及我們生活中的
許多角落,大 數據是一種科技演進下的產物,近來因為資訊科技越來越複雜,
人們已經無法負荷如此龐大 的資料量,因此必須藉由機器的計算、分析、整合,
才有辦法呈現出完整且經過數據化的資 料,「大數據的定義是 Volume(容
量)、Velocity(速度)和 Variety(多樣性),但也有人另外加上
Veracity(真實性)和 Value(價值)兩個 V」(李欣宜,2015),我們將藉
由 4V( Volume, Velocity, Variety, Verocity)來說明大數據的構成和
特性。

1、 資料量多(Volume)

現在資料的單位可從 TB(一兆位元組)到 PB(千兆位元組),所以我們


無法再 像從前一樣用親手記錄的方式來累積資料數據,變為由機器取代人力,
我們現在所看到 的數據都是「由機器、網路、人與人之間的社群互動來生成。
你現在正在點擊的滑鼠、 來電、簡訊、網路搜尋、線上交易... 」
(Jewel,2015)皆在累積大量的數據。

2、 資料具多樣性(Variety)

大數據資料的來源十分多樣化,但主要可以歸類為結構化資料與非結構化
資料兩種。有些資料經過表格整理,是完整且整齊的,就是結構化的資料。不
過,隨著網路的進步,非結構化的資料也有增加的趨勢,像是網頁的瀏覽紀錄、
通話紀錄、社群軟體、電子郵 件等都屬於非結構化的資料。不同類型的資料也
促進了資料處理能力的進步。
3、 時效性(Velocity)

在網路飛快成長的同時,資料與紀錄也同樣不停且快速的累積,數據的輸
出量越來 越龐大。企業要在短時間內將龐大的資料處理、分析再整合才能發揮
資料的最大價值, 因此所謂時效性是非常重要的。

4、 真實性(Verocity)

在資料龐大如海的狀況下,資料的正確性與真實性是非常重要的,我們必
須「分析 並過濾資料有偏差、偽造、異常的部分」(Jewel,2015),並防止
這些出問題的資料損害 到資料系統整體的完整性,造成決策的負面影響。
(三)大數據的產製過程:

1、大數據生成背景

(1)儲存資料成本下降

在雲端資料處理的方式出現前,儲存數據的成本非常高,導致每隔一段時
間就必 須把部份的老舊的數據資料刪除,以便儲存新的數據資料,這樣一來便
無法留住先前 的資料,數據資料也無法累積。不過在雲端資料處理的方式出現
之後,儲存數據及建 設數據中心的成本大幅的降低,由於成本不高的關係,保
存老舊數據資料的意願性被 提高,有了這些歷史的數據資料,再加上新的數據
資料,通過不同時間的對比,我們 才能發現數據之間的關聯和價值,為大數據
的建設打下基礎。

(2)運行、計算速度提升

隨著網路技術的發展,加上硬體、軟體技術的結合,數據資料的運行、計
算速度 越來越快,發現大量的數據資料之間的關聯和價值的過程要經過儲存、
分析等環節, 若是計算速度不夠迅速,那麼產生大數據的難度會相對提升,所
以,在大數據的發展 過程中,數據資料的運行、計算速度無疑是非常關鍵的因
素。

(3)掌握大數據的必要性

在一個數據爆炸的世代,數據資料在各個領域都占有重要的一席,能夠掌
握這些 數據資料的用處與價值,無論是對個人或是企業的未來發展都有一定的
幫助,在意識 到了數據資料的重要性之後,各領域自然會著手分析這些數據資
料,大數據自然會隨 時間推移而產生。

2、資料、知識與數據

(1)資料
可分為模擬資料和數位資料,是指未經過處理的事物原始記錄,是構成訊
息和知識的原始材料。一般來說,資料是關於事物的單組或多組客觀的事實描
述,而 資料因為缺乏組織及分類,無法明確的表達事物代表的意義。

(2)知識

知識是指對特定主題確信的認識,人們透過經驗或聯想,熟悉或了解某件
事情,這種事實或狀態就稱為知識。此外,知識亦指透過研究、調查、觀察或
經驗而獲得的 一系列資訊,在知識被某些人的群體所共用的情況下,知識可以
通過不同的方式來操作和管理。

(3)數據

數據是由科學實驗、檢驗、統計等方法所獲得的數值。數據具有變異性和
規律性, 這兩項特點又分別對數據的研究提供了必要性及可能性。變異性是指
在不同的時間、 地點測量同一事物的數量特徵會得出不同的結果可能性。而數
據雖然具有變異性,但 根據統計學的研究,單組大樣本的數據其實具有一定的
規律性,而尋找數據的規律就 是研究數據的目的之一。

3、大數據的資料分析方法

(1)可視化分析

可視化分析可說是最基本的一種分析方法,能夠直接簡單的呈現大數據特
點,而 且相對於其他分析方法,可視化分析較為淺顯易懂,一般大眾也能輕易
的理解。

(2)數據挖掘演算法

數據挖掘演算法被統計學家所公認是大數據分析的理論核心,分析的結果
也能被普遍的接受。不同的演算法能夠針對不同的數據類型,以最適合的方式
呈現數據資料本身的特點與價值,另一方面也是因為有這些演算法才能更快速
的處理大數據,發掘大數據的價值。

(3)預測性分析

預測性分析為大數據分析重要的應用之一,透過多筆資料的的比對及分析,
我們能夠得出這些數據的相同處、相異處及規律性,透過這些,我們就能預測
未來的發展 走向,提早作好應對的準備。

(四)市場分析

巨量資料的出現提升了對資訊管理專家的需求求,Software
AG、Oracle、IBM、微軟、SAP、易安信、惠普和戴爾已在多間資料管理分析專
門公司上花費超過 150 億美元。在 2010 年,資料管理分析產業市值超過 1,000
億美元,並以每年將近 10%的速度成長,是整個軟體產業成長速度的兩倍。

經濟的開發成長促進了密集資料科技的使用。全世界共有約 46 億的行動電
話使用者,並有 10 至 20 億人連結網際網路。自 1990 年起至 2005 年間,全世界
有超過 10 億人進入中產階級,收入的增加造成了識字率的提升,更進而帶動資
訊量的成長。全世界透過電信網路交換資訊的容量在 1986 年為 281 兆億位元組
(PB),1993 年為 471 兆億位元組,2000 年時增長為 2.2 艾位元組(EB),在
2007 年則為 65 艾位元組。根據預測,在 2013 年網際網路每年的資訊流量將會
達到 667 艾位元組。

(五)大數據的商業模式大概可分成幾種:

1、從既有數據變現

2、以數據提升企業競爭力

3、以數據做為服務的基礎與核心,用數據顛覆傳統行業。

模式一,數據本身即為產品或根據數據制定行銷策略、改善產品。例如美
國運通讓持卡人與自己的 Facebook 帳號連結,持卡人成為美國運通粉絲團粉絲
後,美國運通會依據會員在 Facebook 上的活動,提供相應的優惠措施,結合社
交數據和會員資料,就是為了提升消費者辦美國運通卡的誘因。

模式二是藉由數據提升競爭力,這類的大數據專案成效較無法直接反映在
營收上,而是反映在提升內部工作效率或降低決策成本上。例如許多人都知道
LinkedIn 透過數據精準推薦職場人脈給用戶,卻不知道 LinkedIn 在公司內部推
出數百款數據分析產品,幫助內部員工提升工作效率,其中 Voices 就是一款能
將 LinkedIn 客服內容,在 1 分鐘內快速生成分析報告的數據分析工具。

無論是模式一還是模式二,其實都有掌握過去、預測未來和防患於未然的
共同點,只是一個應用層面是對外,一個對內,這兩種模式常見於既有的企業。

但模式三,也就是以數據做為業務核心的公司,這些公司生來就是要來顛
覆傳統行業,它們打從開業的第一天起就把數據當做業務核心,叫車 App Uber
和防詐騙電話 App Whoscall 是最好的例子。

二、大數據應用於日常的影響

(一)醫療

現今的高齡化社會,需要醫療照護服務者急遽增加,在醫護人員人力
不足下,大數據結合醫療技術成了解決這些問題的辦法之一。目前大數據
在醫療中主要的應用領域有五方面,包含精準醫療、輔助診斷、藥物研發、
醫學影像和健康管理。

1、診斷輔助系統

IBM 的超級電腦可以用來協助醫生聽診,超級電腦會陪同醫生聽診,
聽診完它會從海量數據分析透過病徵列出病患可能罹患的疾病是哪些,醫
生看了超級電腦的分析報告以後,就可以再多問病人問題,來縮小看診判
斷誤差。尤其是遠距醫療時,這個服務特別受用。

2、精準醫療

除了透過病患描述自身症狀的傳統方法,再加上生物醫學檢測,並將家族
病史、種族等個人資料透過人體基因資料庫進行比對分析,從中選出最適合病
患的治療方式。當基因檢測與大數據結合,能在預防、個人醫學以及健康照護
等領域有所突破。

3、藥物研發

透過導入大數據與人工智慧的機器學習技術,藥廠不但可擴大自身數據的
完整性,強化電腦輔助的藥物篩選與設計,更能節省不同階段新藥研發所需時
間,提高成功機率。生技藥廠最常見的是大數據、資料庫應用,例如開發病友
用藥 APP,可用於衛教與提醒用藥時間。

4、醫學影像

透過各醫院巨量資料匯集,讓機器從中智能萃取重要的特徵與預測模型,
為醫療團隊精準診斷、治療、復健、癒後等醫療照護決策提供的重要參考訊息。
例如 IBM 的健康照護平台可以藉由人工智慧演算法,從電腦斷層影像辨識肺栓
塞,也可以從心臟超音波資訊偵測到異常的心室壁活動。

(二)交通

近幾年政府積極推動公共運輸的相關建設,基礎交通建設融合大數據的技
術,使得智能交通產業逐漸興起。

1、公共運輸數位轉型

現行公共運輸無法滿足民眾的需求,應用大數據與厚數據的分析結果,
協助公共運輸進行數位轉型。交通部運輸研究所與政府交通局合作,啟動
系統,為鼓勵民眾使用大眾運輸工具,減少私人運輸工具使用。推出交通
月票和手機 App 規畫路線服務等。

2、路線與班次調整
透過電子票證與公車動態系統,收集公車運輸資料,分析公車運輸乘
車資料,掌握公車與乘客的移動狀況,進行公車路線與班次調整。透過悠
遊卡乘車資料,了解乘客上車點與下車點的分布,與乘客數量的大小,掌
握同個上車點的民眾大概都是移動到哪個區域居多。亦分析公車動態資料,
將同一路線公車整日的到站動態資料,利用時空分析圖,呈現每個時段出
發的公車行車軌跡。

3、管理高速公路車流和預測行車時間

透過高速公路電子收費 ETC 資料,可以掌握高速公路上車輛的行車狀


況,協助進行交通的管理和決策。也可透過 ETC 資料,掌握大客車的行車
時間,收集超時的大客車資料,也可以獲得嚴重超速的車輛資料。

(三)商業行銷

海量數據的挖掘和利用,不僅帶來了新一輪生產率的增長,還在持續
改變著企業的生產、思維方式。有效地組織和使用大數據也顯得尤為重要。
物流企業對大數據分析的應用主要包括:精準預測、提高分揀效率、優化
商品存儲

1、精準預測

通過用戶的歷史記錄,運用數據挖掘、數據分析等技術構建模型,從
而精準預測出產品在不同地域、不同時點的未來需求,從配貨規劃、運力
調配以及末端配送等環節做好及時防範,平衡訂單運營能力,實現現有資
源配置的最優化。

2、提高分揀效率

運用智能算法優化物流作業流程,企業的物流運營中心可根據數據算
法保障每名物流作業人員隨時隨地處於他的最優揀貨路徑上,由系統智能
推薦下一個要撿的貨物在哪裡,永遠不需要走回頭路,極大地提高了分揀
效率,避免了重複作業。

3、優化商品存儲

商品存儲位置的優化能夠提高倉庫利用率、有利於商品的搬運和分揀。
運用大數據技術中的關聯模式法能夠獲知不同商品的關聯度,使物流企業
明確應該把哪幾類商品集中放置以便分揀,哪幾類商品應該儘快出貨防止
在存儲中造成價值流失。

(四)金融業務
資訊、金融保險、政府及批發貿易四大產業,在大數據應用價值上最具潛
力,金融業是大數據應用的重點行業之一。金融業是數據生產、倉儲、處理及
傳輸的集合,運用大數據資料進行「客戶行為的預測」,期能突破地理空間上
的限制,建置更貼近客戶需求的經營模式。金融業務於大數據之應用,可概分
為四大類:客戶關係管理、精準行銷、風險管理、優化服務。

1、客戶關係管理

整合金融業自身業務所採集到的客戶資料,客戶在社群媒體上的行為
數據、客戶在電子商務網站的交易數據、企業所在的產業鏈上下游外部環
境發展情況的資料等,以擴展對客戶的瞭解。

2、精準行銷

對客戶群進行精準定位,分析出潛在金融服務的需求,運用客戶行為
分析結果,發展針對性的客群行銷推廣等,有效提升經營績效。

3、風險管理

建構健全的風險管理體系作為防禦,持續地執行各類風險管理並及時
地反應,以降低在貸款與營運上的風險。

4、優化服務

透過監控各種市場推廣通路運作的狀況,將客戶行為轉化為資訊流,
從中分析並瞭解客戶的往來習慣及使用行為,進一步分析及預測客戶潛在
的需求,將精準行銷擴展至服務的創新與優化。

三、大數據的隱憂

(一)隱私保護

透過大數據的統整分析,我們的喜好、常去的地方和常瀏覽的網站都會被
記錄下來,企業甚至能利用這些資料在網頁上顯示與我們瀏覽記錄及喜好相關
的廣告,這些廣告的內容也會隨著我們的改變而變換內容。

美國連鎖賣場 Walmart 就從各種顧客的消費行為的大數據中找出最能吸引


顧客消費的商品,將其商品架放置在賣場入口處;博客來網路書店同樣利用大
數據模式提供顧客客製化的推薦書單。然而,這種大量資料蒐集並分析的過程
可能忽略個人隱私的保護,因此,如何在資料分析的過程中仍保護個人隱私,
已成為極重要的議題。

除此之外,現在網路上的資料是可以被任意修改的,所以也無法確保我們
所獲取的知識一定是正確的,因此在資料龐大如海的世界裡,我們要必備的能
力即是辨析資料的正確性,多方搜尋,透過不同的角度來解讀。

(二)倫理隱憂

大數據技術要求實現數據的自由、開放和共享。我們由此進入了數據共享
的時代,但我們同時也時刻被暴露在「第三隻眼」的監視之下。因此,大數據
技術帶來了個人隱私保護的隱憂,也帶來了個別組織對數據的濫用或壟斷的擔
心,特別是人類自由可能被侵犯,由此產生了大數據時代人類的自由與責任問
題並對傳統倫理觀帶來了新挑戰。

現代智能技術為數據的採集提供了方便的技術手段,並形成了從天上到地
下的一個全方位的監控,構成了一個立體的天羅地網。前東德曾僱了數十萬的
秘密警察來監控其國民的言行,花費了巨大的人力及物力。如今利用現代智能
技術,可以在無人的狀態下每天 24 小時全自動、全覆蓋地全程監控,毫無遺漏
地監視著人們的一舉一動。在大數據時代,我們的一切都被智能設備時時刻刻
跟蹤著,讓人真正感受到被天羅地網所包圍,一切思想和行為都暴露在「第三
隻眼」的眼皮底下。

(三)數據資料正確性

在資料越來越龐大與多元的時代,資料的正確度是一個非常重要的問題,
任何細微的錯誤都有可能造成無法挽回的損失。「大量的數據」和「大量的好
數據」是有差別的。劣質數據裡有很多錯誤、很多遺漏的數據,是會造成誤解
的。為了正確解讀資料的意義,你必須丟棄某些資料。想要正確分析大數據,
首要任務就是將哪些資料納入分析中,又必須捨棄哪些資料。

另外,當我們在加入某一個網站的會員時,常常需要提供自己的姓名、電
話、地址和電子郵件等個人資料,這個時候我們就出賣了我們的個資。舉例來
說,當你開啟 LINE 時,你總會收到一些莫名的好友邀請,而這些邀請都是透
過手機號碼連結到你的帳號的,這便是我們的手機號碼曝光的一項證據。

(四)過度仰賴大數據

大數據是一體兩面的,運用適當可幫企業創造效益,但運用不當則可能造
成企業的損失。部分的人過於迷信大數據,即使數據是客觀且科學的,仍然無
法預防某些有心人士利用數據來誤導或欺騙大眾,這樣一來將導致不可收拾的
嚴重後果。而大數據雖然能預見未來的可能性,然而創新和變化卻是無法預測
的。若公司全都仰賴大數據做決策,有時資料過於龐大,可能出現似是而非的
現象,甚至扼殺新的創意,最重要的是,大數據不一定能因應突發狀況進行調
整,像是英國零售業 Tesco 因過度仰賴大數據,而導致創意退化所造成的失敗,
即帶給零售業一個重大的警訊。
(五)去人性化

數據幫助我們改善生活,但是數據不是一切,千萬別過度依賴資料,而失
去人性。假使我們完全依照大數據所得的分析結果,來推斷別人是否將會在未
來犯罪,而警察在他還沒犯罪前,以預防其犯罪的理由來逮捕他,可以說是侵
害其人權,更踐踏了人性的尊嚴。

(六)作為數學毀滅性武器

首先,是凱西‧歐尼爾(Cathy O’Neil)在《大數據的傲慢與偏見》中提
出的論點。凱西‧歐尼爾是一位投身過金融界、新創企業的資料科學家。在這
本於今年 6 月翻譯出版的書裡,他指出許多領域中大數據應用的「危害」。她
主張:相較於其帶來的好處,大數據一不小心就可能成為一種「數學毀滅性武
器」。這聽起來驚悚,但事實上,從凱西‧歐尼爾所舉出的案例來看,一點也
不誇張。

2013 年美國賓州的一個小城市,當地警察局長為了因應警力短缺的窘境,
引入了一套犯罪預測軟體。這套軟體透過分析犯罪歷史數據,預測最可能發生
犯罪活動的地區。一年後,整體的犯罪率確實下降了,但副作用卻是那些較常
發生輕微犯罪事件的貧困社區,在數據的回饋作用下愈加成為警力佈署的重點
區域,進而使得生活在這些地區的窮人們得忍受不合理的盤查甚至拘捕。

上述例子中的大數據應用成了一種毀滅性武器,透過一定程度的「不透
明」模型,危害了某一群人的利益或甚至生存機會。

四、結論

美國顧問機構顧能(Gartner)分析師霍華‧瑞斯納(Howard Dresner)在
1980 年代提出「商業智慧」概念,指有系統地儲存企業內、外部資料,並加以
分析,輔助商務決策。瑞斯納認為,經理人應該親自經手資料,以達到迅速決
策與提高生產力的目標。

商業智慧可分析過去發生什麼事,以及為什麼會發生這件事,像是利用統
計學回歸分析,從A產品過去一年的銷量結構,找出銷售下滑的原因。大數據
則可根據目前發生了什麼事,預測未來將發生什麼事。例如,電商可即時監控
銷售情況,預測顧客回購周期。

相較於傳統人文主義將「人」視為獨立自主的個體,《人類大命運》的作
者哈拉瑞(Yuval Noah Harari)認為,大數據發展所預示的未來中,「人」恐
怕將失去這樣的特殊性。

哈拉瑞指出,如今我們全都是一個新興宗教的信徒:數據主義。我們可以
把這種數據主義的信仰,看做是推崇大數據應用到極致的一種版本。這樣的數
據主義信念,不僅透過資料數據判斷、預設人們的行為,實際上更是將「人」
看做各種資料、數據的積累。

我們手上戴著能夠即時監控生理數據的數位裝置、我們使用蒐集身體內部
資訊進行病理判斷的各種醫療科技、我們在網路及社群媒體上留下的照片、記
錄及各類數位足跡,這些資料、數據不僅堆疊成為「我」,還成了各種演算法
決定我的選擇與行為。

然而,若能有效的運用大數據,不管是在醫療、商業等領域,甚至到國防 、
太空,都能成為一股巨大的助力。但是現在大數據仍是用在較專業的領域,若
要讓大數據更貼近我們的生活圈,還有很大的發展空間。

我們認為與其讓大數據的益處被少數人所掌握與使用,大數據在日常生活
的的應用層面可以更加廣泛,讓一般民眾了解如何使用大數據,並藉由大數據
提升生活品質,才能讓大數據帶來的效益發揮到最大,而不會使大數據成為專
業人士才能瞭解的抽象詞彙。

另外這幾年來大眾所擔心的就是機器人與人類競爭工作的問題,目前已有
使用大數據的機器替代人類工作的情況發生,雖說節省人力成本是企業的追求,
但為了以免這種狀況遍及所有的行業,在一定的限度內,限制大數據的發展是
必要的。

儘管大數據與人工智慧在許多領域比人類更有優勢,但並不代表機器無所
不能。它缺少了關懷、同理心和情感,也無法理解抽象事物,例如繪畫、藝術、
創作等領域都是機器無法達成的。我們認為未來人類和機器的關係將變得越來
越緊密,甚至在有些工作上無法不使用它們,我們應該換個角度思考,學會如
何與大數據共存,這才是值得我們探討的。

避免大數據的不當使用,在大數據的發展過程中一定要制定一些法律規範 ,
執政者必須得要制定規範來防止這些情況發生,例如法律必須明確訂定大數據
的使用範圍,不論是公部門或私部門在使用上要有一定的限制及參考依據,才
不會侵害隱私和造成權力氾濫。大數據看似是隨資料科學與數位科技進步而出
現的「禮物」,但它必然也同時內蘊藏我們必須面對的風險。

我們應該認知到大數據只是輔助工具,不該過度的依賴,現階段該做的是
提升自己的能力,發揮我們的特長,並學習如何善用這些工具的技能,這將是
會是未來各領域人才的必備優勢。

五、MLB 大數據資料應用

美國職棒大聯盟為現今世界最頂尖的棒球殿堂,每年有數以萬計的球員,
自小訓練,只為登上這個舞台。而球團應如何從這些佼佼者中,選出適合自己
球隊,並分配出最有效的酬勞,則有勞於今天的主題「大數據資料分析」。

在講解大數據資料分析前,我們先做大聯盟基本資訊的簡述,西元 1876 年
國家聯盟先是成立,其次於 1901 年出現了美國聯盟,最終在兩年後的 1903 年
合併成了現今世界所熟知的美國職業棒球大聯盟。成立的宗旨為:球團間彼此切
磋,共同構築聯盟的繁榮。聯盟當前合計共有 30 支隊伍,包含一支非美國本土
的球隊:多倫多藍鳥隊,這 30 支球隊於 6 個月的賽程中,須完成 162 場的例行
賽,因此球迷入場看球的門票成為了球隊的重要收入來源,外加電視轉播權利
金(FOX、ESPN 體育台)。由於通訊科技的日新月異,使大聯盟於西元 1939 年,
即開始電視轉播的放送,因此延續至全球化的現今,棒球在美國大聯盟的加持
下,成為了世界各地所為之瘋狂的運動。

簡介完大聯盟後,我們將了解如何去做球場上資料的蒐集,2006 年美國大
聯盟於季後賽開始採用 Pitchf/x 分析系統於球場擺設了約 20 個資料收集器,
客觀的紀錄投手出球軌跡、旋轉與變化位置,於一場比賽中約可獲得 30 萬張高
畫質的相片數據,將這些資料的結合統計學,使投手和打者於賽後的檢討更有
效率也增進自己棒球的觀念。

2015 年則是出現了更強大的資料分析系統「Statcast」,應用於大聯盟全
部 30 座球場,其結合了兩種器材,第一是高速攝影機,第二則為都普勒雷達。

上圖為「都普勒雷達」其功能有如船上的雷達,拍攝了球場上每位選手
的一舉一動,也因其能夠慢動作回放,使比賽的判決更加精確。
上圖為「高速攝影機」能夠偵測球、跑者的速度和方向,使教練和球員能
在賽後做完整的檢討。
上兩圖為實戰中透過 Statcast 所直接計算出的結果,其中 Batted ball
speed 擊出瞬間初速、Launch angle 擊出瞬間角度、Distance 飛行距離、
Hang time 飛行時間,經由這些專業數據的揭露,能使球迷在觀看賽事的過
程中,了解到更多投打間對戰和守備員移防的細節,進而豐富自身對科技棒
球的知識。

透過這些資料的蒐集及分析,我們能做出球團、投手、守備大數據對這三
大面向的剖析。球團:球迷的經營,為球團的重要課題,因為入場門票和球員周
邊,皆為球團收入的主要來源,因此現今有許多球隊,特別針對球迷做意見回
饋,並統計分析出最適的營利模式。投手及守備:此兩者於場中是密不可分的,
投手可運用上述所提的資料分析系統,得出每球的進壘位置、轉速、球速…,
有利於比賽後,投捕之間的檢討更精確而有效率。守備則是可以透過分析出打
者過往擊球後的落點,提前做好佈陣(內野佈陣趨前,外野防守後退),使球隊
獲勝的機率大幅增加。由於大聯盟與球團對大數據的利用,大聯盟比賽的可
看性以及附加價值又被推向更高的境界。

總結,事實上於 Pitchf/x 和 Statcast 發展出來之前,數據資料的分析


早已運用到大聯盟的賽場上,例如西元 2002 年奧克蘭運動家隊,轉變以往球
員的佈局方式,成功追平聯盟史上 20 連勝的紀錄,2004 年波士頓紅襪隊更
藉此策略,一舉獲得當年世界大賽冠軍。鑒於過往的這些成就,使得大數據
的應用能更被後人開發,徹底改變了現今運動場上的發展。
這張圖片代表所有打擊的基本數據,包括一些基本的數字再加上一些統計
過後的數字像是打擊率、上壘率和長打率,還有最重要的整體攻擊係數(OPS),
也就是上壘率和長打率的總和。因為他代表的是一名球員的攻擊能力。一位
OPS 在 0.900 以上的球員,通常代表著這位球員擁有極佳的攻擊能力。在這個數
據排行榜的前幾名球員,通常擁有超過 1.000 的 OPS。

上圖為投手的多方面數據,例如:被安打、全壘打數、四壞球保送次數,其
中包含最重要的 ERA 也就是防禦率或是自責分率,一般而言在長期的職棒季賽
中,防禦率在 3 至 4 的投手算是稱職的投手,2 至 3 算是很優秀的投手,2 以下
則是頂尖的投手。根據以上兩張的數據能知道球員在場上的表現,使教練和球
員能在賽後針對這些情況做快速的調整。
接下來是選手單方面的數據,從多名選手中挑選 OPS(攻擊係數)最高的球
員,洛杉磯天使的 Mike Trout。他在 2011 年球季升上大聯盟。2014 年、2016
年及 2019 年獲得美國聯盟 MVP。2019 年,《福布斯》公布的全球運動員收入排
行榜,Mike Trout 以年收入 5060 萬美元,排名第 17 名。

從 Career stats 中能發現 Mike Trout 自 2017 年開始 OPS(攻擊系數)幾乎


都超過 1,再以上表來看,平均值不過只有 0.7,因此代表著 Mike Trout 具備
著超乎一般人的打擊能力。
這張則代表著 Mike Trout 的安打、全壘打區域及擊出的速度。根據這幾張
圖的數據,投手能知道當對上 Mike Trout 時該採取何種球種及位置來對付,而
打擊者本人也能因數據的結果,依自己的弱點位置或球種來加以補強,藉以創
造自己更高的價值。

這張圖是某一場比賽的所有打擊的所有數據,能透過此數據來判斷在這場
比賽中,每個打擊的表現是好或是壞。
這張則是跟上一張同一場比賽中,當哪個打擊遇上哪個投手時而造成出局
的各種數據,包含打出的球速、距離和仰角。

這張是投手於比賽當天各種球種的進壘點。可以根據此圖做投球上的調整
使投球的位置更精準。

這張是打擊出去球所飛向的位置,雖然這張圖的用途較小,但是他還是一
項數據,這也是一場比賽中之所以會有很多數據但是並不代表所有的數據都很
有用途,因此更需要分析團隊挑出對球隊有用的數據加以分析,製造對球隊的
改善並帶來最佳的效益。

這是比賽當天投手投各種球路的情形與相關數據分析。因此打者可以根據
每個投手可能的球種作相對應的應對。
上圖為比賽當下,透過數據資料分析出兩隊的最終獲勝機率,其分析內容
不僅僅是透過當下比分情況,而是多了過往雙方交手內容、場上球員表現狀況,
使得分析出的結果更具可信度和有效度。

六、NBA 大數據資料應用

NBA 歷史

最早是在 1946 成立 BAA,當時的競爭對手還有 NBL 和 ABA。1949 BAA 和 NBL


合併成 NBA,1967 舊 NBA 擁有轉播權和比較優秀的球員而 ABA 擁有新的制度,
且較具開放性、娛樂性以及自由度的合併成新 NBA。
NBA 可以分成東西兩區,一區各 15 對,賽制主要分成例行賽和季後賽,例
行賽有 82 場,而季後賽是由東西區的前八強所進行的複賽,最終贏家會成為當
年度的總冠軍。NBA 的行銷手法非常多元,其中以廣告和轉播為主,例如重點
賽事都會進行全國電視轉播,且比賽時間會分開,這樣球迷可以看到每場比賽。

NBA 在大數據上的應用,第一種是基礎數據,基礎數據就是球員的基本資
料,可以看到這個球員擅長的部份,像是在這張圖,可以看見 Stephen curry
為當年度總得分最多的球員。
第二種是進階數據,左邊的圖是 Stephen curry 在各位置的投籃命中率以
及和聯盟其他球員的命中率比較,從圖中可以看見他的三分球命中率高於平均,
可見他是擅長三分球的球員。右邊的圖是 WAR 值(一名球員(通常是先發球員)為
球隊帶來的勝利,能比相同位置的球員多多少場。於 2019 年時,Stephen
curry 的 war 值為 13.9,可見其對於球隊的重要性。這張投影片的左圖為球隊
之間的比較,在比賽開始前可以透過數據了解兩邊球隊的戰力分析,以及最近
的球隊狀況。

右邊的圖片是球員的各人數據比較,而明星球員通常為該隊的指標性球員,
而在賽前通常會拿明星球員的數據來做比較,可以看出誰更有機會帶領球隊勝
利。

在 2021 年 Stephen curry 迎來了生涯爆發(拿到了今年的得分王),且他的


平均得分為 24 分,而今年他平均得到 32 分。從這張圖可以看出他在主場的得
分表現比客場的表現還要優秀(他的主場三分球命中率,出手命中率、罰球命中
率都比客場還要高)

他在 4 月和 5 月打出瘋狂的表現,場均可以達到 37 分,相比以前高上許多,
從這張圖還能看出每天球員的表現,還有是否為先發球員,還有平均上場時間
的表現。
此張圖為 Stephen curry 對上各隊的表現,可以看出他對哪些球隊有比較
佳的表現,對哪些球隊有比較差的表現,甚至可以看出他在隊上 76 人對的時候,
有單場 49 分的瘋狂表現。

近年來籃球從以往的禁區搏鬥,節奏比較慢的球賽,到現在不斷的快攻與
三分投射來增加比賽的速度。而勇士隊為帶領時代改變的球隊,而其明星球員
Stephen curry 則是這個推動時代改變的引領者。他的三分球命中率平均為
0.434,是非常高的個人數據。
而勇士隊的三分球出手數是歷史上數一數二高 。

在高命中率又高出手數的狀況下,可以用有效命中率(EFG%)來衡量,一般
進球是兩分,三分球是三分,所以同一次出手,三分球是兩分球的 1.5 倍得分
效率,這公式是拿(進球數+0.5 的三分球進球數)/出手數,高達 56%的 EFG 歷史
之最。
介紹大數據對現代籃球進攻的影響(Morey 的魔球理論)

莫雷出身自西北大學和麻省理工史隆管理學院,擁有電腦學位及 MBA 的碩
士,這幾年來,精研大數據的莫雷,為火箭隊規劃的戰略,訂出了三分球戰術,
根據哈佛商學院的報導,莫雷發現三分球的得分效率比兩分球多出 50%,而且
在兩側邊線的三分球命中率又高於正中間,(因為三分線的形狀使角球三分靠
近籃筐),因此教練團設計出讓三分射手能在邊線出手的戰術。

而且莫雷藉由球場上各個位置出手的命中率分析指出,長距離的兩分投籃
每次嘗試的平均得分較低,因此如果要拿兩分球,那就在禁區內的取分率較高,
因此,這個賽季火箭隊在禁區內投籃命中率為 82%,禁區內命中率第二高的隊
伍只有 71%。

藉由統計數據及期望值的應用,認為 1.衝擊籃框(近框攻擊)2.出手三分 3.
上罰球線 是最有效率的得分方式。我以各隊本季在各個位置出手的投籃期望值
為例:

 
 

如果三分球戰術是有用的,那麼當火箭隊三分球命中率高的時候,贏球的
機率就高,當三分球老投不中的時候,便容易輸球。關鍵的第 7 戰火箭隊三分
球命中率 15.9%,勇士隊 41.0%,火箭隊以 92 比 101 分落敗。
但哈佛商學院也指出三分球至上戰術的風險,第一,雖然三分球的得分可
能更有效率,但如果一支球隊沒有好的三分球射手,這個策略就無法執行。

結論:雖然根據大數據理論三分球至上的戰術可以提升球隊的進攻火力及
場均得分,但是籃球畢竟是一項很依賴當下手感及技術的運動,在一場比賽中
投不進三分球就是投不進,各隊的教練應該要適時的調整戰術,而不是為了投
三分而投三分,這樣就本末倒置了。

火箭魔球理論代表球星  (James Harden)

James Harden 出生於美國加利福尼亞州的洛杉磯,為美國職業籃球運動員,


主打得分後衛位置,也能打控球後衛位置,現效力於 NBA 布魯克林籃網。

哈登大學時效力於亞利桑那州立大學,之後在 2009 年 NBA 選秀大會中被奧


克拉荷馬城雷霆以首輪第三順位選中。2011–12 賽季獲選 NBA 年度最佳第六人,
並幫助球隊打入總決賽。2012–13 賽季,哈登被交易到休斯頓火箭。來到休士
頓後,哈登成為了聯盟最優秀的籃球員之一,甚至被譽為「現役最強球員」。
職業生涯八次入選全明星陣容,並五次入選年度第一隊,一次入選年度第三隊。
其優秀的得分身手使他每年皆被視為獲得年度最有價值球員獎的熱門人選,並
成功在 2017–18 賽季力壓雷霸龍·詹姆士勇奪最有價值球員。

此外,哈登也是美國國家男子籃球隊成員,曾代表美國隊參加 2012 年倫敦


奧運會以及 2014 年世界盃籃球賽,均終獲得了冠軍。2020 年,《福布斯》公布
的全球運動員收入排行榜,哈登以年收入 4780 萬美元,排名第 17 名。
為什麼我會說 James Harden 是火箭魔球理論代表球星呢? 從 Harden 生涯
數據我們可以看出 Harden 在生涯初期效力於雷霆隊時,雖然場均出手次數只有
介於 7 到 8 次,但是他的三分球出手次數就多達 4 次;之後轉隊到火箭隊後,
Harden 成為了球隊的一哥,他每一年的平均三分球出手次數直線上升,從 12-
13 年賽季的 6.6 次到 18-19 年賽季誇張的 13.2 次;至於罰球的部分,12-13 年
到 19-20 年都是全聯盟第一,生涯場均罰 8.7 球,非常得嚇人,這就是為什麼
Harden 有一分耕耘,一分收獲的稱號。
最後,我在 PPT 的最後一頁統整了 Harden 在 2018-2019 年賽季與全聯盟球
員平均出手次數的比較,我們可以看到 Harden 場均投 13.2 顆三分球,聯盟平
均為 3.2 顆;Harden 場均罰球 11 次,聯盟平均為 2.31 次,這些數據再再的說
明 Harden 是現代籃球的傳奇球星。

工作分配表

會二甲 S0862001 陳冠霖 NBA 球員數據分析

會二甲 S0862002 鍾艾蓉 大數據隱憂+結論

會二甲 S0862025 陳峻睿 MLB 球員數據分析

會二甲 S0862026 何明璟 大數據基本概論與市場分析

會二甲 S0862037 吳宸東 NBA 現代籃球理論及影響

NBA 球星 Harden 介紹

會二甲 S0862038 丘鏡禾 大數據應用於日常的影響

會二乙 S0862151 張閔皓 MLB 大數據資料應用

You might also like