FB 240604101821

國防大學管理學院資訊管理學系碩士班
碩士論文
應用機器學習機制於物件影像辨識之研究-以
TensorFlow 為例
A Study on Object Recognition with Machine Learning

Mechanism – a Case of TensorFlow
指導教授：傅振華博士
張敦仁博士
研究生：蔡淳晴撰
中華民國一○八年五月
i
ii
iii
謝辭
在研究所的這兩年時間，研究室已經成為我生活中重要的一部分。非
常感謝我的指導教授傅振華老師，一直以來給予我諸多指導。不管是在每
週回報進度的時候，還是在辦公室老師撥空指導的時候，老師的細心指導
總是讓我受益良多。在與老師的討論中，總能指出我考慮得不夠周全的地
方，並給予改善的建議。當我遇到問題而困惑時，總是不厭其煩地指點迷
津。
接下來我要感謝同寢室的雨萱、佳孟、佩容，就像家人一樣的情感，
實在難能可貴，在這短短的兩年期間，學習烏克麗麗、姐妹聚會、一同出
遊、一起熬夜寫論文，這些回憶都讓人難以忘懷。
還要感謝和我同研究室的小魚，介紹我做臉美容的好地方，讓我皮膚
保持光亮。感謝同班的同學們，謝謝你們陪我一起奮鬥，不管在研究上還
是生活上，你們也教會了我很多東西。在研究室的氣氛總是充滿歡樂，有
你們陪伴的研究室生活，今後也一直會是我寶貴的回憶。
最後，我要特別感謝我的家人，一直以來都支持著我，時時給予我關
懷。當我感到疲憊時，回到家總是能讓我治癒身心。希望爾後能夠更加成
長，來回報我的家人。
iv
摘要
時代轉變，人工智慧(AI)取代人類工作的議題漸漸受眾人關注，從企
業到校園，從社會到家庭，甚至於躍上軍事戰備的舞台。機器學習是一種
弱人工智慧(Narrow AI)，在電腦學習的過程中，會根據與其有關的資訊分
門別類，並在分類的過程中累積經驗，並產生執行分類的方法。而在機器
學習中，模仿大腦的類神經網路(Artificial Neural Network)所建構出的數學
模型，訓練了多層的神經網路，又稱為深度學習(Deep Learning)。
在 1980 年到 2010 年這三十年間，開發出許多不同階層、架構和初始
化方式的類神經網路，而 TensorFlow 就是目前最知名的支持各種神經網路
算法的平台。
本研究主要探討於 TensorFlow 平台，運用現行 Object Detection 演算法
Faster R-CNN 建立深度學習模型，再以 TensorFlow 設計張量運算流程，調
整其張量、參數，並研究所訓練之模型於物件影像辨識中的辨識率，建構可
以提升辨識率的機器學習模型。
關鍵字
機器學習、深度學習、TensorFlow
v
Abstract
The era has changed, and the issue of artificial intelligence (AI) replacing
human work has gradually attracted the attention of the audience, no matter what
persepctives you switch in. Machine learning is a kind of weak artificial
intelligence (Narrow AI). In the process of computer learning, it will classify
according to its related information, and accumulate experience in the process of
classification, and generate methods for performing classification. With the help
of machine learning, we can construct the mathematical model in artificial neural
network of the brain trains which also known as Deep Learning.
During the thirty years from 1980 to 2010, many neural networks of
different classes, architectures, and initialization methods were developed, and
TensorFlow is currently the most well-known platform for supporting various
neural network algorithms.
This research mainly explores the TensorFlow platform, using the current
Object Detection algorithm Faster R-CNN to establish a deep learning model.
By introducing the method, the recognition rate is therefore constructed to
improve the machine learning model of recognition rate.
Keywords
Machine Learning, Deep Learning, TensorFlow
vi
目錄
目錄..................................................................................................................... vii
圖目錄.................................................................................................................. ix
表目錄.................................................................................................................. xi
第一章、緒論....................................................................................................... 1
1.1 研究背景與動機 ..................................................................................... 1
1.2 研究目的 ................................................................................................. 4
第二章、文獻探討............................................................................................... 6
2.1 人工智慧 ................................................................................................. 6
2.2 機器學習 ................................................................................................. 6
2.3 深度神經網路 ......................................................................................... 7
2.4 機器學習機制的計算原理 ..................................................................... 9
2.5 TensorFlow 架構 ................................................................................... 10
2.6 TensorFlow 發展及應用 ....................................................................... 12
2.7 物件影像辨識 ....................................................................................... 14
第三章、研究方法與研究架構......................................................................... 18
3.1 研究架構 ............................................................................................... 18
3.2 研究軟體設備 ....................................................................................... 19
vii
3.3 資料準備 ............................................................................................... 19
3.4 建立模型 ............................................................................................... 20
3.5 建立 TensorFlow 計算圖 ...................................................................... 21
3.6 訓練模型 ............................................................................................... 22
3.7 測試模型 ............................................................................................... 23
第四章、訓練與實作......................................................................................... 24
4.1 環境建置 ............................................................................................... 24
4.2 資料集準備 ........................................................................................... 29
4.3 預訓練模型 ........................................................................................... 32
4.4 建立模型訓練管線 ............................................................................... 32
4.5 訓練模型 ............................................................................................... 33
4.6 匯出模型 ............................................................................................... 34
4.7 測試結果 ............................................................................................... 35
第五章、結論與未來研究................................................................................. 44
5.1 結論 ....................................................................................................... 44
5.2 未來研究 ............................................................................................... 45
【參考文獻】..................................................................................................... 46
【附錄】............................................................................................................. 50
viii
圖目錄
圖 1-1：人工智慧、機器學習與深度學習的關係 ............................................ 2
圖 2-1：激活函數作用程序 ................................................................................ 8
圖 2-2：TensorFlow 架構圖 .............................................................................. 11
圖 2-3：圖片及機器評估結果 .......................................................................... 13
圖 2-4：R-CNN 架構 ......................................................................................... 15
圖 2-5：Fast R-CNN 架構 ................................................................................. 16
圖 2-6：Faster R-CNN 架構 .............................................................................. 16
圖 2-7：Mask R-CNN 架構 ............................................................................... 17
圖 3-1：研究架構 .............................................................................................. 18
圖 3-2：圖片助手下載器頁面 .......................................................................... 20
圖 3-3：典型的 TensorFlow 計算圖 ................................................................. 21
圖 3-4：計算圖建立與執行示意圖 .................................................................. 22
圖 3-5：訓練流程圖 .......................................................................................... 22
圖 3-6：測試流程圖 .......................................................................................... 23
圖 4-1：Anaconda 官網下載頁面 ..................................................................... 24
圖 4-2：Anaconda 安裝畫面 ............................................................................. 25
圖 4-3：CUDA-Enabled Quadro Products 頁面 ............................................... 25
ix
圖 4-4：CUDA 下載頁面 .................................................................................. 26
圖 4-5：cuDNN 下載頁面 ................................................................................. 26
圖 4-6：NVIDIA 驅動程式下載頁面 ............................................................... 27
圖 4-7：jupyter notebook 開啟畫面 .................................................................. 28
圖 4-8：Git 下載頁面 ........................................................................................ 28
圖 4-9：編譯 protobuf 庫 .................................................................................. 29
圖 4-10：LabelImg 工具使用畫面 .................................................................... 30
圖 4-11：編輯 generate_tfrecord.py 代碼 ......................................................... 31
圖 4-12：編輯 generate_tfrecord.py 代碼 ......................................................... 31
圖 4-13：創立 Lable Map.................................................................................. 32
圖 4-14：修改 config 設定檔 ............................................................................ 33
圖 4-15：使用 GPU 進行訓練 .......................................................................... 33
圖 4-16：TensorBoard 監看模型訓練情況....................................................... 34
圖 4-17：匯出模型指令 .................................................................................... 35
x
表目錄
表 2-1：模型讀取與短文摘要表 ...................................................................... 12
表 3-1：軟體載台規格表 .................................................................................. 19
表 3-2：硬體設備規格表 .................................................................................. 19
表 4-1：訓練資料集-辨識目標框的選取比較 ................................................. 36
表 4-2：訓練資料集-含一架以上飛機圖片辨識率比較 ................................. 37
表 4-3：訓練資料集-各別機型圖片辨識度比較 ............................................. 38
表 4-4：預訓練模型-辨識目標框的選取比較 ................................................. 40
表 4-5：預訓練模型-含一架以上飛機圖片辨識率比較-1.............................. 41
表 4-6：預訓練模型-含一架以上飛機圖片辨識率比較-2.............................. 42
表 4-7：預訓練模型-各別機型圖片辨識度比較 ............................................. 43
xi
第一章、緒論
1.1 研究背景與動機
時代轉變，人工智慧(Artificial Intelligence, AI)取代人類工作的議題漸漸
受眾人關注，從企業到校園，從社會到家庭，甚至於躍上軍事戰備的舞台。
美軍發佈的《2013-2017年國防部科學技術投資優先項目》
，「從數據到決策」
專案列為第一，表明在指揮決策上應用人工智慧於大數據技術的重視程度。
Smith, T. et al.(2005)裡頭說到，機器學習是一種弱人工智慧(Weak AI)，
它從資料中取得複雜的函數(或樣本)去學習並創造演算法(或一組規則)，並
利用它來做預測。Mitchell et al. (1997)將其廣泛定義如下：在電腦學習的過
程中，會根據與其有關的資訊分門別類，並在分類的過程中累積經驗，並產
生執行分類的方法。電腦系統在持續進行分類的過程當中會運用到其執行
方法，並且會根據經驗去不斷修正分類的行為。而在機器學習中，模仿大腦
的類神經網路(Artificial Neural Network)所建構出的數學模型，訓練了多層
的神經網路，又稱為深度學習(Deep Learning)。
深度學習允許由多個處理層組成的計算模型來學習具有多個抽象級別
的數據。這些方法極大地改進了語音識別、視覺對象識別、物體檢測以及藥
物開發和基因組學等許多其他領域的最新技術。深度學習透過使用反向傳
播算法來指示機器應如何更改其內部參數來發現大數據集中的複雜結構，
1
例如：LeCun et al.(2015)提出以深度學習通過使用反向傳播算法來發現大型
數據集中的多圖層複雜結構，指示機器應如何更改其內部參數，以用於根據
前一圖層的特徵計算每個圖層中的特徵。他們三者之間的關係如圖1-1所示。
圖1-1：人工智慧、機器學習與深度學習的關係
（資料來源：https://castnet.nctu.edu.tw/castnet/article/11049?issueID=662）
在1980年到2010年這三十年間，開發出許多不同階層、架構和初始化方
式的類神經網路，如卷積神經網路(Convolutional Neural Network, CNN)、遞
歸神經網路(Recurrent Neural Network, RNN)等。其相應的實現平台也獲得
許多重要學者的支持，取得長足進展。TensorFlow就是目前最知名的支持各
種神經網路算法的平台（郭利敏，2017）。
2
TensorFlow是由Google團隊於2015年11月開發的第二代開放原始碼的
機器學習系統，廣泛應用於自然語言處理、語音識別、圖像處理等多個領域。
不僅深受全球深度學習愛好者的歡迎，Google、eBay、Uber、OPenAI等科
技公司的研發團隊也相繼使用它。相較於其它的深度學習框架，如：Caffe、
Torch、Keras、MXnet、Theano等，Tensorflow的主要優勢有以下幾點：高度
的靈活性、支持Python語言開發、可視覺化效果好、功能更加強大、運行效
率高。
圖像識別和分類是影像科學和工程領域中最活躍的領域之一。主要的
想法是根據處理從感應器（偵測器）的數據來檢查圖像場景。這樣的機器可
以大大減少工作量，並提高人類操作員在各種領域決策的準確性，包括軍事
和國防、生物醫學工程系統、健康監測、手術、智能運輸系統、製造業、機
器人、娛樂和安全系統(Javidi, 2002)。
自第二次世界大戰以來，已有許多自主智慧系統應用於軍事科技中，而
機器學習與AI的進步也代表了自動化在戰爭中被運用的轉折點，且AI扮演
著國家安全中的重要角色，例如：機器學習技術可使一些勞動密集型工作的
自動化程度大幅提升、從衛星取得圖像分析和網路防禦等。此外，隨著AI技
術的精進，機器學習機制將像核武器、飛機、電腦和生物技術一樣，成為影
響國家安全的顛覆性技術。
3
鞏固國防安全是每個國家最根本的要務，知己知彼才能百戰百勝，現今
各強國正迅速將AI用於軍事領域，加速推動國軍智能化發展，若能將物件影
像辨識技術，搭配國軍現役各式偵蒐裝備，發展出軍事辨識系統，將能預先
知道敵方使用之武器裝備等資訊，以利爾後之作戰。軍事科技的發展使得戰
爭形態瞬息萬變，只有掌握科技趨勢才能在未來戰場上佔有一席之地。
1.2 研究目的
由於TensorFlow是屬於較低階的深度學習應用程式介面(Application
Programming Interface, API)，所以在設計模型時，必須自行設計：張量乘積
、卷積等底層操作，所以開源社群開發了許多高階的深度學習API，例如
Keras、TF-Learn、TF-Slim、TF-Layer等，可以讓開發者使用更易讀、簡潔
的程式碼。而Google在2017年6月首度釋出了TensorFlow Object Detection
API的開放原始碼，以TensorFlow為基礎所開發的物件偵測程式開發架構，
讓所有想要開發以深度學習自動辨識物件程式的人，都可以利用這套架構
發展自己的系統。
因此本論文將以TensorFlow Object Detection API所提供的物件影像辨
識模型為基礎，運用TensorFlow平台建立計算圖，設計張量運算流程，研究
模型於物件影像辨識中的辨識率，並建構可以提升辨識率的機器學習模型。
綜上所述，本篇論文研究的目的如下：
4
一、研究TensorFlow平台所建構之模型於物件影像辨識中的辨識率。
二、建構可以提升物件影像辨識率的機器學習模型。
三、實作此模型於物件影像辨識中的機器學習機制。
5
第二章、文獻探討
本研究主要探討應用TensorFlow平台於物件影像辨識中的辨識率，發展
出一套提升辨識率的影像辨識模型，因此本章節針對本篇研究所應用之相
關技術及發展做介紹，以便後續實驗探討。
2.1 人工智慧
人工智慧（AI）簡單來說，是指由人所創造出來的機器所表現出的智慧
（Simon,1995），在現代早已不是什麼新技術，如：手機人臉辨識、自動化
通關等應用，都是科技發展的產物。尤其在2016年，Alphago在與人類棋王
對弈中獲得勝利，引起一陣巨大的討論熱潮，顯示其發展之迅速。然而，近
年來人工智慧的走向，漸漸轉於廣義的人工智慧，即機器學習（弱人工智慧
），不再以人類的思考方式為前提，而以機器的語言及方式去處理問題。
2.2 機器學習
機器學習是一種科學概念，它無需明確的編程而能對人類相應的指令
起作用，且能夠幫助我們構建演算法，從接收的數據中統計分析並進行預測，
這在日常生活中發揮著重要的功能，如：語音辨識(Speech Recognition)、資
料探勘(Data Mining)、統計學(Statistics)等。機器學習基本上被分類為監督學
習(Supervised Learning)、非監督學習(Unsupervised Learning)兩類，兩者都需
要從大數據中找出關聯或一定的規律，並提煉出有用的資訊。監督學習是指
6
在機器學習過程中，藉由人工的方式將資料貼上標籤，告訴機器答案
(Chapelle et al.,2009)，例如：支援向量機(Support Vector Machine)、線性分類
-感知器(Perceptron)、類神經網路(Neural Network, NN)；非監督學習是指在
機器學習過程中，不以人工方式將資料貼上標籤，而是以摸索資料規律的方
式，找出類似的規則(Hastie et al., 2009)，例如：集群演算法、關聯規則。
本研究則是採用監督學習的方式，將訓練資料藉由人工標記的方式，放
入機器學習模型中，運用 TensorFlow 平台，進而發展出提升辨識率的模型。
2.3 深度神經網路
為了說明TensorFlow的工作原理，必須了解深度學習的一些基本知識。
深度學習又稱為深度神經網路(Deep Neural Network, DNN)，是由類神經網
路(Artificial Neural Network, ANN)發展而來(Hebbs, 1949)。神經網路是基於
模擬大腦皮層的神經網絡結構和功能而提出的計算模型，其原理是由感知
器輸入的信號，經由大量的神經節點（即人工神經元）構成的網路，按一定
的規則進行大規模並行計算，而得到輸出的完整過程。其中每個節點都需要
進行一定的函數計算，稱為激活函數(Activation Functions)，每兩個節點之
間都需要一定的加權值，用來模擬「記憶」強度，稱為「權重」
，經過一定
「深度」的節點計算之後，得到一系列的輸出值，這個輸出與期望值進行匹
配之後可以用來調整函數和權重，從而更加逼近預期結果。把這個學習得來
7
的神經網路模型應用於新的輸入（即進行預測）
，往往也能得到類似的結果
，這樣就達到了機器學習的目的。經由上述得知，神經網路的輸出結果依網
路的連接方式、權重值和激活函數的不同而不同。透過不斷輸入和輸出的對
照，使所有函數能夠接近人們的預期，用來解決人們預期的特定問題
(Gupta,2013)。整個模型可以形式化表達為圖2-1所示。
圖2-1：激活函數作用程序
（資料來源：cnblogs，2016）
經過許多學者的長期研究和試驗，目前常用的激活函數有線性函數、
S形函數、閾值函數、雙曲正切函數、ReLu等。
類神經網路的研究早在20世紀40年代就開始了，70年代進入低潮期，
被認為是一種不切實際的幻想，到了80年代才又蓬勃發展。進入21世紀
後，各方面條件已經成熟，不僅採用專用圖像處理器GPU，Google還專門
為TensorFlow開發了TPU專用處理器，大大提高了運算速度。TensorFlow
框架平台正是在這種背景下出現並迅速發展。
8
2.4 機器學習機制的計算原理
機器學習的開發通常需要一定的平台軟體的支持，才能夠便於測試和
提高效率。第一代深度學習平台大多由學校及研究機構開發，用於演算法研
究目的，例如加州大學伯克利分校的Caffe、紐約大學的Torch、蒙特利爾大
學的Theano等。隨著機器學習的普及化，需要兼顧在多種平台上快速部署和
迭代開發，於是產業界逐漸成為平台研發的主力，但其基礎和原型大多來自
於大學和研究機構，於是產生了良好的產學研互動。例如Facebook接管了
Caffe和Torch並開發了Caffe2和PyTorch、微軟推出了CNTK、亞馬遜開發了
MXNet、百度也推出了Paddle。而TensorFlow則是由Google公司於2016年推
出的最新平台。
TensorFlow以張量圖的形式，形象化地表示類神經網路的模型和計算過
程，並提供一整套開發環境，支持各類深度學習的算法研究和應用開發，它
在易用性和交互性設計方面頗為用心，且兼顧了算法研究和產業應用兩個
方面。TensorFlow的命名來自於它的運行原理，即前述類神經網絡算法的工
程實現。張量（Tensor）通常表達為多維數據數組，Flow是數據依據一定次
序和規則進行計算而形成的流程，可以畫成圖（Graph）的形式表達，即由
節點（nodes）和邊（edges）表示成有向圖，清楚地表示了張量從圖的一端
流動到另一端的情況。節點用來表示所進行的函數操作，當然數據的輸入（
9
feed in）起點和輸出（push out）終點以及在中間過程的讀寫操作也是一種
節點，邊表示節點之間的前後（輸入、輸出）關係，這些邊可以傳輸大小可
動態調整的多維數據數組。一旦模型建立起來，輸入端的所有張量就已準備
好，節點被分配到各種計算設備，可執行異步分佈式並行計算。本節介紹完
TensorFlow運作原理後，在2.5、2.6小節中，將說明TensorFlow的架構、發展
及應用。
2.5 TensorFlow架構
TensorFlow是由Google Brain Team團隊開發，並使用TensorFlow進行自
身產品開發及研究，Google認為機器學習是未來的技術的關鍵，然在這領域
的研究如雨後春筍般相繼湧出，但卻缺乏共通的標準，於是於2015年11月開
放原始碼，透過開源社群的分享，擴展深度學習的應用領域，使TensorFlow
更臻完善。
TensorFlow作為後起之秀吸收了眾多前輩平台的諸多優點，如圖2-2所
示，我們由下而上說明：它能在多種硬體環境(CPU、GPU、TPU)下很好地
利用各自的長處和特點運行，並能夠進行網路分散式學習，具有本地化、領
域化訓練和學習模型的（透過API，甚至能夠支持其他平台下的模型）功能
，且支持多種機器學習常用的開發語言(如C++、Python)。因此本研究採用
TensorFlow建構可以提升辨識率的機器學習模型，作為深度學習框架。
10
圖2-2：TensorFlow架構圖
（資料來源：林大貴，2017）
TensorFlow雖可使用多種前端程式語言，但對Python的支援是最佳的，
且Python具有程式碼簡明、易學習、高生產力的特質，物件導向、函數式的
動態語言，應用非常廣泛。在深度學習API方面，TensorFlow是屬於較低階
的（Zaccone et al.,2017），所以在設計模型時，必須自行設計：張量乘積、
卷積等底層操作，其優點是可自行設計深度學習模型；缺點為開發需要更多
程式碼及時間，所以開源社群開發了許多高階的深度學習API，例如Keras、
TF-Learn、TF-Slim、TF-Layer等，可以讓開發者使用更易讀、簡潔的程式碼
而Google在2017年6月首度釋出了TensorFlow Object Detection API的開
放原始碼，以TensorFlow為基礎所開發的物件偵測程式開發架構，讓所有想
要開發以深度學習自動辨識物件程式的人，都可以利用這套架構發展自己
11
的系統。故本研究以TensorFlow Object Detection API所提供的物件影像辨識
模型為基礎，建構物件影像辨識模型。
2.6 TensorFlow發展及應用
目前TensorFlow在自然語言處理、圖像和聲音識別等領域已經取得了很
大進展，以下介紹一些最新成果。
自然語言處理（NLP）和基於文本的應用是TensorFlow使用的一個重要
領域，Google研究發現，對於較短的文本，運用sequence-to-sequence模型來
自動建立文本摘要（或主題）並用於Gmail的智能回答取得很好的效果(Kim,
2014)，如表2-1所示。
表 2-1：模型讀取與短文摘要表
（資料來源：Peter Liu，2016）
在圖像識別方面，目前機器不但能精確識別圖像中的人臉以及數千種
物體，而且還能理解圖像所包含的內容及其相互關係，並透過自然語言表進
行表達。如圖2-3所示。Google的最新研究成果表明，將電腦視覺和語言模
型透過CNN與RNN網路疊加進行合併訓練，所得到的系統可以自動生成一
12
定長度的文字文本（Graves, 2013）
，甚至能夠完整講述一張圖片內所包含的
故事。
圖2-3：圖片及機器評估結果
（資料來源：Donahue et al.，2015）
聲音識別也是TensorFlow的基礎應用之一（Yue-Hei Ng et al.,2015）。透
過適當的數據反饋，神經網路能夠理解音頻信號，進而可實現語音識別、語
音搜索、情緒分析、缺陷檢測等，進而能在語音與文字、圖像間相互轉換。
這一成果可以應用於語音搜索和語音助手，如Apple iOS的Siri、Android的
13
Google Now以及Windows Phone的Microsoft Cortana。除了應用於參考諮詢
的語音機器人之外，還可應用於為聾啞、視障或其他特殊人群服務。
2.7 物件影像辨識
透過 CNN 模型，判斷該圖片屬於哪種類別的結果，這過程我們稱為分
類(Classification)（Krizhevsky et al., 2012）

。但要在一張圖片中辨識所有出現
的物體，並且標示出位置來(Object Localization)，就要框出影像中每個物件、
辨別物件種類、偵測出移動物體的動量，最簡易的方式就是用 Sliding
Windows 的概念：用一個固定大小的框，逐一的掃過整張圖片，每次框出來
的圖像丟到 CNN 中去判斷類別。但這是非常暴力的作法，會耗費大量的運
算資源，而且速度慢。
為了達成快速又有效率地目的，就需要深度學習中的物件影像辨識
Object Detection 演算法，這也是近幾年來深度學習最蓬勃發展的一塊領域，
其中最著名的是 R-CNN 系列，另外還有 YOLO 家族和 SSD（Liu, W.，2017）

，
其中以 Faster R-CNN、YOLOv3（Redmon, J.，2018）及 SSD 為三個最常使
用的 Object Detection 方法，Faster R-CNN 對小目標檢測效果最佳，但速度
最慢；SSD 辨識速度雖然是最快的，但對小目標檢測的效果較差；YOLOv3
吸取了前二者的優點，比 Faster R-CNN 快，比 SSD 檢測小目標準確。本研
14
究之影像辨識模型主要應用於飛機機型的辨識，在相似機型的目標檢測中
為提升辨識率，故使用 R-CNN 系列中的 Faster R-CNN 建構影像辨識模型。
以下介紹 R-CNN 系列的發展：Zeiler et al.（2014）提出了 R-CNN，
它利用圖像中的紋理、邊緣、顏色等信息，預先找出圖中目標可能出現的
位置，即候選區域（Region Proposal）約 2000 個，再將這些區域個別去作
分類，如圖 2-4 所示，但速度依然不夠快。
圖2-4：R-CNN架構
（資料來源：Zeiler et al.，2015）
所以 Girshick et al.（2015）提出 Fast R-CNN，它和 R-CNN 一樣要預選可
能區域，因為這些區域很多都是重疊的，所以 Fast R-CNN 只做一次
CNN，如圖 2-5 所示；Ren et al.（2015）又提出一個更快的 R-CNN 叫
Faster R-CNN，它直接從 CNN 的特徵圖（feature map）上選取可能區域，
並透過 Fast R-CNN 的 RoIPooling （Region of Interest Pooling），提升了辨
15
識的速度及準確率，如圖 2-6 所示。
圖2-5：Fast R-CNN架構
（資料來源：Girshick et al.，2015）
圖2-6：Faster R-CNN架構
（資料來源：Ren et al.，2015）
16
前述幾個方法都是在找物體外圍的邊界框，基本上都是方形的，He,
K. et al.（2017）所提出的 Mask R-CNN 為 Faster R-CNN 的延伸應用，主
要利用實例分割（instance segmentation）的方法，來選取可能區域，針對
每個區域會再跑 FCN（Fully Convolutional Network）取得遮罩分割，但是
由於 RoIPooling 在做池化時，出來的遮罩會有偏移現象，故採用雙線性插
值法(Bilinear Interpolation)來改善 RoIPooling，稱之為 RoIAlign，如圖 2-7
所示。
圖2-7：Mask R-CNN架構
（資料來源：He, K. et al.，2017）
在本研究中將會運用 Faster R-CNN 演算法，利用 TensorFlow 深度學
習平台建構影像辨識模型，用以辨識飛機機型。
17
第三章、研究方法與研究架構
本研究以以 TensorFlow Object Detection API 所提供的物件影像辨識模
型為基礎，研究 Faster R-CNN 演算法於物件影像辨識中的辨識率，再以
TensorFlow 設計張量運算流程，調整其張量、參數，建構可以提升辨識率的
機器學習模型。
3.1 研究架構
本文研究架構主要分為五個階段，分別為資料準備、建立模型、建立
TensorFlow計算圖、訓練模型、測試模型，並說明每個階段所做的處理方
式，運用TensorFlow框架進行張量運算，建構出影像辨識模型，如圖3-1所
示。
圖3-1：研究架構
資料來源：本研究
18
3.2 研究軟體設備
本研究所使用的套件為 Anaconda，它是一個 Python 發行版，包含大量
的標準數字和科學運算常用套件，並在 Anaconda 虛擬環境下安裝
TensorFlow，利用 Python 程式語言開發深度學習模型，並利用高效能筆記
型電腦上實作，其具備高速處理能力 CPU、大容量記憶體及專業效能之獨
立顯卡 GPU，其研究所需軟硬體載台規格詳如表 3-1 與表 3-2 所示。

表 3-1：軟體載台規格表
名稱版本程式語言作業系統版本
Anaconda 2018.12 Python3.7 Windows10
TensorFlow TensorFlow-GPU1.10.0 Python3.7 Windows10
（資料來源：本研究）
表 3-2：硬體設備規格表
名稱數量單位規格
CPU：Intel I7-7700HQ
GPU：NVIDIA Quadro M2200
MSI MS-1795 1 台
RAM：32 GB 2400MHz DDR4
顯示卡：Intel(R) HD Graphics 630
3.3 資料準備
本研究使用Google Chrome擴充功能中的圖片助手（ImageAssistant）批
量圖片下載器，至Google網頁搜尋並下載實驗所需之圖片，來製作本實驗的
資料集，如圖3-2所示。為求實驗完整，分為2個資料集（資料集A圖片大小
為5k-200k，資料集B圖片大小為30k以上）
，各別訓練用來辨識物件影像的大
小，各有300張JPG圖檔，其中包含F-16、IDF、M2000三種機型的戰鬥機各
19
100張，並將其80%（每個機型各80張）放入訓練資料夾，20%(每個機型各
20張)放入測試資料夾，每個資料集計有240個訓練樣本，60個測試樣本。
圖3-2：圖片助手下載器頁面
資料來源：本研究
3.4 建立模型
本研究使用TensorFlow Object detection API中的 faster_rcnn_resnet10
1_coco 及 faster_rcnn_inception_v2_coco 做為預先訓練的模型 (pre-trained
models)，分別加入至神經網路層中，在下個章節中將比較它們的辨識率。
20
3.5 建立TensorFlow計算圖
典型的TensorFlow計算圖功能很簡單（林大貴，2017），如圖3-3所示，
其算式y=MatMul(x,W)+b。
（x、W、b都是張量，W與b先用亂數初始化，再
使用MatMul將x與W進行張量乘積，最後再加上b，得到結果y）。
圖3-3：典型的TensorFlow計算圖
計算圖中，節點（Node）代表運算，而邊（Edge）代表 Tensor 的資料
流。紅色虛線代表資料流的方向，經過節點（Node）運算後，轉換為不同
的張量（資料）。
建立完計算圖後，我們就可以建立Session執行計算圖，如圖3-4所示，其
作用是在用戶端及執行裝置間建立連結，並取得做後計算的結果。
21
圖3-4：計算圖建立與執行示意圖
3.6 訓練模型
本研究運用TensorFlow Object Detection API所提供的 faster_rcnn_res
net101_coco及faster_rcnn_inception_v2_coco做為預先訓練的模型來加速訓
練的過程，實驗所自製的資料集共有300張JPG圖檔，計有240個訓練樣本，
60個測試樣本。本研究將執行至少200,000次訓練使誤差降低，並提高準確
率，流程圖如圖3-5所示。
200,000 (
)
圖3-5：訓練流程圖
22
3.7 測試模型
將3.6小節中訓練出的模型匯入測試樣本，進行辨識率分析。本研究共
準備兩個測試資料集，一個測試樣本共9筆，包含F-16、IDF、M2000三種機
型的戰鬥機各3張；另一個測試樣本共10筆，每張圖片含一架飛機以上，流
程圖如圖3-6所示。
圖3-6：測試流程圖
23
第四章、訓練與實作
本章節先說明本研究實作環境的建置流程，再來介紹物件辨識
（Object Detection）演算法 Faster R-CNN 的建置以及利用 TensorFlow 建
構的模型進行模擬比較，最後將顯示比較後的辨識結果。
4.1 環境建置
一、首先至官網下載 Windows 版 64bit 的 Anaconda（如圖 4-1），並安裝
（如圖 4-2）。
圖4-1：Anaconda官網下載頁面
24
圖4-2：Anaconda安裝畫面
二、本研究運用 GPU 訓練模型，確認顯示卡是否支援 CUDA（如圖 4-
3）。
圖4-3：CUDA-Enabled Quadro Products頁面

25
三、確認有支援 CUDA 的顯卡之後，就可以安裝 CUDA（如圖 4-4），本研
究安裝 CUDA10.0 版本。
圖4-4：CUDA下載頁面
四、安裝 GPU 深度學習程式庫，cuDNN 是 NVIDIA 深度學習 SDK 的一
部份，選擇下載 cuDNN v7.5.1（如圖 4-5）。
圖4-5：cuDNN下載頁面
26
五、安裝顯示卡驅動程式（如圖 4-6）。
圖4-6：NVIDIA驅動程式下載頁面
六、打開命令提示字元，建立並切換工作目錄。
#md \pywork
#cd \pywork
七、在 Anaconda 建立 TensorFlow-GPU 虛擬環境。
#conda create –name tensorflow python=3.7 anaconda
八、啟用 Anaconda 虛擬環境。
#activate tensorflow-gpu
九、在 Anaconda 虛擬環境中安裝 TensorFlow 和 Keras。
#pip install tensorflow-gpu
#pip install keras
十、啟用 Jupyter notebook（如圖 4-7），它具備互動式介面，可以在 Web
27
介面輸入 Python 指令後，立即看到結果。
圖4-7：jupyter notebook開啟畫面
十一、進入官網 http://git-scm.com/安裝 Git 後（如圖 4-8），從 GitHub 上面
下載 TensorFlow Object Detection API 的原始碼。

#git clone https://github.com/tensorflow/models.git
圖4-8：Git下載頁面
28
十二、因為 API 要正常使用必須先編譯 protobuf 庫，用 protobuf 來配置模
型和訓練引數，不過在 TensorFlow 的 Object Detection API 安裝頁
面上發布的 protoc 編譯命令在 Windows 上不起作用，必須藉由指令
單獨調出\ object_detection \ protos 目錄中的每個.proto 文件，如圖 4-
9。
圖4-9：編譯protobuf庫
4.2 資料集準備
本研究所準備之資料集共有 2 個（如第三章所述），各有 300 張 JPG
圖檔，並確保每架機型的每個角度都包含在裡面，其中包含 F-16、IDF、
M2000 三種機型的戰鬥機各 100 張，並將其 80%（每個機型各 80 張）放
入訓練資料夾，20%（每個機型各 20 張）放入測試資料夾，每個資料集計
有 240 個訓練樣本，60 個測試樣本。
29
一、首先，需要先要標註影象相應標籤，本研究使用 LabelImg 工具，每標
註一張樣本，即生成一個 xml 的標註檔案，如圖 4-10。
圖4-10：LabelImg工具使用畫面
二、把這些標註的 xml 檔案，按訓練集與測試集分別放置到兩個目錄下，
利用 API 提供的 xml_to_csv.py 指令碼，把對應的 xml 格式轉換成 csv
格式，在 D:\images 文件夾中創建 train_labels.csv 和 test_labels.csv 文
件。
#(tensorflow-gpu) D:\>python xml_to_csv.py
接下來，打開 generate_tfrecord.py 文件，本研究所辨識的機型共有三
30
種，編輯的代碼如圖 4-11。
圖4-11：編輯generate_tfrecord.py代碼
執行 generate_tfrecord.py 文件，生成了訓練及測試用的 train.record 與
test.record，如圖 4-12。
圖4-12：編輯generate_tfrecord.py代碼
三、創立 Lable Map，使用文本編輯器創建新文件，將其保存為
fighter_labelmap.pbtxt（確保文件類型為.pbtxt），如圖 4-13。
31
圖4-13：創立Lable Map
4.3 預訓練模型
要訓練一個高水準的模型，縱使有多張 GPU 顯示卡通常也需要非常
久的時間，而使用預訓練模型（pre-trained model）為初始值來進行訓練，
可以加速訓練的過程。本研究使用 TensorFlow Object detection API 中的
faster_rcnn_resnet101_coco 及 faster_rcnn_inception_v2_coco 所訓練的模型
為基礎，作為我們的模型初始值。
4.4 建立模型訓練管線
在 TensorFlow Object Detection API 中，所有的模型參數、訓練參數與
驗證參數都定義在一個.config 設定檔中，在 object_detection/samples/configs/
目錄下有許多範例設定檔，在本研究先以 faster_rcnn_resnet101_coco.config
及 faster_rcnn_inception_v2_coco.config 這兩個範例設定檔來修改，並使用一
般的文字編輯器編輯這個設定檔，如圖 4-14。
32
圖4-14：修改config設定檔
4.5 訓練模型
本研究將執行至少 200,000 次訓練，使 loss 值降低於 0.05 以下，以提
高準確率。
一、執行 train.py 文件檔，使用 GPU 進行訓練，如圖 4-15。
圖4-15：使用GPU進行訓練
33
二、執行 TensorBoard 以監看模型訓練情況，如圖 4-16。
# tensorboard --port=16006 --logdir=D:\train
圖4-16：TensorBoard監看模型訓練情況
4.6 匯出模型
當模型訓練完成後，接著將模型匯出。首先找到訓練模型時所輸出的
檢查點檔案，其位於放置檢查點的目錄中，而一個檢查點包含三個檔案，
分別為：
l model.ckpt-${CHECKPOINT_NUMBER}.data-00000-of-00001
l model.ckpt-${CHECKPOINT_NUMBER}.index
l model.ckpt-${CHECKPOINT_NUMBER}.meta
找到檢查檔之後，執行以下指令將模型匯出，如圖 4-17：
34
圖4-17：匯出模型指令
匯出的模型會被儲存於 my_exported_graphs 這個資料夾中，這樣就完
成整個模型的訓練過程了。
4.7 測試結果
本研究共準備兩個測試資料集，一個測試樣本共 9 筆，包含 F-16、
IDF、M2000 三種機型的戰鬥機各 3 張；另一個測試樣本共 10 筆，每張圖
片含一架飛機以上。將 4.6 節所匯出之模型進行測試：
一、用 faster_rcnn_resnet101_coco 以資料集 A、B 訓練之模型比對測試的
結果（詳如附錄：附表 1～附表 19），根據以下幾點做分析：
l 從辨識目標框的選取來看，如表 4-1，可以看出資料集 A 訓練的
模型比資料集 B 來得小。
l 從辨識率來看，如表 4-2，在含一架以上飛機的圖片中，資料集 A
訓練的模型辨識度對於比資料集 B 辨識率較高。
l 在各別機型圖片的辨識度則相差無幾，如表 4-3。
35
表 4-1：訓練資料集-辨識目標框的選取比較
資料集 A
資料集 B
36
表 4-2：訓練資料集-含一架以上飛機圖片辨識率比較
資料集 A
資料集 B
37
表 4-3：訓練資料集-各別機型圖片辨識度比較
資料集 A
資料集 B
38
二、用 faster_rcnn_resnet101_coco 及 faster_rcnn_inception_v2_coco 訓練之
模型比對測試的結果（詳如附錄：附表 20～附表 38）

，根據以下幾點做
分析：
l 從辨識目標框的選取來看，如表 4-4，可以看出 faster_rcnn_inc
eption_v2_coco 訓練的模型比 faster_rcnn_resnet101_coco 訓練的模
型來得小。
l 從辨識率來看，如表 4-5、表 4-6，在含一架以上飛機的圖片中，
faster_rcnn_resnet101_coco 訓練的模型辨識度比faster_rcnn_incep
tion_v2_coco 辨識率較高。
l 在各別機型圖片中的辨識度則相差無幾，如表 4-7。
三、綜合以上兩個實驗得知：
（一）當訓練資料集圖片越小，辨識目標框越小，辨識率越高。
（二）運用 Faster R-CNN 演算法搭配 resnet101 神經網路層，辨識率較
搭配 inception_v2 神經網路層高，其辨識目標框的選取比搭配
inception_v2 神經網路層較大。
（三）辨識目標框的選取，並不是越小，辨識率越好。
39
表 4-4：預訓練模型-辨識目標框的選取比較
faster_rcnn_inception_v2_coco
faster_rcnn_resnet101_coco
40
表 4-5：預訓練模型-含一架以上飛機圖片辨識率比較-1
41
表 4-6：預訓練模型-含一架以上飛機圖片辨識率比較-2
42
表 4-7：預訓練模型-各別機型圖片辨識度比較
43
第五章、結論與未來研究
5.1 結論
時代轉變，人工智慧(AI)取代人類工作的議題漸漸受眾人關注，從企業
到校園，從社會到家庭，甚至於躍上軍事戰備的舞台。在 1980 年到 2010 年
這三十年間，開發出許多不同階層、架構和初始化方式的類神經網路，而
TensorFlow 就是目前最知名的支持各種神經網路算法的平台。
本研究主要探討於 TensorFlow 平台，發展出一套應用於飛機機型的影
像辨識模型，並提升辨識率。以 Tensorflow Object Detection API 所提供的物
件影像辨識模型為基礎，運用現行 Object Detection 演算法 Faster R-CNN 建
立深度學習模型，再以 TensorFlow 設計張量運算流程，調整其張量、參數，
並研究所訓練之模型於物件影像辨識中的辨識率，建構可以提升辨識率的
機器學習模型。
從實驗結果得知以下幾點：
（一）當訓練資料集圖片越小，辨識目標框越小，辨識率越高。
（二）運用 Faster R-CNN 演算法搭配 resnet101 神經網路層，辨識率較
搭配 inception_v2 神經網路層高，其辨識目標框的選取比搭配
inception_v2 神經網路層較大。
（三）辨識目標框的選取，並不是越小，辨識率越好。
44
5.2 未來研究
本研究在實作部分於 Anaconda 平台運用虛擬環境，以 TensorFlow 所
提供之物件辨識 API，並使用自製資料集，建構提升辨識率的機器學習模
型，預期所發展之物體辨識技術可應用於軍事領域(軍用武器裝備)、土地
利用（都市規劃、商業分佈）、交通傳輸（停車場分析、汽車監控）、醫療
領域等。
未來期望能朝以下以點做精進與改良：
一、本研究所自製之資料集僅含有 300 張圖片，飛機機型的各個角度並不
全面，盼可搜集更多張不同角度的圖片，以精進辨識率。
二、本研究所使用之 Faster R-CNN 演算法僅搭配兩個神經網路層做比較，
未來可使用不同神經網路層作為探討。
三、本研究所建構之物件影像辨識模型僅針對辨識率，盼望後續可對訓練
時間效率進行提升。
45
【參考文獻】
中文部分
何倞，2016，基於偵測和深層卷積神經網路特徵共享的即時多車輛追蹤系
統，國立清華大學資訊系統與應用研究所碩士論文。
郭利敏、劉煒、吳佩娟及張磊，2017，機器學習在圖書館應用初探：以
TensorFlow為例，大學圖書館學報。
英文部分
Chapelle, O., Scholkopf, B., & Zien, A., 2009, Semi-supervised learning (chapelle,
o. et al., eds.; 2006)[book reviews]. IEEE Transactions on Neural Networks,
20(3), 542-542.
Donahue, J., Anne Hendricks, L., Guadarrama, S., Rohrbach, M., Venugopalan,
S., Saenko, K., & Darrell, T., 2015, Long-term recurrent convolutional
networks for visual recognition and description. In Proceedings of the IEEE
conference on computer vision and pattern recognition (pp. 2625-2634).
Girshick, R., 2015, Fast r-cnn. In Proceedings of the IEEE international
conference on computer vision (pp. 1440-1448).
Graves, A., Mohamed, A. R., & Hinton, G., 2013, Speech recognition with deep
recurrent neural networks. In Acoustics, speech and signal processing (icassp),
2013 ieee international conference on (pp. 6645-6649). IEEE.
Gupta, N., 2013, Artificial neural network. Network and Complex Systems, 3(1),
24-28.
Hastie, T., Tibshirani, R., & Friedman, J., 2009, Unsupervised learning. In The
elements of statistical learning (pp. 485-585). Springer, New York, NY.
Hebbs, D. G., 1949, The organization of behavior. Wiely and Sons, New York, NY,
USA.
46
He, K., Gkioxari, G., Dollár, P., & Girshick, R., 2017, Mask r-cnn. In Computer
Vision (ICCV), 2017 IEEE International Conference on (pp. 2980-2988). IEEE.
Javidi, B., 2002, Image recognition and classification. New York: Marcel Dekker.
Kim, Y., 2014, Convolutional neural networks for sentence classification. arXiv
preprint arXiv:1408.5882.
Krizhevsky, A., & Hinton, G., 2009, Learning multiple layers of features from tiny
images (Vol. 1, No. 4, p. 7). Technical report, University of Toronto.
Krizhevsky, A., Sutskever, I., & Hinton, G. E., 2012, Imagenet classification with
deep convolutional neural networks. In Advances in neural information
processing systems (pp. 1097-1105).
LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton, 2015, "Deep learning."
nature 521.7553: 436-444.
Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., & Berg, A. C.,
2016, Ssd: Single shot multibox detector. In European conference on computer
vision (pp. 21-37). Springer, Cham.
Mitchell, T. M., & Learning, M., 1997, Mcgraw-hill science. Engineering/Math,
1, 27.
Redmon, J., & Farhadi, A., 2017, YOLO9000: better, faster, stronger. arXiv
preprint.
Redmon, J., & Farhadi, A., 2018, Yolov3: An incremental improvement. arXiv
preprint arXiv:1804.02767.
Ren, S., He, K., Girshick, R., & Sun, J., 2015, Faster r-cnn: Towards real-time
object detection with region proposal networks. In Advances in neural
information processing systems (pp. 91-99).
Simon, H. A., 1995, Artificial intelligence: an empirical science. Artificial
Intelligence, 77(1), 95-127.
Smith, T., Gelbart, D., MacCrimmin, K., Atherton, B., Shinehoft, M., & Quintana,
L., 2005, Artificial intelligence. Computer Science A, 165.
Yue-Hei Ng, J., Hausknecht, M., Vijayanarasimhan, S., Vinyals, O., Monga, R.,
& Toderici, G., 2015, Beyond short snippets: Deep networks for video
47
classification. In Proceedings of the IEEE conference on computer vision and
pattern recognition (pp. 4694-4702).
Zaccone, G., Karim, M. R., & Menshawy, A., 2017, Deep Learning with
TensorFlow. Packt Publishing Ltd.
Zeiler, M. D., & Fergus, R., 2014, Visualizing and understanding convolutional
networks. In European conference on computer vision (pp. 818-833). Springer,
Cham.
網路部份
簡梵軒，2017，流轉AI 深度學習承先啟後，參見網站，
https://castnet.nctu.edu.tw/castnet/article/11049?issueID=662. [visited in
2018/03/24]
林大貴，2017，Tensorflow簡介，參見網站，
http://tensorflowkeras.blogspot.com/2017/07/tensorflow_28.html. [visited in
2018/05/23]
cnblogs，2016，淺談深度學習中的激活函數-The Activation Function in
Deep Learning，參見網站，
https://read01.com/JNzJkL.html#.W5AMxi33VmA.[visited in 2018/07/30]
林大貴，2017，Keras深度學習簡介，參見網站，
http://tensorflowkeras.blogspot.com/2017/08/keras.html. [visited in
2018/08/30]
G.T.Wang，2017，TensorFlow Object Detection API自行訓練模型教學，辨
識特定物件，參見網站，https://blog.gtwang.org/programming/tensorflow-
object-detection-api-custom-object-model-training-tutorial/.[visited in
2017/12/30]
Peter Liu，2016，Google開源新的TensorFlow代碼，如何進行文本自動摘
48
要，參見網站，http://i.dataguru.cn/mportal.php?mod=view&aid=9813.
[visited in 2017/12/30]
49
【附錄】
附表 1：faster_rcnn_resnet101_coco 測試結果-1
資料集 A
資料集 B
50
資料集 A
資料集 B
51
資料集 A
資料集 B
52
資料集 A
資料集 B
53
資料集 A
資料集 B
54
資料集 A
資料集 B
55
資料集 A
資料集 B
56
資料集 A
資料集 B
57
資料集 A
資料集 B
58
資料集 A
資料集 B
59
資料集 A
資料集 B
60
資料集 A
資料集 B
61
資料集 A
資料集 B
62
資料集 A
資料集 B
63
資料集 A
資料集 B
64
資料集 A
資料集 B
65
資料集 A
資料集 B
66
資料集 A
資料集 B
67
資料集 A
資料集 B
68
附表 20：模型測試結果-1
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87

FB 240604101821

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

FB 240604101821

Uploaded by

Copyright:

Available Formats

國防大學管理學院資訊管理學系碩士班

A Study on Object Recognition with Machine Learning

學習中，模仿大腦的類神經網路(Artificial Neural Network)所建構出的數學

在 1980 年到 2010 年這三十年間，開發出許多不同階層、架構和初始

化方式的類神經網路，而 TensorFlow 就是目前最知名的支持各種神經網路

本研究主要探討於 TensorFlow 平台，運用現行 Object Detection 演算法

Faster R-CNN 建立深度學習模型，再以 TensorFlow 設計張量運算流程，調

1.1 研究背景與動機 ..................................................................................... 1

1.2 研究目的 ................................................................................................. 4

2.1 人工智慧 ................................................................................................. 6

2.2 機器學習 ................................................................................................. 6

2.3 深度神經網路 ......................................................................................... 7

2.4 機器學習機制的計算原理 ..................................................................... 9

2.5 TensorFlow 架構 ................................................................................... 10

2.6 TensorFlow 發展及應用 ....................................................................... 12

2.7 物件影像辨識 ....................................................................................... 14

3.1 研究架構 ............................................................................................... 18

3.2 研究軟體設備 ....................................................................................... 19

3.4 建立模型 ............................................................................................... 20

3.5 建立 TensorFlow 計算圖 ...................................................................... 21

3.6 訓練模型 ............................................................................................... 22

3.7 測試模型 ............................................................................................... 23

4.1 環境建置 ............................................................................................... 24

4.2 資料集準備 ........................................................................................... 29

4.3 預訓練模型 ........................................................................................... 32

4.4 建立模型訓練管線 ............................................................................... 32

4.5 訓練模型 ............................................................................................... 33

4.6 匯出模型 ............................................................................................... 34

4.7 測試結果 ............................................................................................... 35

5.2 未來研究 ............................................................................................... 45

圖 2-2：TensorFlow 架構圖 .............................................................................. 11

圖 2-5：Fast R-CNN 架構 ................................................................................. 16

圖 2-6：Faster R-CNN 架構 .............................................................................. 16

圖 2-7：Mask R-CNN 架構 ............................................................................... 17

圖 3-3：典型的 TensorFlow 計算圖 ................................................................. 21

圖 4-1：Anaconda 官網下載頁面 ..................................................................... 24

圖 4-2：Anaconda 安裝畫面 ............................................................................. 25

圖 4-3：CUDA-Enabled Quadro Products 頁面 ............................................... 25

圖 4-5：cuDNN 下載頁面 ................................................................................. 26

圖 4-6：NVIDIA 驅動程式下載頁面 ............................................................... 27

圖 4-7：jupyter notebook 開啟畫面 .................................................................. 28

圖 4-8：Git 下載頁面 ........................................................................................ 28

圖 4-9：編譯 protobuf 庫 .................................................................................. 29

圖 4-10：LabelImg 工具使用畫面 .................................................................... 30

圖 4-11：編輯 generate_tfrecord.py 代碼 ......................................................... 31

圖 4-12：編輯 generate_tfrecord.py 代碼 ......................................................... 31

圖 4-13：創立 Lable Map.................................................................................. 32

圖 4-14：修改 config 設定檔 ............................................................................ 33

圖 4-15：使用 GPU 進行訓練 .......................................................................... 33

時代轉變，人工智慧(Artificial Intelligence, AI)取代人類工作的議題漸漸

Smith, T. et al.(2005)裡頭說到，機器學習是一種弱人工智慧(Weak AI)，

利用它來做預測。Mitchell et al. (1997)將其廣泛定義如下：在電腦學習的過

的類神經網路(Artificial Neural Network)所建構出的數學模型，訓練了多層

式的類神經網路，如卷積神經網路(Convolutional Neural Network, CNN)、遞

歸神經網路(Recurrent Neural Network, RNN)等。其相應的實現平台也獲得

Programming Interface, API)，所以在設計模型時，必須自行設計：張量乘積

的程式碼。而Google在2017年6月首度釋出了TensorFlow Object Detection

因此本論文將以TensorFlow Object Detection API所提供的物件影像辨

習(Supervised Learning)、非監督學習(Unsupervised Learning)兩類，兩者都需

(Chapelle et al.,2009)，例如：支援向量機(Support Vector Machine)、線性分類

-感知器(Perceptron)、類神經網路(Neural Network, NN)；非監督學習是指在

式，找出類似的規則(Hastie et al., 2009)，例如：集群演算法、關聯規則。

入機器學習模型中，運用 TensorFlow 平台，進而發展出提升辨識率的模型。

1_coco 及 faster_rcnn_inception_v2_coco 做為預先訓練的模型 (pre-trained

一、首先至官網下載 Windows 版 64bit 的 Anaconda（如圖 4-1），並安裝

二、本研究運用 GPU 訓練模型，確認顯示卡是否支援 CUDA（如圖 4-

四、安裝 GPU 深度學習程式庫，cuDNN 是 NVIDIA 深度學習 SDK 的一

十一、進入官網 http://git-scm.com/安裝 Git 後（如圖 4-8），從 GitHub 上面

二、把這些標註的 xml 檔案，按訓練集與測試集分別放置到兩個目錄下，

一、執行 train.py 文件檔，使用 GPU 進行訓練，如圖 4-15。

一、用 faster_rcnn_resnet101_coco 以資料集 A、B 訓練之模型比對測試的