Professional Documents
Culture Documents
Slide
Slide
Thành viên:
1. Nguyễn Thành Vinh - 18001085
2. Trần Thế Hùng - 18001043
3. Hoàng Trung Kiên – 18001048
2
I.
CNN – Convolutional
Neural Network
1. Khái niệm về CNN
⬡ Convolutional Neural Network (CNNs – Mạng nơ-ron tích chập)
là một trong những mô hình Deep Learning tiên tiến. CNN xây
dựng được những hệ thống thông minh với độ chính xác cao.
⬡ CNN được ứng dụng rất nhiều trong những bài toán nhận dạng
object trong ảnh.
4
2. Mô hình kiến trúc mạng CNN:
6
• Lớp ReLU (ReLU Layer)
- Relu layer là một hàm kích hoạt trong neural network (activation function).
Trong activation function có các hàm cơ bản như: Sigmoid, Tanh, Relu,
Leaky relu, Maxout.
- Lưu ý: + Tùy chỉnh các learning rate và theo dõi dead unit.
+ Những relu layer đã được sử dụng sau khi filter map được tính ra
và áp dụng hàm relu lên những giá trị của filter map.
7
• Lớp Pooling (Pooling Layer)
- Khi đầu vào quá lớn, những Pooling layer sẽ được xếp vào giữa giữa
những lớp Convolutional layer để làm giảm parameter.
Với một bức ảnh kích thước lớn qua nhiều Pooling layer sẽ được thu nhỏ
lại tuy nhiên vẫn giữ được những đặc trưng cần cho việc nhận dạng.
8
• Lớp Fully connected (Fully connected Layer)
- Fully-connected Layer liên kết các nơ-ron trong một layer với các layer
khác. Nó giống như mạng Multi-layer perceptron neural network (MLP).
9
II.
MÔ HÌNH YOLO.
⬡ YOLO (You only look once) là một mô hình CNN để phát hiện đối tượng mà một
ưu điểm nổi trội là nhanh hơn nhiều so với những mô hình cũ.
⬡ Là một trong những thuật toán nhận diện đối tượng nhanh nhất thời điểm hiện
tại.
11
1. Cách thức hoạt động của mô hình YOLO:
⬡ Thuật toán YOLO phân chia bất kỳ hình ảnh đầu vào
bởi hệ thống lưới SxS.
12
2. Chi tiết mô hình YOLO:
Hình minh họa phát hiện tâm của object. Dự đoán boundary box
13
⬡ Như vậy với mỗi ô vuông chúng ta cần dự đoán một vector có
(nbox+4*nbox+nclass) chiều. Ví dụ, chúng ta cần dự đoán 2 box, và 3 lớp đối
với mỗi ô vuông thì chúng sẽ có một ma trận 3 chiều 7x7x13 chứa toàn bộ
thông tin cần thiết.
14
3. YOLO phát hiện đối tượng trong CNN.
⬡ Đối với mỗi ô vuông, xây dựng một mô hình CNN có cho ra ouput với hình dạng
phù hợp theo yêu cầu của chúng ta, tức là: grid size x grid size x
(nbox+4*nbox+nclass).
⬡ YOLO sử dụng hồi quy tuyến tính (linear regression) để dự đoán các thông tin ở
mỗi ô vuông.
⬡ Ví dụ:
- Với grid size là 7x7 là mỗi ô vuông dự đoán 2 boxes, và có 3 loại object tất cả
thì chúng ta phải cần output có hình dạng 7x7x13 từ mô hình CNN.
15
4. Kiến trúc các YOLO.
a) YOLO v1:
⬡ Yolo v1 sử dụng khung Darknet được huấn luyện trên tập dữ liệu ImageNet-
1000.
⬡ Hạn chế yolo v1 là nó không thể tìm thấy các vật thể nhỏ nếu chúng xuất hiện
dưới dạng cụm.
⬡ Kiến trúc này gặp khó khăn trong việc khái quát hóa các đối tượng nếu hình ảnh
có kích thước khác với hình ảnh được huấn luyện.
16
4. Kiến trúc các YOLO.
b) YOLO v2:
⬡ Phiên bản thứ hai của YOLO được đặt
tên là YOLO9000 đã được Joseph
Redmon và Ali Farhadi xuất bản vào
cuối năm 2016.
⬡ YOLO v2 sử dụng kiến trúc Darknet 19
với 19 lớp chập và 5 lớp gộp tối đa và
một lớp softmax cho các đối tượng
phân loại. Kiến trúc của Darknet 19.
17
4. Kiến trúc các YOLO.
c) YOLO v3:
⬡ YOLOv3 có tất cả những gì chúng ta cần để phát hiện đối tượng trong thời gian
thực với việc phân loại các đối tượng.
⬡ Dự đoán hộp giới hạn : Trong YOLO v3 đưa ra điểm của các đối tượng cho mỗi hộp
giới hạn. Nó sử dụng hồi quy logistic để dự đoán điểm tương đồng.
⬡ Dự đoán lớp: Trong YOLO v3, nó sử dụng các trình phân loại logistic cho mọi lớp
thay vì dùng lớp softmax đã được sử dụng trong YOLO v2. Bằng cách làm như vậy
trong YOLO v3, chúng ta có thể có phân loại đa nhãn. Với trình phân loại độc lập
đưa ra xác suất cho từng lớp đối tượng.
18
III.
BÀI TOÁN XÂY DỰNG CHÚ
THÍCH MÔ TẢ ẢNH THÔNG
QUA BƯỚC DÒ TÌM ĐỐI
TƯỢNG BẰNG MÔ HÌNH
YOLO & MẠNG RNN.
1. Dữ liệu thực nghiệm bài toán.
20
1. Dữ liệu thực nghiệm bài toán.
21
1. Dữ liệu thực nghiệm bài toán.
- A child in a pink dress is climbing up a
set of stairs in an entry way.
22
1. Dữ liệu thực nghiệm bài toán.
⬡Một ảnh 5 caption sẽ cho ra 5 traning set khác nhau: (ảnh, caption 1), (ảnh,
caption 2), (ảnh, caption 3), (ảnh, caption 4), (ảnh, caption 5).
23
2. Xác định bài toán.
• Input: Ảnh.
• Output: Văn bản hoặc giọng nói với nhiều ngôn ngữ.
Dữ liệu ra là văn bản và giọng nói với nhiều ngôn ngữ là Tiếng Anh.
24
2. Ý tưởng bài toán.
Object detection:
- phân loại được đối tượng (object)
- xác định vị được vị trí của đối tượng.
- sử dụng mô hình YOLO v3.
25
2. Ý tưởng bài toán.
Object detection:
- Đầu vào là một ảnh, đối với bài toán dò tìm đối tượng (object detection), ta không
chỉ phải phân loại được đối tượng (object) trên bức ảnh mà còn phải định vị được vị
trí của đối tượng đó.
- Chia ảnh đầu vào thành nhiều hộp (box), mỗi box sẽ phát hiện đối tượng trong box
đó. Vị trí của đối tượng chính là tọa độ của box đó.
- Thay vì chia thành từng box, ta sẽ sử dụng thuật toán để lựa chọn những khu vực
ứng viên, các vùng ứng viên này có thể tưởng như là những vùng liên thông với
nhau trên kênh màu RGB, sau đó với mỗi vùng ứng viên này, ta dùng model để
phân loại object.
26
3. Ý tưởng bài toán.
Image captioning:
27
3. Ý tưởng bài toán.
28
thanks for watching
29