Professional Documents
Culture Documents
Da Nang University of Science and Technology: Project Based Learning 3
Da Nang University of Science and Technology: Project Based Learning 3
Technology
2 YOLO v5 4
2.1 Output của mô hình yolov5 . . . . . . . . . . . . . . . . . . . 4
1
1 YOLO V1
1.1 Kiến trúc mô hình
Mỗi hộp trong sơ đồ đại diện cho một lớp trong mạng nơ-ron, và các
số bên trong hộp chỉ ra kích thước sau mỗi phép toán. Kiến trúc này giúp
YOLO v1 có khả năng phát hiện đối tượng nhanh chóng và chính xác. Đây
là một bước tiến quan trọng trong lĩnh vực thị giác máy tính và phát hiện
đối tượng.
• Đầu vào: Mô hình nhận đầu vào là một ảnh màu có kích thước 448x448x3.
• Lớp Convolutional (Conv. Layers): Có nhiều lớp Conv với kích thước
bộ lọc và độ sâu khác nhau, giúp rút trích đặc trưng từ ảnh. Confidence
score xác suất tại ô đó có object hay không.
• Lớp Maxpooling (Maxpool Layer): Theo sau các lớp Conv là lớp Max-
pool, giúp giảm kích thước không gian của đặc trưng.
• Lớp kết nối đầy đủ (Fully Connected Layers): Cuối cùng, mô hình sử
dụng các lớp kết nối đầy đủ để dự đoán vị trí và loại đối tượng trên
một lưới 7x7.
Kiến trúc mạng YOLOv1 được lấy ý tưởng từ mô hình GoogLeNet cho
phân loại ảnh. Nó gồm có 24 Convolutional Layers dùng để trích xuất các
2
features từ bức ảnh, theo sau bởi 2 Fully Connected Layers để dự đoán
output probabilities và coordinates. Thay vì sử dụng inception modules trong
GoogLeNet, YOLO chỉ sử dụng reduction layers có kích thước 1×1 theo sau
bởi Convolutional Layers có kích thước 3×3. Layer cuối cùng của network là
các dự đoán ở dạng tensor với kích thước 7×7×30. Các Convolutional Layers
được pretrain trên trên tập dữ liệu ImageNet cho việc phân loại ảnh với độ
phân giải 224×224, rồi sau đó gấp đôi độ phân giải cho việc detection.
1.2 Output
Luồng xử lí như sau:
• Extra layers (fully connected layers) phân tích, phát hiện vật thể. Trả
về output là một matrix A có kích thước:
• S là số cell.
• C là phần tử đại diện cho phân bố xác suất về loại object, tức class
distribution.
S X
B 2 q
X p
+λcoord 1obj
ij [(wi − ŵi ) + (hi − ĥi )2 ]
2
(3)
i=0 j=0
2
S X
B
X
+ 1obj
ij (Ci − Ĉi )
2
(4)
i=0 j=0
3
S X
B 2
X
+λcoord 1noobj
ij (Ci − Ĉi )2 (5)
i=0 j=0
S 2
X X
+ 1obj
ij (p1 (c) − p̂1 (c))2 (6)
i=0 c∈classes
Loss_total được tổng hợp từ 5 phần, mỗi phần nhằm tối ưu một vấn đề riêng
biệt:
2 YOLO v5
2.1 Output của mô hình yolov5
y T = [p0 , (tx , ty , tw , th ), (p1 , p2 , ..., pc )] (7)
Trong đó:
• p0 là xác suất dự báo vật thể xuất hiện trong bounding box.
• (p1 , p2 , ..., pc ) là vectơ tỉ phân phối xác suất dự báo của các classes.
4
3 Hàm mất mát
S X
B2 S2 q
X X p
Lloc = λcoord 1obj 2 2
ij [(xi − x̂i ) + (yi − ŷi ) ] + (wi − ŵi ) + (hi − ĥi )2
2
2
S X
B
X
Lcls = (1obj obj obj 2 obj ∗
ij log(Ĉij )+(1−1ij ) log(1−Ĉij ))+λnoobj (1−1ij )(Cj −Ĉj ) +λobj 1ij (pi (c)−pi (c))
2
i=0 j=0
(9)
L = Lcls + Lloc (10)
Trong đó:
• iobj : Hàm indicator có giá trị 0,1 nhằm xác định xem cell i có chứa vật
thể hay không. Bảng 1 nếu chứa vật thể và 0 nếu không chứa.
• iij : Cho biết bounding box thứ j của cell i có phải là bouding box của
vật thể được dự đoán hay không? (xem hình 5).
• Cij : Điểm tin cậy của ô i, P(contain object) * IoU (predict bbox, ground
truth bbox).
• Pi (c): Xác suất có điều kiện, cô hay không ô i có chứa một đối tượng
của lớp c C.
Tài liệu
[1] https://nextjs.org/docs
[2] https://clouddevs.com/next/real-time-chat-app/
[3] https://www.marketenterprise.vn/blog/
prisma-ho-tro-phat-trien-phan-1.html
5
[4] https://topdev.vn/blog/mongodb-la-gi/
[5] https://pusher.com/
[6] https://intech.vietnamworks.com/article/
hosting-mien-phi-danh-cho-lap-trinh-vien