Download as pdf or txt
Download as pdf or txt
You are on page 1of 7

Da Nang University of Science and

Technology

Project based learning 3

Sinh viên - Lớp:


Phạm Minh Tùng - 20KTMT1
Giáo viên :
Trần Văn Đạt - 20KTMT1
TS. Trần Thị Minh Hạnh
Nguyễn Huỳnh Tiến -
20KTMT1

Ngày 13 tháng 4 năm 2024


Mục lục
1 YOLO V1 2
1.1 Kiến trúc mô hình . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Hàm mất mát . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 YOLO v5 4
2.1 Output của mô hình yolov5 . . . . . . . . . . . . . . . . . . . 4

3 Hàm mất mát 5

Bảng 1: PHÂN CÔNG CÔNG VIỆC


Công việc Người phụ trách
Phân tích yêu cầu, Xây dựng kiến trúc hệ thống, Lựa Tùng, Gia, Khánh
chọn ngôn ngữ lập trình
Thiết kế cơ sở dữ liệu, Thiết kế giao diện, Phân tích các Tùng, Gia, Khánh
chức năng chính
Code FE, BE phần đăng nhập, đăng xuất Gia
Code FE, BE phần chat Tùng
Code FE, BE phần user Khánh
Kiểm thử phần mềm và khắc phục Tùng, Gia, Khánh
Mã hoá mật khẩu bcrypt Tùng
Deloy Khánh
Làm báo cáo Tùng, Gia, Khánh

1
1 YOLO V1
1.1 Kiến trúc mô hình

Hình 1: Kiến trúc YOLO V1

Mỗi hộp trong sơ đồ đại diện cho một lớp trong mạng nơ-ron, và các
số bên trong hộp chỉ ra kích thước sau mỗi phép toán. Kiến trúc này giúp
YOLO v1 có khả năng phát hiện đối tượng nhanh chóng và chính xác. Đây
là một bước tiến quan trọng trong lĩnh vực thị giác máy tính và phát hiện
đối tượng.
• Đầu vào: Mô hình nhận đầu vào là một ảnh màu có kích thước 448x448x3.

• Lớp Convolutional (Conv. Layers): Có nhiều lớp Conv với kích thước
bộ lọc và độ sâu khác nhau, giúp rút trích đặc trưng từ ảnh. Confidence
score xác suất tại ô đó có object hay không.

• Lớp Maxpooling (Maxpool Layer): Theo sau các lớp Conv là lớp Max-
pool, giúp giảm kích thước không gian của đặc trưng.

• Lớp kết nối đầy đủ (Fully Connected Layers): Cuối cùng, mô hình sử
dụng các lớp kết nối đầy đủ để dự đoán vị trí và loại đối tượng trên
một lưới 7x7.
Kiến trúc mạng YOLOv1 được lấy ý tưởng từ mô hình GoogLeNet cho
phân loại ảnh. Nó gồm có 24 Convolutional Layers dùng để trích xuất các

2
features từ bức ảnh, theo sau bởi 2 Fully Connected Layers để dự đoán
output probabilities và coordinates. Thay vì sử dụng inception modules trong
GoogLeNet, YOLO chỉ sử dụng reduction layers có kích thước 1×1 theo sau
bởi Convolutional Layers có kích thước 3×3. Layer cuối cùng của network là
các dự đoán ở dạng tensor với kích thước 7×7×30. Các Convolutional Layers
được pretrain trên trên tập dữ liệu ImageNet cho việc phân loại ảnh với độ
phân giải 224×224, rồi sau đó gấp đôi độ phân giải cho việc detection.

1.2 Output
Luồng xử lí như sau:

• Convolution network tiến hành trích xuất đặc trưng ảnh

• Extra layers (fully connected layers) phân tích, phát hiện vật thể. Trả
về output là một matrix A có kích thước:

Shape(A) = S ∗ S ∗ (5∗ B + C) (1)


Trong đó:

• S là số cell.

• B là số bound box, mỗi bound box gồm 5 số liệu: (x,y,w,h, confi-


dence_score). Confidence score xác suất tại ô đó có object hay không.

• C là phần tử đại diện cho phân bố xác suất về loại object, tức class
distribution.

1.3 Hàm mất mát


S X
B 2
X
λcoord 1obj 2 2
ij [(xi − x̂i ) + (yi − ŷi ) ] (2)
i=0 j=0

S X
B 2 q
X p
+λcoord 1obj
ij [(wi − ŵi ) + (hi − ĥi )2 ]
2
(3)
i=0 j=0
2
S X
B
X
+ 1obj
ij (Ci − Ĉi )
2
(4)
i=0 j=0

3
S X
B 2
X
+λcoord 1noobj
ij (Ci − Ĉi )2 (5)
i=0 j=0

S 2
X X
+ 1obj
ij (p1 (c) − p̂1 (c))2 (6)
i=0 c∈classes

Loss_total được tổng hợp từ 5 phần, mỗi phần nhằm tối ưu một vấn đề riêng
biệt:

• 2): xy_loss khi object tồn tại ở boxj trong celli

• 3): wh_loss khi object tồn tại ở boxj trong celli

• 4): confidence_loss khi object tồn tại ở boxj trong celli

• 5): confidence_loss các box không tồn tại object

• 6): class_probability_loss tại cell có tồn tại object.

2 YOLO v5
2.1 Output của mô hình yolov5
y T = [p0 , (tx , ty , tw , th ), (p1 , p2 , ..., pc )] (7)
Trong đó:

• y T là vectơ đầu ra của mô hình YOLO.

• p0 là xác suất dự báo vật thể xuất hiện trong bounding box.

• (tx , ty , tw , th ) giúp xác định bounding box. Trong đó tx , ty là tọa độ tâm


và tw , th là kích thước rộng, dài của bounding box.

• (p1 , p2 , ..., pc ) là vectơ tỉ phân phối xác suất dự báo của các classes.

4
3 Hàm mất mát
S X
B2 S2 q
X X p
Lloc = λcoord 1obj 2 2
ij [(xi − x̂i ) + (yi − ŷi ) ] + (wi − ŵi ) + (hi − ĥi )2
2

i=0 j=0 i=0


(8)

2
S X
B
X
Lcls = (1obj obj obj 2 obj ∗
ij log(Ĉij )+(1−1ij ) log(1−Ĉij ))+λnoobj (1−1ij )(Cj −Ĉj ) +λobj 1ij (pi (c)−pi (c))
2

i=0 j=0
(9)
L = Lcls + Lloc (10)
Trong đó:

• iobj : Hàm indicator có giá trị 0,1 nhằm xác định xem cell i có chứa vật
thể hay không. Bảng 1 nếu chứa vật thể và 0 nếu không chứa.

• iij : Cho biết bounding box thứ j của cell i có phải là bouding box của
vật thể được dự đoán hay không? (xem hình 5).

• Cij : Điểm tin cậy của ô i, P(contain object) * IoU (predict bbox, ground
truth bbox).

• Ĉij : Điểm tự tin dự đoán.

• C: Tập hợp tất cả các lớp.

• Pi (c): Xác suất có điều kiện, cô hay không ô i có chứa một đối tượng
của lớp c C.

• P̂i (c): Xác suất có điều kiện dự đoán.

Tài liệu
[1] https://nextjs.org/docs

[2] https://clouddevs.com/next/real-time-chat-app/

[3] https://www.marketenterprise.vn/blog/
prisma-ho-tro-phat-trien-phan-1.html

5
[4] https://topdev.vn/blog/mongodb-la-gi/

[5] https://pusher.com/

[6] https://intech.vietnamworks.com/article/
hosting-mien-phi-danh-cho-lap-trinh-vien

You might also like