Da Nang University of Science and Technology: Project Based Learning 3

Da Nang University of Science and
Technology
Project based learning 3
Sinh viên - Lớp:

Phạm Minh Tùng - 20KTMT1
Giáo viên :
Trần Văn Đạt - 20KTMT1
TS. Trần Thị Minh Hạnh
Nguyễn Huỳnh Tiến -
20KTMT1
Ngày 13 tháng 4 năm 2024

Mục lục
1 YOLO V1 2
1.1 Kiến trúc mô hình . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Hàm mất mát . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 YOLO v5 4
2.1 Output của mô hình yolov5 . . . . . . . . . . . . . . . . . . . 4
3 Hàm mất mát 5
Bảng 1: PHÂN CÔNG CÔNG VIỆC

Công việc Người phụ trách
Phân tích yêu cầu, Xây dựng kiến trúc hệ thống, Lựa Tùng, Gia, Khánh
chọn ngôn ngữ lập trình
Thiết kế cơ sở dữ liệu, Thiết kế giao diện, Phân tích các Tùng, Gia, Khánh
chức năng chính
Code FE, BE phần đăng nhập, đăng xuất Gia
Code FE, BE phần chat Tùng
Code FE, BE phần user Khánh
Kiểm thử phần mềm và khắc phục Tùng, Gia, Khánh
Mã hoá mật khẩu bcrypt Tùng
Deloy Khánh
Làm báo cáo Tùng, Gia, Khánh
1
1 YOLO V1
1.1 Kiến trúc mô hình
Hình 1: Kiến trúc YOLO V1
Mỗi hộp trong sơ đồ đại diện cho một lớp trong mạng nơ-ron, và các
số bên trong hộp chỉ ra kích thước sau mỗi phép toán. Kiến trúc này giúp
YOLO v1 có khả năng phát hiện đối tượng nhanh chóng và chính xác. Đây
là một bước tiến quan trọng trong lĩnh vực thị giác máy tính và phát hiện
đối tượng.
• Đầu vào: Mô hình nhận đầu vào là một ảnh màu có kích thước 448x448x3.
• Lớp Convolutional (Conv. Layers): Có nhiều lớp Conv với kích thước
bộ lọc và độ sâu khác nhau, giúp rút trích đặc trưng từ ảnh. Confidence
score xác suất tại ô đó có object hay không.
• Lớp Maxpooling (Maxpool Layer): Theo sau các lớp Conv là lớp Max-
pool, giúp giảm kích thước không gian của đặc trưng.
• Lớp kết nối đầy đủ (Fully Connected Layers): Cuối cùng, mô hình sử
dụng các lớp kết nối đầy đủ để dự đoán vị trí và loại đối tượng trên
một lưới 7x7.
Kiến trúc mạng YOLOv1 được lấy ý tưởng từ mô hình GoogLeNet cho
phân loại ảnh. Nó gồm có 24 Convolutional Layers dùng để trích xuất các
2
features từ bức ảnh, theo sau bởi 2 Fully Connected Layers để dự đoán
output probabilities và coordinates. Thay vì sử dụng inception modules trong
GoogLeNet, YOLO chỉ sử dụng reduction layers có kích thước 1×1 theo sau
bởi Convolutional Layers có kích thước 3×3. Layer cuối cùng của network là
các dự đoán ở dạng tensor với kích thước 7×7×30. Các Convolutional Layers
được pretrain trên trên tập dữ liệu ImageNet cho việc phân loại ảnh với độ
phân giải 224×224, rồi sau đó gấp đôi độ phân giải cho việc detection.
1.2 Output
Luồng xử lí như sau:
• Convolution network tiến hành trích xuất đặc trưng ảnh
• Extra layers (fully connected layers) phân tích, phát hiện vật thể. Trả
về output là một matrix A có kích thước:
Shape(A) = S ∗ S ∗ (5∗ B + C) (1)

Trong đó:
• S là số cell.
• B là số bound box, mỗi bound box gồm 5 số liệu: (x,y,w,h, confi-

dence_score). Confidence score xác suất tại ô đó có object hay không.
• C là phần tử đại diện cho phân bố xác suất về loại object, tức class
distribution.
1.3 Hàm mất mát

S X
B 2
X
λcoord 1obj 2 2
ij [(xi − x̂i ) + (yi − ŷi ) ] (2)
i=0 j=0
S X
B 2 q
X p
+λcoord 1obj
ij [(wi − ŵi ) + (hi − ĥi )2 ]
2
(3)
i=0 j=0
2
S X
B
X
+ 1obj
ij (Ci − Ĉi )
2
(4)
i=0 j=0
3
S X
B 2
X
+λcoord 1noobj
ij (Ci − Ĉi )2 (5)
i=0 j=0
S 2
X X
+ 1obj
ij (p1 (c) − p̂1 (c))2 (6)
i=0 c∈classes
Loss_total được tổng hợp từ 5 phần, mỗi phần nhằm tối ưu một vấn đề riêng
biệt:
• 2): xy_loss khi object tồn tại ở boxj trong celli
• 3): wh_loss khi object tồn tại ở boxj trong celli
• 4): confidence_loss khi object tồn tại ở boxj trong celli
• 5): confidence_loss các box không tồn tại object
• 6): class_probability_loss tại cell có tồn tại object.
2 YOLO v5
2.1 Output của mô hình yolov5
y T = [p0 , (tx , ty , tw , th ), (p1 , p2 , ..., pc )] (7)
Trong đó:
• y T là vectơ đầu ra của mô hình YOLO.
• p0 là xác suất dự báo vật thể xuất hiện trong bounding box.
• (tx , ty , tw , th ) giúp xác định bounding box. Trong đó tx , ty là tọa độ tâm

và tw , th là kích thước rộng, dài của bounding box.
• (p1 , p2 , ..., pc ) là vectơ tỉ phân phối xác suất dự báo của các classes.
4
3 Hàm mất mát
S X
B2 S2 q
X X p
Lloc = λcoord 1obj 2 2
ij [(xi − x̂i ) + (yi − ŷi ) ] + (wi − ŵi ) + (hi − ĥi )2
2
i=0 j=0 i=0

(8)
2
S X
B
X
Lcls = (1obj obj obj 2 obj ∗
ij log(Ĉij )+(1−1ij ) log(1−Ĉij ))+λnoobj (1−1ij )(Cj −Ĉj ) +λobj 1ij (pi (c)−pi (c))
2
i=0 j=0
(9)
L = Lcls + Lloc (10)
Trong đó:
• iobj : Hàm indicator có giá trị 0,1 nhằm xác định xem cell i có chứa vật
thể hay không. Bảng 1 nếu chứa vật thể và 0 nếu không chứa.
• iij : Cho biết bounding box thứ j của cell i có phải là bouding box của
vật thể được dự đoán hay không? (xem hình 5).
• Cij : Điểm tin cậy của ô i, P(contain object) * IoU (predict bbox, ground
truth bbox).
• Ĉij : Điểm tự tin dự đoán.
• C: Tập hợp tất cả các lớp.
• Pi (c): Xác suất có điều kiện, cô hay không ô i có chứa một đối tượng
của lớp c C.
• P̂i (c): Xác suất có điều kiện dự đoán.
Tài liệu
[1] https://nextjs.org/docs
[2] https://clouddevs.com/next/real-time-chat-app/
[3] https://www.marketenterprise.vn/blog/
prisma-ho-tro-phat-trien-phan-1.html
5
[4] https://topdev.vn/blog/mongodb-la-gi/
[5] https://pusher.com/
[6] https://intech.vietnamworks.com/article/
hosting-mien-phi-danh-cho-lap-trinh-vien

Da Nang University of Science and Technology: Project Based Learning 3

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Da Nang University of Science and Technology: Project Based Learning 3

Uploaded by

Copyright:

Available Formats

Da Nang University of Science and

Project based learning 3

Sinh viên - Lớp:

Ngày 13 tháng 4 năm 2024

3 Hàm mất mát 5

Bảng 1: PHÂN CÔNG CÔNG VIỆC

Hình 1: Kiến trúc YOLO V1

• Convolution network tiến hành trích xuất đặc trưng ảnh

Shape(A) = S ∗ S ∗ (5∗ B + C) (1)

• B là số bound box, mỗi bound box gồm 5 số liệu: (x,y,w,h, confi-

1.3 Hàm mất mát

• 2): xy_loss khi object tồn tại ở boxj trong celli

• 3): wh_loss khi object tồn tại ở boxj trong celli

• 4): confidence_loss khi object tồn tại ở boxj trong celli

• 5): confidence_loss các box không tồn tại object

• 6): class_probability_loss tại cell có tồn tại object.

• y T là vectơ đầu ra của mô hình YOLO.

• (tx , ty , tw , th ) giúp xác định bounding box. Trong đó tx , ty là tọa độ tâm

i=0 j=0 i=0

• Ĉij : Điểm tự tin dự đoán.

• C: Tập hợp tất cả các lớp.

• P̂i (c): Xác suất có điều kiện dự đoán.

You might also like