Download as doc, pdf, or txt
Download as doc, pdf, or txt
You are on page 1of 7

Segmentation và object detection là hai phương pháp hiệu quả cho các ứng dụng phân tích hình

ảnh
như phân loại chất thải. Tuy nhiên, vì những lý do sau, chúng tôi ưu tiên object detection hơn các mô
hình Segmentation:
- object detection sử dụng các mô hình học sâu và mạng nơ-ron tích chập (CNN) để nhận diện đối
tượng trong hình ảnh, cung cấp độ chính xác cao trong việc phân loại và nhận dạng các loại rác khác
nhau.
- Object detection xử lý các tập dữ liệu lớn hoặc các ứng dụng thời gian thực nhanh hơn so với
Segmentation.
- Object detection có thể đơn giản hơn trong việc triển khai và đào tạo so với các mô hình
segmentation. Chúng đòi hỏi ít tài nguyên tính toán hơn và quy trình triển khai cũng dễ dàng hơn.
- Object detection chỉ yêu cầu việc ghi nhãn các hộp bao quanh các đối tượng quan tâm. Việc ghi
nhãn này có thể được thực hiện nhanh chóng và hiệu quả hơn, giúp tăng tốc độ phát triển mô hình và
giảm thiểu chi phí nhân công.

(Segmentation and object detection are two effective methods for image analysis applications such as
waste classification. However, for the following reasons, we prioritize object detection over
segmentation models:

- Object detection utilizes deep learning models and convolutional neural networks (CNNs) to
recognize objects in images, providing high accuracy in classifying and identifying different types of
waste.
- It processes large datasets faster than segmentation. This helps optimize performance and reduce
latency when deployed on systems requiring quick responses.
- Object detection can be simpler to implement and train compared to segmentation models. They
require fewer computational resources and the deployment process is easier.
- Object detection only requires labeling the bounding boxes around the objects of interest.This
labeling can be done more quickly and efficiently, accelerating model development and reducing labor
costs.)
Đối với dự án này, chúng tôi nhận thấy rằng chúng tôi cần một mô hình phát hiện đối tượng có thể
được triển khai, duy trì và xác định trong thời gian thực. Chúng tôi chọn YOLOv9 thay vì các mô hình
phát hiện đối tượng khác vì những ưu điểm sau của mô hình:
- Hiệu suất cao: YOLO (You Only Look Once) là một trong những thuật toán phát hiện đối tượng
nhanh nhất hiện nay, có khả năng xử lý hình ảnh theo thời gian thực, phù hợp với nhu cầu nghiên
cứu. Mô hình có thể phát hiện hình ảnh dưới 0,5 giây, có thể được dùng để chạy trong thời gian thực.
- Độ chính xác cao: Là phiên bản mới nhất trong gia đình YOLO, YOLOv9 kế thừa và cải tiến so với các
phiên bản trước đó như YOLOv4 và YOLOv5. Nó đạt được độ chính xác cao hơn thông qua cải tiến
thuật toán, kỹ thuật tiền xử lý và cải tiến xử lý hậu kỳ.

( Nhìn đồ thị)

Trục hoành (X-Axis):

- Số lượng tham số (Million): Đây là thước đo kích thước của mô hình, tức là số lượng
tham số mà mô hình cần để hoạt động.

Trục tung (Y-Axis):

- MS COCO Object Detection AP (%): Đây là thước đo hiệu suất của mô hình, cụ thể là độ
chính xác trung bình trong phát hiện đối tượng trên tập dữ liệu MS COCO.

Hiệu suất và số lượng tham số: Các mô hình có ít tham số thường có hiệu suất thấp hơn,
nhưng khi tăng số lượng tham số, hiệu suất tăng lên.Mô hình YOLOv9 có hiệu suất tốt hơn
so với các mô hình khác ở cùng mức tham số.

Sự so sánh giữa các mô hình: Mô hình YOLOv9 có hiệu suất vượt trội hơn khi so sánh với
các mô hình còn lại như YOLOv6, YOLOv7.....

- Cộng đồng hỗ trợ mạnh mẽ: Do sự phổ biến rộng rãi của các phiên bản trước, YOLO được hưởng
lợi từ số lượng lớn tài liệu, hướng dẫn và hỗ trợ từ cộng đồng, tạo điều kiện triển khai và tùy chỉnh mô
hình dễ dàng hơn.
(For this project, we need an object detection model that can be deployed, maintained, and identified in
real-time. We chose YOLOv9 and there are 3 reasons for that choice

- **High Performance**: YOLOv9, being one of the fastest object detection algorithms, can process
images in under 0.5 seconds, suitable for real-time applications.

- **High Accuracy**: As the latest version, YOLOv9 achieves higher accuracy through enhanced
algorithms and processing techniques. It shows superior performance compared to models with similar
parameters.(pờremmeder)

- **Strong Community Support**: YOLO's widespread popularity ensures abundant documentation,


tutorials, and community support, facilitating easier deployment and customization.

Refer to the graph The YOLOv9 model shows better performance compared to other models at similar
parameter levels.)

--------------------------------------------------------------------

Google Colab (viết tắt của Google Colaboratory) là một môi trường lập trình trực tuyến được cung cấp
bởi Google.

Google Colab cung cấp môi trường GPU miễn phí, giúp đẩy nhanh quá trình đào tạo mô hình. Việc sử
dụng GPU giúp giảm thời gian đào tạo so với sử dụng GPU truyền thống, phù hợp cho các tác vụ đào
tạo dữ liệu.

Google Colab tích hợp chặt chẽ với Google Drive, cho phép người dùng lưu trữ dữ liệu và mã nguồn
trực tiếp trên nền tảng này. Điều này tạo điều kiện dễ dàng quản lý và chia sẻ dữ liệu giữa các dự án,
cũng như đảm bảo an toàn và bảo mật dữ liệu.
(Next, let's talk about the technology we use for training our data. We chose Google Colab for 2 main
reasons.

It offers a free GPU environment, accelerating model training compared to traditional CPUs, making it
ideal for data training tasks.

Colab integrates closely with Google Drive, allowing users to store data and source code directly on
the platform. This integration facilitates easy data management, sharing across projects, and ensures
data security.)

Khi chúng tôi test thường xuyên mắc lỗi không nhận dạng được rác trong ảnh.

Mô hình này cũng thường xuyên nhầm lẫn các lớp với các dạng tương đương, chẳng hạn như thủy
tinh và nhựa.

Việc sắp xếp các lớp không đúng thứ tự khi huấn luyện khiến kết quả nhận dạng không đúng thứ tự,
khiến kết quả nhận dạng đầu ra không chính xác.

Đó là một số lỗi cơ bản mà chúng ta gặp phải khi huấn luyện dữ liệu. Sau nhiều lần khắc phục chúng
tôi đã huấn luyện thành công tập dữ liệu và cho ra kết quả chính xác nhất.

(When training our model, we encountered several significant challenges:

 Misrecognition of Waste: Our model often failed to identify waste in images and frequently
confused similar classes, such as glass and plastic.
 Incorrect Class Order: Misordering of classes during training resulted in inaccurate
identification.

After adjustments, we successfully trained our model to achieve accurate and reliable results.)
Chúng tôi sử dụng F1-score làm thước đo đánh giá. F1-score là thước đo tổng hợp của Precision và
Recall, được sử dụng để đánh giá hiệu suất của mô hình phát hiện đối tượng trong phân loại đối
tượng.
Công thức tính F1-score là:

Precision (Độ chính xác): Tỷ lệ giữa số lần dự đoán đúng trên tổng số lần dự đoán được thực hiện.
Recall (Độ nhạy): Tỷ lệ giữa số lượng dự đoán đúng trên tổng số đối tượng thực tế trong dữ liệu thử
nghiệm.
F1-score: Đây là chỉ số tổng hợp giữa Precision (Độ chính xác) vàRecall (Độ nhạy), cung cấp cái nhìn
tổng thể về hiệu suất của mô hình.

(In this section, we evaluate the performance of our object detection model using the F1-score, a
composite measure of Precision and Recall. In which :

Recall: indicates how well the model can identify all relevant instances.

Precision: indicates the accuracy of the positive predictions made by the model.)
Chúng tôi đào tạo trên 75 epochs, F1-score của mô hình tốt nhất là 0,94.
After traning for 75 epochs, the F1-score of the best model is 0.94.

[ Đồ thị 1]

- Mỗi ô biểu diễn số lượng mẫu tương ứng với nhãn thực tế và nhãn dự đoán. Ví dụ, ô tại hàng
"plastic" và cột "plastic" có giá trị là 290, nghĩa là có 290 mẫu "plastic" đã được dự đoán chính xác là
"plastic".

- Màu sắc càng đậm (màu xanh đậm) biểu thị số lượng mẫu càng lớn. Cột màu bên phải cho thấy
thang màu tương ứng với số lượng mẫu.

- Đường chéo chính càng đậm cho thấy mức độ chính xác của mô hình càng cao.

[ Đồ thị 2]
- Đường cong tổng quát màu xanh đậm cho thấy mô hình đạt được F1 score tối đa khoảng 0.94 tại
mức tự tin 0.563. Đây là mức độ tự tin mà mô hình đạt hiệu suất tốt nhất trên tất cả các lớp

(Chart 1: Confusion Matrix,

 Each cell represents the number of samples corresponding to actual and predicted labels
 Darker colors (deep blue) indicate a higher number of samples. The color bar on the right
shows the color scale corresponding to the sample count.
 A darker main diagonal indicates higher model accuracy.

Chart 2: F1 Confidence Curve

 The dark blue curve shows the model achieving a maximum F1 score of about 0.94 at a
confidence level of 0.563, indicating optimal performance across all classes.

The website uses React JS for the front end, Ant Design for a sleek UI, and React Router for route
management. Axios(akxio) connects to a Flask API with YOLOv9 for object detection. Wireframe tools
like Figma are used to create preliminary interface sketches.

You might also like