Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 27

HANOI

UNIVERSITY OF SCIENCE AND TECHNOLOGY

SCHOOL OF ELECTRICAL AND

ELECTRONIC ENGINEERING

-----□□□□-----

BÁO CÁO THỰC TẬP KỸ THUẬT

Lê Thanh Hiền Mai 20213766 ET-LUH K66

Đơn vị tiếp nhận: Công ty Phát triển Dịch vụ Truyền Hình (MyTV)

Hanoi, 5-2024
Project I

Đánh giá quyển báo cáo

Họ và tên Sinh viên:................................................ MSSV:…………………

Tên báo cáo: ................................... ................................... ...................................

ET-LUH K66
Project I

LƯỢC SỬ HIỆU CHỈNH

Versio Thực hiện Ngày hiệu Đươc Ngày Lý do


n bởi chỉnh thông thông qua
# qua bởi
1.0 <mm/dd/ Bản nháp thiết kế
yy> đầu tiên
1.1
1.2
1.3

ET-LUH K66
Project I

Lời nói đầu

Trong kỳ thực tập kỹ thuật của học kỳ 2023.1, em đã có cơ hội tiếp xúc với một
loạt công nghệ đa dạng, bao gồm máy chủ, thiết bị, phần mềm Cisco Packet Tracker
8.2.2. Thời gian này đã mở ra một tầm nhìn mới về thực tế doanh nghiệp, giúp em
áp dụng kỹ năng xử lý tình huống, tìm kiếm thông tin và kiến thức từ trường học
vào thực tế. Kỳ thực tập này đã đem lại cho em không chỉ những kỹ năng mới mà
còn một cách suy nghĩ sáng tạo hơn, cùng với việc rèn luyện sự kỷ luật để đối mặt
với các thách thức trong quá trình học và làm việc. Trong vòng hai tháng thực tập
tại MyTV, em đã hưởng ứng sự hỗ trợ nhiệt huyết từ đồng nghiệp cùng các cán bộ
của công ty. Nhờ sự hỗ trợ này, em đã nhanh chóng làm quen với tài liệu kỹ thuật,
cải thiện hoạt động phần mềm với ít lỗi hơn và nắm vững phương pháp tìm kiếm
thông tin. Thêm vào đó, hướng dẫn chi tiết từ các anh chị nhân viên đã giúp em hiểu
rõ hơn về các công nghệ, công cụ kỹ thuật cần thiết và vai trò của chúng trong bối
cảnh làm việc thực tế. Nhờ đó, em đã biết cách tập trung vào những công nghệ thực
sự quan trọng. Sự đồng đội tốt của nhóm thực tập cũng đã chung tay hỗ trợ em, tạo
điều kiện cho sự tiến bộ chung của tất cả.

ET-LUH K66
Project I

Contents
Chương 1. Giới thiệu về Công ty................................................................................7
1.1 Giới thiệu chung................................................................................................7
1.2. Lĩnh vực hoạt động...........................................................................................7
1.3. Sứ mệnh............................................................................................................8
1.4. Giá trị cốt lõi.....................................................................................................8
1.5. Triết lý kinh doanh...........................................................................................8
1.6. Cơ cấu tổ chức..................................................................................................9
Chương 2. Nội dung thực tập....................................................................................10
2.1 Các vị trí công việc trong công ty...................................................................10
2.1.1 Chuyên viên Kỹ thuật Truyền hình..........................................................10
2.2.2 Backend Developer..................................................................................11
2.2.3 Fresher......................................................................................................11
Chương 3. Phân tích và triển khai dự án...................................................................13
3.1 Mục đích và đối tượng sản phẩm....................................................................13
3.1.1 Mục đích đề tài.........................................................................................13
3.1.2 Đối tượng sử dụng....................................................................................13
3.1.3 Yêu cầu chức năng và phi chức năng.......................................................13
3.1.4 Phạm vi đề tài...........................................................................................14
3.2 Yêu cầu bài toán..............................................................................................14
3.3 Tìm hiểu và lựa chọn mô hình.........................................................................15
3.3.1 So sánh Machine Learning và Deep Learning.........................................15
3.3.2 Tìm hiểu và so sánh một số model Deep Learning..................................16
3.3.3 Edge AI và Tiny Machine Learning.........................................................17
3.3.4 Giới thiệu thuật toán FOMO....................................................................18
3.3.5 Lựa chọn dataset...........................................................................................21
Chương 4. Thử nghiệm và kết quả............................................................................22
4.1. Chọn lọc ảnh phù hợp trong dataset và triển khai model trên PC..................22

ET-LUH K66
Project I

4.1.1 Chọn lọc ảnh trong dataset.......................................................................22


4.1.2 Kết quả.....................................................................................................22
Chương 5. Nhận xét, đề xuất.....................................................................................25
5.1 Ưu điểm...........................................................................................................25
5.2 Nhược điểm.....................................................................................................25
5.3 Đề xuất............................................................................................................25

ET-LUH K66
Project I

Chương 1. Giới thiệu về Công ty

1.1 Giới thiệu chung


Công ty Phát triển Dịch vụ Truyền hình (Tên viết tắt: Công ty Truyền hình
MyTV), tiền thân là Trung tâm IPTV – thuộc Công ty Phần mềm và Truyền thông
VASC – Tập đoàn Bưu chính Viễn thông Việt Nam (Tập đoàn VNPT)
Hiện tại, truyền hình MyTV phát sóng trên 100 kênh truyền hình với cả tín hiệu HD
và SD, nội dung kênh phong phú có tích hợp các dịch vụ truyền hình trên cả nước
như truyền hình K+, VTVcab, HTV, VTC…
1.2. Lĩnh vực hoạt động

Công ty phát triển dịch vụ truyền hình MyTV hoạt động trong lĩnh vực cung
cấp dịch vụ truyền hình trực tuyến và đa nền tảng. Các hoạt động của công ty có thể
bao gồm:

Phát sóng
truyền
hình trực
tuyến
Chiến
Xây dựng
lượng và
nền tảng
tiếp thị
streaming
quảng cáo

Phát triển Sản xuất


công nghệ nội dung

Hợp tác và
mua bán
bản quyền

Phát sóng truyền hình trực tuyến: Cung cấp các kênh truyền hình, chương trình,
và nội dung giải trí qua internet, cho phép người dùng xem từ các thiết bị di động,
máy tính bảng, và máy tính.

ET-LUH K66
Project I

Xây dựng nền tảng streaming: Phát triển và duy trì nền tảng công nghệ để phát
sóng truyền hình trực tuyến, bao gồm cả ứng dụng di động, trang web, và giao diện
người dùng.

Sản xuất nội dung: Tạo ra các chương trình truyền hình, series phim, chương trình
tin tức, và các loại nội dung giải trí khác để phát sóng trên các kênh của mình.

Hợp tác và mua bản quyền: Liên kết với các nhà sản xuất nội dung, các nhà phân
phối phim, và các đối tác khác để mua bản quyền phát sóng các chương trình phổ
biến và chất lượng.

Phát triển công nghệ: Nghiên cứu và áp dụng các công nghệ mới như trí tuệ nhân
tạo, học máy, và phân tích dữ liệu để cải thiện trải nghiệm người dùng và tối ưu hóa
việc cung cấp nội dung.

Chiến lược tiếp thị và quảng cáo: Xây dựng chiến lược tiếp thị để thu hút người
dùng, đồng thời tạo ra các cơ hội quảng cáo để hỗ trợ việc tài trợ nội dung và tăng
doanh thu.

Những hoạt động này thường được thực hiện nhằm đáp ứng nhu cầu ngày
càng tăng của người tiêu dùng về việc tiêu thụ nội dung truyền hình theo cách linh
hoạt và thuận tiện nhất.

1.3. Sứ mệnh
Sứ mệnh của Công ty Phát triển Dịch vụ Truyền hình là doanh nghiệp thành
viên, góp sức cùng đưa Tập đoàn Bưu chính Viễn thông Việt Nam trở thành Tập
đoàn số 1 Việt Nam về truyền thông, truyền hình, dịch vụ giá trị gia tăng và công
nghiệp nội dung số.
1.4. Giá trị cốt lõi

Con người là tài sản cùng với công nghệ tiên tiến tạo ra sự khác biệt

Sử dụng và kết hợp sức mạnh của Tập đoàn VNPT, các đối tác để tạo thế và lực
cho việc sáng tạo các giá trị mới cho khách hàng.

1.5. Triết lý kinh doanh

MyTV luôn lấy khách hàng làm trung tâm trong mọi hoạt động sản xuất kinh
doanh của mình, trên cơ sở đảm bảo lợi ích và chia sẻ những khó khăn cùng với đối
tác nhằm mang đến cho khách hàng các sản phẩm, dịch vụ chất lượng và ngày càng
phong phú đáp ứng nhu cầu ngày càng gia tăng của khách hàng. MyTV luôn xác
định đi tiên phong về công nghệ trên cơ sở hợp tác với các đối tác công nghệ nguồn
hàng đầu thế giới nhằm cải thiện quản lý nội dung, phân phối và trải nghiệm người

ET-LUH K66
Project I

dùng.

1.6. Cơ cấu tổ chức


VNPT-Media
Công ty Phát triển Dịch vụ Truyền hình (MyTV)

Công ty Phát triển Dịch vụ Giá trị gia tăng (VAS)

Công ty Phát triển Phần Mềm VNPT-Media


(VNPT-Media Software)

Trung tâm Dịch vụ Tài chính số ( VNPT Fintech)

Cơ cấu tổ chức của Công ty MyTV chia làm hai khối chính: khối chức năng và
khối sản xuất.

ET-LUH K66
Project I

Chương 2. Nội dung thực tập

This chapter aims to analyze the needs of businesses and the currently available
vibration detection products in the market, while also constructing a model for a
vibration detection system.

2.1 Các vị trí công việc trong công ty


2.1.1 Chuyên viên Kỹ thuật Truyền hình
 Mô tả công việc:
- Quản lý và Vận hành hệ thống Tổng Khống Chế Truyền hình MyTV.
- Khắc phục và xử lý các sự cố phát sinh toàn hệ thống.
- Kết nối và truyền dẫn tín hiệu truyền hình.
- Lập kế hoạch tối ưu, nâng cao chất lượng mạng lưới, nâng cao chất lượng kênh
truyền dẫn và tăng cường tối đa tính ổn định.
- Nghiên cứu, xây dựng và đề xuất các giải pháp mới liên quan đến truyền hình
IPTV.
- Chủ trì các công tác đào tạo, nâng cao chất lượng đội ngũ kỹ thuật liên quan tới
mảng công việc phụ trách.
 Yêu cầu:
- Tốt nghiệp các trường Đại học chính quy: Đại Bách Khoa, Học viện Kỹ thuật
Quân sự, Đại học Quốc Gia Hà Nội chuyên ngành Điện tử Viễn thông
- Có kinh nghiệm làm việc trong lĩnh vực Điện tử Viễn thông từ 1-3 năm trở
lên; Có kiến thức tốt về các hệ thống Phát thanh – Truyền hình và hạ tầng kỹ
thuật Viễn thông – CNTT; có kiến thức chuyên sâu về Điện tử viễn thông.
- Có kinh nghiệm trong việc quản lý dự án/sản phẩm, xây dựng giải pháp/phát
triển phần mềm, giải pháp/phát triển sản phẩm viễn thông hoặc hạ tầng mạng.
- Có tư duy logic tốt, tinh thần ham học hỏi, chịu được áp lực công việc cường
độ cao.
 Kỹ năng mềm:
- Khả năng làm việc nhóm và độc lập
- Trung thực, có tinh thần trách nhiệm cao, khả năng chịu áp lực công việc tốt.
- Khả năng giao tiếp, trình bày vấn đề ;
- Cost of downtime as a percentage of revenue

ET-LUH K66 10
Project I

- Statistics on the number Manufacturers are focused on predictive maintenance

2.2.2 Backend Developer

 Mô tả công việc
Kỹ sư phát triển phần mềm được tham gia phát triển những sản phẩm quy
mô lớn như nền tảng ứng dụng chuyển đổi số doanh nghiệp, sàn thương mại
điện tử B2B Marketplace.
 Yêu cầu kinh nghiệm
- Tốt nghiệp ĐH chuyên ngành CNTT và ĐTVT hoặc tương đương.
- Chấp nhận đào tạo ứng viên vừa tốt nghiệp ra trường đại học chuyên
ngành CNTT và Điện tử viễn thông.
- Có khả năng lập trình một trong các ngôn ngữ Java, Python, PHP, C# ..
- Quen thuộc với các framework lập trình backend phổ biến ( như
Spring, .Net, Django, Laravel, NodeJs …)
- Từng làm việc với các Persistence Database (MySQL, PostgreSql …)
hoặc NoSQL
- Kỹ năng làm việc độc lập, tự quản lý thời gian và công việc
- Kỹ năng làm việc nhóm
- Kỹ năng tìm kiếm thông tin và tìm hiểu những kiến thức mới
- Tinh thần cầu tiến, đương đầu với những thách thức, dự án lớn
- Ưu tiên: Ít nhất 1 năm kinh nghiệm lập trình Java, Python, PHP, C# ..
 Đãi ngộ
- Xét lương 2 lần/năm, 16 tháng lương/1 năm
- Tiếp cận CN mới nhất IoT, 5G, Cloud, Big Data
- Môi trường trẻ trung, chuyên nghiệp, ăn trưa free

2.2.3 Fresher

 Giới thiệu
Là chương trình tuyển dụng Fresher lớn nhất tại VNPT Technology được tổ chức
thường niên dành cho các bạn sinh viên khối ngành CNTT và ĐTVT trên toàn
Quốc. VNPT FRESHER 2023 mong muốn sẽ đem đến cho các bạn cơ hội “khám
phá” và “phát triển” trong môi trường năng động và đầy thử thách.
 Quyền lợi
- Nhận lương lên đến 15tr/tháng tùy vị trí công việc ngay từ thời gian đào tạo.
- Tham gia miễn phí các khóa đào tạo chuyên môn & kỹ năng mềm.
- Tham gia hỗ trợ phát triển các sản phẩm với hàng chục triệu người dùng.

ET-LUH K66 11
Project I

- Được tư vấn & định hướng nghề nghiệp từ các Mentors - những chuyên gia
hàng đầu trong lĩnh vực CNTT.
- Cơ hội được tuyển dụng chính thức tại VNPT Technology sau thời gian đào
tạo với mức thu nhập năm hấp dẫn.
 Yêu cầu
- Không yêu cầu kinh nghiệm
- Là sinh viên đã/sắp tốt nghiệp chuyên ngàn Công nghê thông tin, Điện tử
viễn thông, Toán tin, Khoa học máy tính, Kỹ thuật phần mềm, Ứng dụng di
động,... hoặc các chuyên ngành có liên quan.
- Có thể tham gia đào tạo/làm việc Full-time từ thứ 2 - thứ 6.
- GPA tích lũy từ khá trở lên
- Đặc biệt ưu tiên và xem xét tuyển thẳng đối với các ứng viên có điểm trung
bình (GPA/CPA) đạt 3.0/4.0 trở lên hoặc tham gia và đạt giải trong các cuộc
thi học thuật về lập trình, toán học, công nghệ, Olympic Tin học, ACM/ICPC
hoặc tham gia đề tài nghiên cứu khoa học đạt giải từ cấp trường trở lên.
- Ham học hỏi, máu lửa, nhiệt huyết, sẵn sàng chinh chiến đối đầu với thử
thách khó khăn tại các dự án phần mềm lớn. Tuân thủ kỷ luật & có trách
nhiệm với công việc.
- Ưu tiên ứng viên có khả năng đọc hiểu tiếng Anh tốt.

ET-LUH K66 12
Project I

Chương 3. Phân tích và triển khai dự án


3.1 Mục đích và đối tượng sản phẩm
Ở kỳ thực tập này, em đã được học hỏi và trải nghiệm các quy trình làm ra sản
phẩm IP Camera tích hợp chức năng nhận dạng người sử dụng các model Deep
Learning và phương pháp Tiny Machine Learning để tối ưu hóa dung lượng, tốc độ,
và độ chính xác của sản phẩm.
3.1.1 Mục đích đề tài
Trộm cắp vặt là 1 vấn đề nhức nhối hiện nay. Không ít gia đình, hộ kinh doanh
hay cửa hàng bị mất tài sản vì bị trộm cắp. Một phần không nhỏ những kẻ xấu này
là những tên trộm kém chuyên, và chúng nảy ra ý định trộm cắp vì sự sơ hở, mất tập
trung của chủ nhà. Để giải quyết vấn đề này, hệ thống IP Camera tích hợp chức
năng nhận dạng và cảnh báo kẻ đột nhập được ra đời

3.1.2 Đối tượng sử dụng

Đối tượng hướng tới: Gia đình, hộ kinh doanh, cửa hàng

3.1.3 Yêu cầu chức năng và phi chức năng

3.1.3.1 Yêu cầu chức năng


- Ghi hình, lưu trữ : Có thể xem video trực tiếp, lưu trữ, xem lại video tối
đa 30 ngày
- Phát hiện đối tượng: Có thể nhận biết khoanh vùng kẻ xâm nhập
( không bị nhầm với chó, mèo, lá cây, hay những vật thể khác)
- Cảnh báo: Phát ra âm thanh cảnh báo khi phát hiện kẻ xâm nhập và gửi
thông báo đến người dùng
- Hẹn giờ: Người dùng có thể bật tắt, cài đặt khung giờ hệ thống cảnh báo

3.1.3.2 Yêu cầu phi chức năng


- Nguồn điện: Có thể cắm trực tiếp nguồn điện 220V
- Khả năng chống chịu: Có khả năng chống bụi bẩn, chống nước
- Nhiệt độ: Hoạt động trong khoảng nhiệt độ 0 => 60 độ C
- Kết nối: Kết nối WIFI, BLUETOOTH

ET-LUH K66 13
Project I

3.1.1.3 Sơ đồ khối hệ thống

Hình 3.1 Sơ đồ khối hệ thống IP Camera

IP Camera hoạt động bằng cách truyền tải video trực tiếp, cung cấp khả năng
theo dõi thời gian thực. Hệ thống này được trang bị khả năng phát hiện xâm nhập, tự
động nhận biết sự di chuyển hoặc hoạt động không bình thường trong khung hình.
Khi phát hiện có kẻ xâm nhập, hệ thống sẽ kích hoạt chuông cảnh báo để cảnh báo
người dùng hoặc gửi thông báo tới ứng dụng trên thiết bị di động. Những đoạn
video đặc biệt, như khi xảy ra sự xâm nhập hoặc vật thể di chuyển, sẽ được lưu trữ
một cách an toàn vào thẻ nhớ SD Card hoặc đồng bộ lên dịch vụ đám mây. Qua ứng
dụng trên hệ điều hành Android hoặc iOS, người dùng có thể xem video trực tiếp từ
camera, nhận thông báo cảnh báo khi có kẻ xâm nhập, và thậm chí điều khiển các
chức năng như bật/tắt cảnh báo. Điều này mang lại khả năng theo dõi và quản lý an
ninh một cách tiện lợi và hiệu quả.

3.1.4 Phạm vi đề tài

Tuy nhiên, vì thời gian của kỳ thực tập có hạn, chúng em đã tập trung vào phần
tìm hiểu, thử nghiệm và phát triển các model và thử nghiệm trên một máy tính
nhúng bất kỳ,

3.2 Yêu cầu bài toán

- Chạy trên Jetson Nano với FPS = 5

ET-LUH K66 14
Project I

- Độ chính xác >= 50% trên tập Human Detection Dataset


- Bộ nhớ sử dụng < 20 MB
- Kích thước Model < 10 MB
- Xử lý 1 luồng đầu vào

3.3 Tìm hiểu và lựa chọn mô hình


Để thuận tiện cho việc phát triển sản phẩm về cả độ chính xác và mức độ tối ưu hóa
về tốc độ và dung lượng. Em đã nghiên cứu và tìm hiểu về các thuật toán Machine
Learning và các mô hình Deep Learning có sẵn để từ đó đưa ra kết luận về việc lựa
chọn mô hình và định hướng phát triển phù hợp nhất.

3.3.1 So sánh Machine Learning và Deep Learning

Hình 3.3.1a So sánh Machine Learning và Deep Learning

Machine Learning và Deep Learning là hai lĩnh vực quan trọng trong lĩnh vực Trí
tuệ Nhân tạo. Machine Learning là phương pháp giúp máy tính học từ dữ liệu và cải
thiện hiệu suất theo thời gian. Deep Learning là một phân nhánh của Machine
Learning, tập trung vào việc xây dựng các mạng neuron nhân tạo sâu có khả năng
học thông qua việc tự điều chỉnh trọng số của chúng. [1]

Sự khác nhau chính giữa hai khái niệm này nằm ở mức độ phức tạp và khả năng tự
động hóa. Trong Machine Learning, các thuật toán có thể hoạt động tốt với dữ liệu
đối kháng nhưng cần nhiều sự can thiệp từ con người để chọn và tinh chỉnh các đặc
trưng quan trọng. Trong khi đó, Deep Learning có khả năng tự động hóa việc trích

ET-LUH K66 15
Project I

xuất đặc trưng, cho phép học từ dữ liệu phức tạp hơn và tạo ra các mô hình có hiệu
suất tốt hơn trong nhiều tình huống. Điểm mạnh của Machine Learning nằm ở tính
linh hoạt và khả năng áp dụng rộng rãi cho nhiều ngành công nghiệp. Nó có thể
được sử dụng để giải quyết các vấn đề từ dự đoán tín dụng đến nhận dạng ảnh. Tuy
nhiên, điểm yếu của Machine Learning là cần nhiều sự can thiệp và kinh nghiệm để
chọn và tinh chỉnh các thuật toán và đặc trưng một cách hiệu quả.

Figure 3.3.1 Bảng so sánh Machine Learning và Deep Learning [2]

Dựa trên những sự so sánh trên, em nhận thấy việc sử dụng Deep Learning cho
dự án nhận diện người là một quyết định có lợi. Khả năng tự động hóa quá trình học
đặc trưng giúp mô hình tự tìm hiểu và ứng dụng kiến thức từ dữ liệu huấn luyện
phức tạp. Điều này dẫn đến việc tạo ra các mô hình nhận diện người chính xác và
đáng tin cậy, thậm chí trong những tình huống khó khăn như ánh sáng yếu, góc nhìn
khác nhau, hoặc biến đổi về vẻ ngoại hình.

3.3.2 Tìm hiểu và so sánh một số model Deep Learning

ET-LUH K66 16
Project I

Hình 3.3.2. So sánh các model Deep Learning sử dụng imageNet dataset [3]
Dựa vào bảng so sánh trên, ta có thể thấy MobileNetV2 và MobileNetV3 là 2
mô hình Deep Learning có tốc độ xử lý nhanh và độ chính xác cao và khá tương
đồng với nhau, phù hợp với một hệ thống đòi hỏi cả về độ chính xác và tốc độ xử lý
như dự án IP Camera nhận dạng người.

3.3.3 Edge AI và Tiny Machine Learning

3.3.3.1 Giới thiệu về Edge AI

Hình 3.3.3.1 Giới thiệu Edge AI

Edge AI là việc triển khai các ứng dụng AI trong các thiết bị trên toàn thế giới
vật lý. Nó được gọi là “Edge AI” bởi vì tính toán AI được thực hiện gần người dùng
tại rìa mạng, gần nơi đặt dữ liệu, thay vì tập trung trong cơ sở điện toán đám mây
hoặc trung tâm dữ liệu riêng [4]. Ở dự án lần này, IP Camera là địa diện cho Edge
Device, đặt tại các cửa hàng, nhà của các gia đình để phục vụ tính năng cảnh báo kẻ
xâm nhập.

ET-LUH K66 17
Project I

3.3.3.2 Giới thiệu về Tiny Machine Learning

Hình 3.3.3.2 So sánh TinyML và các thuật toán Machine Learning truyền
thống

Tiny Machine Learning (TinyML) là việc triển khai các mô hình Machine
Learning trực tiếp trên các thiết bị nhỏ và tính toán hạn chế. Điều này mang lại khả
năng học máy và dự đoán thông minh cho cảm biến, thiết bị y tế, và đồng hồ thông
minh. TinyML tối ưu hóa hiệu suất trong tài nguyên nhỏ và tiết kiệm năng lượng.
Tuy nhiên, nó đòi hỏi tối ưu hóa phần cứng và đảm bảo an toàn thông tin [5].
Ở dự án lần này, yêu cầu đặt ra là model phải chạy được trên các CPU yếu hoặc
thậm chí là các vi điều khiển, vậy nên, em đã quyết định sử dụng các model Tiny
ML để phục vụ cho bài toán của mình.

3.3.4 Giới thiệu thuật toán FOMO

Vì thời gian không cho phép, trong kỳ thực tập lần này, chúng em đã tìm hiểu
và chọn lọc một số thuật toán TinyML, trong đó FOMO là một thuật toán TinyML
nổi trội với các đặc điểm như đếm đối tượng, tìm vị trí của đối tượng trong hình ảnh
và theo dõi nhiều đối tượng trong thời gian thực bằng cách sử dụng bộ nhớ và sức
mạnh xử lý ít hơn tới 30 lần so với MobileNet SSD hoặc YOLOv5. Ngoài ra, thuật
toán FOMO hiện nay đã được hỗ trợ tích hợp với một số Deep Learning model nổi
tiếng như Yolov5, SSD-MobileNetV2 và SSD-MobileNetV3 để tạo ra những model
TinyML hoàn chỉnh đáp ứng nhu cầu sử dụng của các nhà phát triển phần mềm.
Ngoài ra, model FOMO phiên bản nhỏ nhất có thể chạy với bộ nhớ nhỏ hơn 100Kb
RAM.

ET-LUH K66 18
Project I

3.3.4.1 FOMO Heat Map


Mỗi 'pixel' trong lớp thứ hai tương ứng một cách đại khái với một khối 4x4
pixel trong lớp đầu vào, và điều thú vị là tính cục bộ được bảo tồn một phần. 'Pixel'
trong lớp 2 tại vị trí (0, 0) sẽ tương đối tương ứng với góc trên bên trái của hình ảnh
đầu vào. Càng đi sâu vào mạng phân loại hình ảnh thông thường, tính cục bộ này
(hoặc "vùng tiếp nhận") càng ít được bảo tồn, cho đến cuối cùng chỉ còn 1 kết quả.
FOMO sử dụng cùng kiến trúc đó, nhưng cắt bớt các lớp cuối của mô hình phân loại
hình ảnh tiêu chuẩn và thay thế lớp này bằng một bản đồ xác suất lớp theo vùng (ví
dụ một bản đồ 4x4 như ở ví dụ trên). Sau đó, nó sử dụng một hàm mất mát tùy
chỉnh buộc mạng bảo toàn tính cục bộ trong lớp cuối cùng. Điều này về cơ bản
mang lại cho chúng ta một biểu đồ nhiệt vị trí của các đối tượng. [5]

Hình 3.3.4.1 Từ ảnh đầu vào tới Heat Map


Độ phân giải của bản đồ nhiệt được xác định bởi vị trí bạn cắt các lớp của
mạng. Đối với mô hình FOMO được đào tạo ở trên (trên chai bia), chúng tôi thực
hiện việc này khi kích thước của bản đồ nhiệt nhỏ hơn 8 lần so với hình ảnh đầu vào
(hình ảnh đầu vào 160x160 sẽ tạo ra bản đồ nhiệt 20x20), nhưng điều này có thể
định cấu hình được. Khi bạn đặt tỷ lệ này thành 1:1, điều này thực sự mang lại cho
bạn khả năng phân đoạn ở cấp độ pixel và khả năng đếm rất nhiều đối tượng nhỏ.

3.3.4.2 Huấn luyện vùng trung tâm

ET-LUH K66 19
Project I

Hình 3.3.4.2 FOMO nhận diện vật thể

Một điểm khác biệt giữa FOMO và các thuật toán phát hiện đối tượng khác là
FOMO không đưa ra các hộp giới hạn (bounding boxes), nhưng việc chuyển từ bản
đồ nhiệt (heat map) sang hộp giới hạn vô cùng đơn giản. Chỉ cần vẽ một khung
xung quanh khu vực được làm nổi bật. [6]
Tuy nhiên, khi thử nghiệm với một số bộ dataset do em tự thu thập, em nhận thấy
rằng việc định rõ hộp giới hạn chỉ là một chi tiết thực thi của các mạng phát hiện đối
tượng khác, và không phải là yêu cầu phổ biến. Thường thì, kích thước của đối
tượng không quan trọng do camera được đặt ở vị trí cố định (và vì thế, kích thước
đối tượng cũng cố định). Thay vào đó, chúng ta chỉ cần biết vị trí và số lượng của
các đối tượng.
Bởi vậy, hiện nay chúng tôi huấn luyện dựa trên tâm của các đối tượng. Điều này
giúp việc đếm các đối tượng gần nhau trở nên đơn giản hơn (mỗi hoạt động trong
bản đồ nhiệt tương ứng với một đối tượng), và kiến trúc tích chập của mạng neuron
đảm bảo rằng chúng ta vẫn quan sát xung quanh tâm để tìm đối tượng.

3.3.4.3 Tìm hiểu platform Edge Impulse


Thuật toán FOMO thuộc quyền sở hữu của Edge Impulse, đây là một platform
cung cấp mọi hướng dẫn, ví dụ, và một số model TinyML phổ biến cho người dùng,
giúp chúng ta có thể nghiên cứu và ứng dụng chúng một cách dễ dàng.

Một số đặc điểm của nền tảng Edge Impulse:

 Edge Impulse là một nền tảng cho phép xây dựng các dự án liên quan đến
học máy trên vi điều khiển [6]
 Có tutorial cho phép lựa chọn thiết bị, vi điều khiển sử dụng, lựa chọn các
model TinyML cho dự án để tiến hành quá trình training và thử nghiệm ngay
trên platform

ET-LUH K66 20
Project I

 Đặc biệt nền tảng này hỗ trợ dùng FOMO tương thích với Mobilenet V2

Dựa trên các đặc điểm trên, em quyết định sử dụng Platform Edge Impulse vì nền
tảng này vừa hỗ trợ sử dụng model FOMO với MobileNetv2, vừa cho các ví dụ,
hướng dẫn rất cụ thể, phù hợp với nhu cầu bài toán.

3.3.5 Lựa chọn dataset


Dataset được sử dụng trong dự án này là bộ Human Detection Dataset được tải từ
Kaggle.

Hình 3.3.5 Hình ảnh minh họa trích từ Human Detection Dataset

 Dataset gồm hình ảnh cảnh quay CCTV trong nhà cũng như ngoài trời, trong
nhiều điều kiện thời tiết và ánh sáng
 Gồm 559 ảnh có người và 362 ảnh không có người

Lí do em chọn bộ dataset này là vì nó bao gồm một số lượng ảnh vừa đủ cho
một bản sản phẩm thử nghiệm với các trường hợp có người và không có người, phù
hợp với nhu cầu của bài toán

ET-LUH K66 21
Project I

Chương 4. Thử nghiệm và kết quả


4.1. Chọn lọc ảnh phù hợp trong dataset và triển khai model trên PC
4.1.1 Chọn lọc ảnh trong dataset

Vì thời gian có hạn, em chỉ có đủ thời gian để gán nhãn 225 ảnh (76%
Training, 24% Test) tập trung vào các ảnh đông người và ảnh có nhiều người
chồng chéo lên nhau.
4.1.2 Kết quả

Hình 4.1.2a. Kết quả model testing


Dựa vào kết quả trên, ta có thể thấy đây là một chỉ số độ chính xác khá tốt
(66.28%) dù hệ thống thử nghiệm với bộ dataset chỉ 225 ảnh. Như vậy, theo tính
chất của Deep Learning, ta có thể thấy rằng bổ sung số lượng ảnh cho bộ dataset này
có thể sẽ là một giải pháp hiệu quả giúp tăng độ chính xác của model.

Hình 4.1.2b. Kết quả model testing


Kết quả trên cho thấy thời gian để model xử lý 1 hình ảnh bất kỳ trong bộ dataset là
3ms với lượng RAM cao nhất được sử dụng là 239.1Kb, một kết quả khá tốt và đảm

ET-LUH K66 22
Project I

bảo nhu cầu tiết kiệm năng lượng hệ thống và xử lý với tốc độ cao.

Hình 4.1.2.c Minh họa trường hợp nhận diện đúng và đủ

Dựa vào ví dụ thử nghiệm trên, ta có thể thấy model có thể phát hiện được
người ở trong các tư thế khác nhau như cúi, ngồi, hoặc phân biệt được trẻ con và
người lớn. Các ưu điểm này sẽ góp phần rất lớn cho việc phát triển model cho hệ
thống IP Camera phát hiện người sau này.

Hình 4.1.2.d Minh họa một số trường hợp nhận diện không đủ

Dựa vào ví dụ trên, ta có thể thấy model đã gặp một chút vấn đề trong việc nhận
dạng ảnh người bị chồng chéo lên nhau. Đây vốn là một vấn đề khó của các model
AI, trong thời gian tới, em sẽ tìm cách để cải thiện và tối ưu hóa model để khắc phục
được vấn đề này.

ET-LUH K66 23
Project I

Hình 4.1.2c Kết quả chạy thử nghiệm trên Jetson Nano
Dựa vào kết quả trên, ta có thể thấy thời gian để Jetson Nano xử lý 1 bức ảnh
với model được triển khai khá giống với dự đoán của Edge Impulse sau khi training
trên platform. Tuy nhiên, FPS của hệ thống này khi livestream còn rất thấp, ảnh
hưởng tới kết quả nhận dạng, em sẽ tìm cách để khắc phục tình trạng này trong thời
gian tới.

ET-LUH K66 24
Project I

Chương 5. Nhận xét, đề xuất


5.1 Ưu điểm
 Môi trường làm việc động, đầy thách thức để phát triển kỷ luật cá nhân và
khả năng tự tìm kiếm thông tin.
 Thời gian thực tập linh hoạt, cho phép điều chỉnh lịch làm việc theo phù hợp
với cá nhân.
 Các đồng nghiệp thân thiện, hỗ trợ nhiệt tình đồng hành cùng người thực tập.
 Người hướng dẫn rất nhiệt tình chỉ bảo, đưa ra các lời khuyên hữu ích giúp
em có thể hoàn thành tốt phần việc của mình và học hỏi được thêm rất nhiều
kiến thức.
 Các tài liệu kỹ thuật bằng tiếng Anh hỗ trợ quá trình nâng cao khả năng ngoại
ngữ. Việc thực tập tại doanh nghiệp mang lại thông tin hữu ích về thực tế
công việc, yêu cầu của doanh nghiệp và các thách thức cần được giải quyết
bởi các kỹ sư.

5.2 Nhược điểm


Thời gian thực tập quá ngắn khiến kiến thức thu thập từ doanh nghiệp chưa thực
sự thể hiện trong tình huống thực tế.

5.3 Đề xuất
Em hi vọng trường học và doanh nghiệp có thể tạo điều kiện để sinh viên có
thời gian thực tập kéo dài hơn, từ đó nâng cao kỹ năng, kinh nghiệm và cơ hội tham
gia vào các dự án thực tế.

ET-LUH K66 25
Project I

Tài liệu tham khảo

[ [Online]. Available: https://glints.com/vn/blog/deep-learning-la-gi/#:~:text=


1 %C6%AFu%20%C4%91i%E1%BB%83m%20l%E1%BB%9Bn%20nh%E1%BA
] %A5t%20c%E1%BB%A7a,c%C3%A1c%20doanh%20nghi%E1%BB%87p%20s
%E1%BB%AD%20d%E1%BB%A5ng.
[ [Online]. Available: https://tanca.io/blog/deep-learning-la-gi-hieu-tong-quan-ve-
2 deep-learning-va-ung-dung.
]
[ [Online]. Available: https://machinethink.net/blog/mobile-architectures/.
3
]
[ [Online]. Available:
4 https://www.sciencedirect.com/science/article/pii/S2667345223000196.
]
[ [Online]. Available:
5 https://docs.edgeimpulse.com/https://docs.edgeimpulse.com/fomo-object-
] detection-for-constrained-devices.
[ [Online]. Available: https://www.tinmoiz.com/fomo-la-mot-mang-no-ron-tinyml-
6 de-phat-hien-doi-tuong-trong-thoi-gian-thuc-695025/.
]
[ [Online]. Available: https://doc.qt.io/qtcreator/creator-debugging.html?
7 fbclid=IwAR0wbexIIyZAPWLqAFVa7XDzU1GNrYhHNDRWshnlSIhFOblPtO
] gW5BSIPHM.
[ S. B. C. S. D. E. A. W. C. K. M. B. M. M. M. P. J. T. D. G. A. M. L. M. D. B. A.
8 J. J. R. V. Hymel, in .: Edge impulse: An mlops platform for tiny machine.
]
[ [Online]. Available: https://www.edgeimpulse.com/.
9
]

ET-LUH K66 26
Project I

ET-LUH K66 27

You might also like