VCM REV ECIT 2023-Final-Version

Cải tiến hiệu năng mã hóa video cho các ứng
dụng Học máy với chuẩn VVC kết hợp ROI

Coding
Đỗ Ngọc Minh, Nguyễn Phương Anh, Hoàng Văn Xiêm∗
Khoa Điện tử Viễn thông
Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội
∗ Tác giả liên hệ: (dongocminh, xiemhoang)@vnu.edu.vn
Tóm tắt—Các chuẩn mã hóa video HEVC (High Effi-

ciency Video Coding) và gần đây nhất là VVC (Versatile
Video Coding) ra đời, mang lại nhiều đột phá cho các ứng
dụng truyền thông đa phương tiện như truyền hình hội
nghị, truyền hình quảng bá và đặc biệt là E-learning. Tuy
nhiên, sự phát triển của trí tuệ nhân tạo (AI) và dữ liệu
lớn gần đây đặt ra một nhu cầu bức thiết về một mô hình
mã hóa video chuyên biệt, được thiết kế riêng cho các ứng
dụng phân tích hình ảnh, video sử dụng học máy (VCM
- Video Coding for Machines). Do vậy, trong bài báo này,
chúng tôi đề xuất một phương pháp mã hóa video mới, Hình 1: Sơ đồ tổng quát hệ thống mã hóa video thông
kết hợp hiệu quả giữa thuật toán ROI Coding (Region Of thường (a) và VCM (b).
Interest Coding) và mô hình mã hóa VVC. Phương pháp
đề xuất xác định các vùng quan tâm trong các khung
hình của video thông qua các đặc trưng cơ bản. Trên cơ
sở đó, chúng tôi đề xuất điều chỉnh thích nghi phương đề quan trọng trong giới học thuật nói chung và công
thức nén cho từng khối hình sao cho vẫn đảm bảo được nghiệp nói riêng.
hiệu năng thực thi các ứng dụng học máy nhưng yêu cầu
lượng dữ liệu mã hóa là ít nhất. Do đó, nghiên cứu khảo A. Mã hóa VCM và mô hình Standard-VCM
sát hướng tiếp cận để trích xuất đặc trưng từ thông tin
gốc tại phía mã hóa (EROI - Encoding based on Region Các chuẩn mã hóa video truyền thống như High-
Of Interest). Kết quả cho thấy thuật toán EROI-VCM có efficiency Video Coding (HEVC) [1] và mới nhất là
thể giúp tăng độ chính xác MOTA lên tới 9.69% và cùng Versatile Video Coding (VVC) [2] đã được tối ưu hóa
một giá trị MOTA thì EROI-VCM tiết kiệm được 54.81% rất nhiều để cung cấp chất lượng tốt nhất có thể ở tỷ lệ
về BD-Rate.
bit cụ thể, trong đó người dùng cuối được xem xét làm
Từ khóa—Mã hóa VCM, Chuẩn VVC, Mã hóa vùng tham chiếu để đánh giá chất lượng. Do đó, nó đặt ra một
quan tâm (ROI Coding) vấn đề rằng liệu những tối ưu hóa được thực hiện cho
người dùng được mô tả trong hình 1a, có phù hợp khi
I. GIỚI THIỆU những dữ liệu này được phân tích và xử lý bởi một thuật
Ngày nay, video chiếm hơn 80 phần trăm lưu lượng toán thay vì một con người, như hình 1b. Câu hỏi đó đã
dữ liệu trên internet và trở thành một trong những định mở ra một lĩnh vực nghiên cứu về mã hóa video cho các
dạng dữ liệu chính. Dung lượng video được khai thác tác vụ được xử lý bởi máy tính (VCM - Video Coding
bởi máy tính đã vượt qua dung lượng video được khai for Machines). Từ đó, MPEG [3] đã thành lập một nhóm
thác bởi con người. Các nhiệm vụ thị giác máy kết hơp các chuyên gia về lĩnh vực này vào năm 2019 với mục
học máy bao gồm phát hiện đối tượng, phân đoạn, và tiêu nghiên cứu và phát triển chuẩn mã hóa video VCM
theo dõi khá khác biệt so với những nhiệm vụ dành cho [4].
con người. Ngược lại, do dung lượng dữ liệu video lớn, Sau đó, các nghiên cứu về VCM trên video ngày càng
việc nén video một cách hiệu quả cho máy tính (VCM được quan tâm. Trong nghiên cứu của A. D. Bagdanov
- Video Coding for Machines) đã trở thành một chủ và công sự [5], họ đã đề xuất mô hình VCM dựa trên
chuẩn mã hóa video H.264/AVC [6] mà giúp bảo tồn
chất lượng các khu vực quan trọng, trong khi vùng nền
được nén mạnh hơn. Kết quả cho thấy rằng kỹ thuật này
có hiệu quả vượt trội so với việc mã hóa chuẩn H.264
với tỷ lệ bit tương tự và bảo tồn các đặc trưng quan
trọng cho việc phát hiện và nhận dạng ở các bước tiếp
theo.
Ngoài ra, Choi và Bajic [7] đã đề xuất một chiến
lược phân bổ bit và kiểm soát tốc độ được điều chỉnh
để phục vụ bài toán phát hiện đối tượng. Bằng cách Hình 2: Ứng dụng theo dõi đối tượng.
sử dụng các lớp tích chập ban đầu của bộ phát hiện đối
tượng YOLO9000 [8], họ đã tạo ra một bản đồ biểu diễn
tầm quan trọng của các vùng trong ảnh có thể hướng chuẩn VVC trên cơ sở giải quyết hai câu hỏi: (1) Cần
dẫn việc phân bổ bit đến các khu vực quan trọng để phát mã hóa thông tin gì trong video để nâng cao hiệu quả
hiện đối tượng. Phương pháp này cho phép tiết kiệm tốc quá trình phân tích và xử lý của máy tính; (2) Những
độ bit từ 7% trở lên so với chuẩn HEVC mà hiệu quả thông tin quan trọng đối với máy tính được mã hóa như
phát hiện đối tượng tương đương. thế nào. Đầu tiên, để xác định thông tin quan trọng cho
VCM thì ROI Coding đang được cộng đồng nghiên cứu
B. ROI Coding
quan tâm. Ngoài ra, bài báo cũng trình bày phương pháp
Thuật ngữ ROI Coding đã sớm xuất hiện trong mã hóa tiếp cận để xác định vùng ROI trong video, là EROI-
ở tiêu chuẩn JPEG2000 [9] liên quan đến việc mã hóa VCM: sử dụng thông tin gốc ở phía mã hóa. Hướng tiếp
ảnh sao cho vùng quan tâm (ROI - Region Of Interest) cận này mang lại hiệu quả cao trong việc tiết kiệm lượng
được mã hóa với chất lượng tốt hơn so với phần còn bit mã hóa so với chuẩn VVC khi sử dụng trực tiếp cho
lại của hình ảnh. Theo đó, vùng ROI có thể là người, VCM.
xe, chuyển động hay bất kỳ đối tượng nào mà hệ thống Mô tả chi tiết về kiến trúc mã hóa video đề xuất được
quan tâm. Ví dụ như trong các hệ thống nhận dạng biển trình bày ở mục II. Mục III trình bày kết quả và các phân
số xe, vùng ROI cần được xác định ở đây là vùng chứa tích đánh giá. Mục IV đưa ra kết luận và các hướng phát
biển số xe. triển.
Sau đó, thuật ngữ này được sử dụng rộng rãi trong cả
mã hóa ảnh và video. Trong mã hóa video, ROI Coding II. ĐỀ XUẤT MÔ HÌNH VCM TRÊN NỀN TẢNG
là mã hóa vùng quan tâm với chất lượng tốt hơn so VVC VÀ ROI CODING
với những vùng khác trong khung hình [10], điều này
A. Tác vụ trí tuệ nhân tạo
có nhiều ứng dụng như hệ thống họp trực tuyến, giám
sát video hay phục vụ cho những tác vụ trí tuệ nhân Trong lĩnh vực trí tuệ nhân tạo, có một loạt các tác
tạo. Việc cung cấp nhiều bit hơn cho vùng quan tâm vụ quan trọng liên quan đến việc theo dõi và xác định vị
giúp phân biệt rõ hơn các khuôn mặt và hành vi của trí của nhiều đối tượng trong môi trường thời gian thực.
con người so với môi trường xung quanh, do đó cải Một trong những tác vụ quan trọng nhất trong lĩnh vực
thiện trải nghiệm họp và hiệu suất theo dõi. Ngoài ra, này là theo dõi đa đối tượng (MOT - Multiple Object
nó cũng được sử dụng trong hình ảnh y học, nơi các Tracking) [13]. MOT đóng một vai trò then chốt trong
vùng có cơ quan quan trọng đối với chẩn đoán của bác phân lập nhiều đối tượng, duy trì danh tính của họ và tạo
sĩ được mã hóa với chất lượng tốt hơn và phần nền ít ra quỹ đạo cá nhân của từng đối tượng dựa trên video
quan trọng bị làm mờ đi [11]. đầu vào. Các đối tượng cần được theo dõi có thể là
người đi bộ trên đường, phương tiện trên đường, người
C. Đóng góp chính của bài báo chơi thể thao trên sân, hoặc thậm chí là các nhóm động
Hiện nay đã có các nghiên cứu về VCM dựa trên các vật như chim, dơi, kiến, cá, tế bào, hoặc ong. Việc theo
chuẩn mã hóa thông dụng như H264/AVC, H265/HEVC, dõi nhiều đối tượng có thể được xem như việc theo dõi
H266/VVC. Tuy nhiên, các nghiên cứu này tập trung vào nhiều phần khác nhau của một đối tượng duy nhất.
xây dựng bộ mã hóa cho VCM mà chưa đưa ra kiến trúc Khi bước vào cuộc hành trình để cải thiện khả năng
tổng thể dựa trên các chuẩn truyền thống và ROI Coding theo dõi nhiều đối tượng, mạng JDE (Joint Detection
[12]. Để giải quyết vấn đề trên, bài báo tập trung vào and Embedding) [14] đã nổi lên như một công cụ quan
trình bày một mô hình kết hợp giữa ROI Coding và trọng. JDE kết hợp giữa việc phát hiện các đối tượng và
điều kiện biến đổi và thay đổi, trong khi thuật toán Hole
Filling giúp giữ lại các chi tiết quan trọng và loại bỏ sự
nhiễu từ phần nền. Kết hợp giữa hai phần này tạo ra
một phương pháp mạnh mẽ cho việc theo dõi và mã
hóa các đối tượng quan trọng trong lĩnh vực VCM như
trong Hình 3.
C. Điều chỉnh bản đồ QP

(a) Khung hình gốc Để mã hóa tập trung vào thông tin hữu ích cho nhiệm
vụ theo dõi đối tượng thì cần đưa vào bộ mã hóa những
thông tin đó, cụ thể là chúng tôi sẽ xác định được vùng
ROI như ở phần II-B. Thông tin về ROI sẽ được lưu
ở dạng tọa độ điểm ảnh. Sau đó, khung hình khi mã
hóa với chuẩn VVC sẽ được chia thành các CTU kích
thước 128 × 128 theo thứ tự. Do đó, chúng ta sẽ xác
định những CTU chứa ROI dựa vào tọa độ điểm ảnh
tương ứng của nó.
(b) Khung hình chứa ROI Để đảm bảo được tốc độ bit khi chỉnh giá trị QP cho
Hình 3: Khung hình gốc (a) và khung hình sai khác (b). từng CTU thì chúng ta cần xác định tỉ lệ (α) giữa CTU
chứa ROI và CTU không chứa ROI theo công thức (1).
Số CTU chứa đối tượng

việc nhúng chúng vào không gian đặc trưng, cho phép α= (1)
Số CTU không chứa đối tượng
theo dõi và duy trì danh tính của các đối tượng trong
các tình huống yêu cầu thời gian thực. Sự kết hợp này Sau đó, giá trị QP của từng CTU sẽ được điều chỉnh
giúp JDE đạt được độ chính xác và ổn định cao, làm theo công thức (2) để phục vụ cho quá trình mã hóa.
cho nó trở thành một công cụ quan trọng cho nhiều ứng
dụng thực tế như quản lý giao thông đô thị, theo dõi an QP = QP ± α × ∆QP (2)
ninh và nhiều tác vụ quan trọng khác. Do đó, chúng tôi Trong đó, QP là chất lượng của từng CTU, ∆QP lượng
sẽ tập trung vào việc đánh giá nghiên cứu về ảnh hưởng QP chênh lệch giữa vùng có đối tượng và vùng không
của VCM đến nhiệm vụ theo dõi người đi bộ bằng mô có đối tượng.
hình JDE như Hình 2.
D. Mô hình VCM trên nền tảng VVC và ROI Coding
B. Phương pháp xác định ROI Quá trình mã hóa video thông thường thường được
Hiện nay, thách thức trong việc tìm ROI đó là thời dùng cho VCM (Standard-VCM) như Hình 1b không
gian và độ chính xác. Đối với những bài toán giám sát hiệu quả cho các nhiệm vụ trí tuệ nhân tạo vì nó không
hay theo dõi đối tượng thì chúng ta luôn có sự di chuyển tận dụng được các đặc trưng quan trọng trong hình ảnh.
của đối tượng. Do đó, một trong những phương pháp Trong quá trình này, thông tin trên từng khung hình
hiệu quả được sử dụng là Sai khác Hậu cảnh dựa trên mô thường bị nén một cách đồng đều, không phân biệt giữa
hình Gaussian hỗn hợp và thuật toán Hole Filling[15]. các phần của hình ảnh. Điều này dẫn đến việc mất đi
Đây là một phương pháp đặc biệt phù hợp cho bài toán nhiều thông tin quan trọng, đặc biệt là các đối tượng
theo dõi đối tượng ở thiết bị cuối bởi vì nó sử dụng có ảnh hưởng trực tiếp đến việc phân tích và xử lý của
mô hình phân bố Gaussian hỗn hợp (GMM - Gaussian máy tính. Ngoài ra, quá trình mã hóa video thông thường
Mixture Model) để mô tả các giá trị điểm ảnh trong phần thường không tập trung vào việc bảo toàn các đặc trưng
nền của video. Mô hình này dựa trên giả định rằng phần quan trọng cho việc phát hiện, nhận dạng và xử lý thông
lớn điểm ảnh trong video tạo thành phần nền và được tin trí tuệ nhân tạo. Thay vào đó, nó tập trung vào việc
mô tả bằng một tổ hợp của các phân phối Gaussian. Khi giảm thiểu kích thước của video và tối ưu hóa RD (Rate-
một đối tượng xuất hiện trong video và di chuyển, giá Distortion), điều này có thể dẫn đến việc mất đi thông
trị điểm ảnh tại vị trí của đối tượng thường khác biệt tin quan trọng cho các ứng dụng trí tuệ nhân tạo. Do
đáng kể so với phân bố của phần nền. Do đó, GMM cho đó, quá trình mã hóa video cần được cải tiến và phát
phép phát hiện các đối tượng một cách hiệu quả trong triển để đáp ứng yêu cầu của các ứng dụng này.
Bảng II: Điều kiện kiểm thử
Theo dõi đối tượng
Dữ liệu
Tập dữ liệu MOT [18]
đánh giá
Cấu hình
All-Intra
mã hóa
Định dạng
YUV 420 (8 bits)
dữ liệu
Hình 4: Sơ đồ tổng quát hệ thống EROI-VCM. QP {22, 27, 32, 37, 39, 42}
Mô hình
JDE-1088x608 [14]
AI
Với mục đích nén những đặc trưng được trích xuất từ
video, nghiên cứu đề xuất hướng tiếp cận phục vụ cho Bảng III: Kết quả so sánh BD-Rate và BD-MOTA của
các bài toán VCM. Theo đó, nghiên cứu xây dựng hệ EROI-VCM và Standard-VCM
thống mà việc mã hóa và giải mã chỉ sử dụng thông tin EROI-VCM vs.
vùng ROI được trích xuất tại bộ mã hóa gọi là EROI- Chuỗi Video Standard-VCM
VCM như được minh họa trong Hình 4. Đầu tiên, các BD-Rate BD-MOTA
MOT16-02 −67.34 6.30
khung hình đầu vào được trích xuất để xác định vùng MOT16-04 −49.96 4.60
ROI. Từ đó, bản đồ QP được điều chỉnh để tập trung MOT16-05 −94.22 28.41
vào việc bảo toàn vùng ROI cho các nhiệm vụ trí tuệ MOT16-10 −11.85 0.86
MOT16-11 −63.21 7.13
nhân tạo. Tuy nhiên, việc điều chỉnh QP này cần được MOT16-13 −42.29 10.87
đồng bộ ở cả hai bộ mã hóa và giải mã. Do đó, trong Trung bình −54.81 9.69
cấu trúc của EROI-VCM, dữ liệu được truyền đi bao
gồm chuỗi video và thông tin về bản đồ QP được điều
chỉnh. Thông tin bản đồ QP này sẽ được mã hóa bằng dụng để đánh giá hiệu suất của hệ thống theo dõi nhiều
mã Huffman [16] để truyền đi. đối tượng trong lĩnh vực xử lý ảnh và thị giác máy tính.
MOTA thường được sử dụng để đánh giá mức độ chính
III. ĐÁNH GIÁ HIỆU NĂNG HỆ THỐNG
xác của việc theo dõi vị trí của các đối tượng trong một
A. Điều kiện kiểm thử video hoặc hình ảnh động. Chỉ số này cung cấp thông
Việc đánh giá hiệu quả của mô hình VCM được thực tin về mức độ sai lệch giữa kết quả theo dõi của hệ
hiện trên tập MOT16 Benchmark [13]. Tập dữ liệu này thống và thực tế.
đánh giá hiệu suất theo dõi trên sáu chuỗi, bao gồm Cuối cùng, để đánh giá hiệu năng mã hóa video của
cả các cảnh mặt trước với camera di động cũng như hướng tiếp cận cho bài toán trí tuệ nhân tạo, nghiên cứu
các video giám sát từ trên xuống như được mô tả trong được đánh giá bằng hai chỉ số là: tỉ lệ tiết kiệm bitrate
Bảng I. Sau đó, các video được mã hóa trên phần mềm (BD-Rate) và tỉ lệ tăng của MOTA (BD-MOTA). Từ hai
VVenc [17] với cấu hình All-Intra và 6 hệ số lượng tử chỉ số đánh giá trên, phương pháp đề xuất được so sánh
22, 27, 32, 37, 42, 46 như được mô tả trong Bảng II. với mô hình mã hóa video thông thường dựa trên chuẩn
H.266/VVC [2] với phần mềm tham chiếu VVenc, gọi
Bảng I: Đặc tính các chuỗi video kiểm thử là Standard-VCM.
Chuỗi Độ phân Tốc độ Số khung hình B. Đánh giá hiệu năng VCM
Video giải khung hình mã hóa
MOT16-02 1920x1080 30 600 Sau khi thực nghiệm trên bộ dữ liệu với hai kiến trúc
MOT16-04 1920x1080 30 1050 (Standard-VCM, EROI-VCM), chúng tôi thu được kết
MOT16-05 640x480 14 837
MOT16-10 1920x1080 30 654 quả như trong Bảng III. Bảng này thể hiện kết quả tỉ lệ
MOT16-11 1920x1080 30 900 tiết kiệm bitrate (BD-Rate) video trong bộ dữ liệu. Từ
MOT16-13 1920x1080 25 750 đó, ta thu được kết quả BD-Rate trung bình của mô hình
EROI-VCM đạt −54.81. Điều đó chứng minh rằng, với
Các chuỗi video sau khi giải mã sẽ được sử dụng cho cùng giá trị MOTA thì EROI-VCM tiết kiệm 54.81%.
nhiệm vụ theo dõi đối tượng bằng sử dụng mô hình JDE- Trong khi đó, MOTA của EROI-VCM tăng 9.69%.
1088x608 [14]. Sau đó, độ chính xác của việc theo dõi Ngoài ra, chúng tôi đã vẽ đồ thị minh họa sự tương
đối tượng được đánh giá bằng chỉ số MOTA (Multiple quan giữa Bitrate và giá trị MOTA như Hình 5. Từ đồ
Object Tracking Accuracy)[13]. Đây là một thước đo sử thị cho thấy, đường minh họa mô hình EROI-VCM đều
cao hơn Standard-VCM do chúng tập trung vào mã hóa [6] T. Wiegand, G. Sullivan, G. Bjontegaard, and A. Luthra,
vùng ROI phục vụ cho các bài toàn trí tuệ nhân tạo. “Overview of the h.264/avc video coding standard,” IEEE Trans-
actions on Circuits and Systems for Video Technology, vol. 13,
IV. KẾT LUẬN no. 7, pp. 560–576, 2003.
[7] H. Choi and I. V. Bajic, “High efficiency compression for object
Trong bài báo này, chúng tôi đề xuất một phương pháp detection,” in 2018 IEEE International Conference on Acoustics,
mã hóa video mới, kết hợp hiệu quả giữa thuật toán ROI Speech and Signal Processing (ICASSP), 2018, pp. 1792–1796.
[8] J. Redmon and A. Farhadi, “Yolo9000: Better, faster, stronger,”
Coding và mô hình mã hóa VVC. Sau đó, phương pháp 2017 IEEE Conference on Computer Vision and Pattern
được khảo sát với hướng tiếp cận là EROI-VCM. Kết Recognition (CVPR), pp. 6517–6525, 2016. [Online]. Available:
quả cho thấy, EROI-VCM có thể giúp tăng độ chính xác https://api.semanticscholar.org/CorpusID:786357
[9] D. Taubman and M. Marcellin, JPEG2000 Image Compression
MOTA lên tới 9.69% và cùng một giá trị MOTA thì Fundamentals, Standards and Practice: Image Compression Fun-
EROI-VCM tiết kiệm được 54.81% lượng bitrate. Do damentals, Standards and Practice. Springer Science Business
đó, phương pháp đề xuất đạt được độ chính xác cao Media, 2012, vol. 642.
[10] H. Meuel, J. Schmidt, M. Munderloh, and J. Ostermann, “Region
hơn cho một nhiệm vụ trí tuệ nhân tạo cụ thể mà hiệu of interest coding for aerial video sequences using landscape
suất nén cũng tốt hơn so với phương pháp mã hóa video models,” in Advanced Video Coding for Next-Generation
truyền thống. Tuy vậy, trong tương lai nghiên cứu cần Multimedia Services, Y.-S. Ho, Ed. Rijeka: IntechOpen, 2013,
ch. 3. [Online]. Available: https://doi.org/10.5772/52904
phát triển, cải tiến phương pháp tìm ROI để nâng cao [11] P. G. Tahoces, J. R. Varela, M. J. Lado, and M. Souto, “Im-
hiệu năng mã hóa VCM và đánh giá nó trên nhiều tác age compression: Maxshift roi encoding options in jpeg2000,”
Computer Vision and Image Understanding, vol. 109, no. 2, pp.
vụ trí tuệ nhân tạo khác nhau. 139–145, 2008.
[12] K. Fischer, F. Brand, C. Herglotz, and A. Kaup, “Video coding
TÀI LIỆU THAM KHẢO for machines with feature-based rate-distortion optimization,” in
[1] G. J. Sullivan, J.-R. Ohm, W.-J. Han, and T. Wiegand, “Overview 2020 IEEE 22nd International Workshop on Multimedia Signal
of the high efficiency video coding (hevc) standard,” IEEE Processing (MMSP). IEEE, 2020, pp. 1–6.
Transactions on Circuits and Systems for Video Technology, [13] W. Luo, J. Xing, A. Milan, X. Zhang, W. Liu, and T.-K.
vol. 22, no. 12, pp. 1649–1668, 2012. Kim, “Multiple object tracking: A literature review,” Artificial
[2] B. Bross, Y.-K. Wang, Y. Ye, S. Liu, J. Chen, G. J. Sullivan, Intelligence, vol. 293, p. 103448, 2021.
and J.-R. Ohm, “Overview of the versatile video coding (vvc) [14] Z. Wang, L. Zheng, Y. Liu, and S. Wang, “Towards real-time
standard and its applications,” IEEE Transactions on Circuits and multi-object tracking,” The European Conference on Computer
Systems for Video Technology, vol. 31, no. 10, pp. 3736–3764, Vision (ECCV), 2020.
2021. [15] A. Nurhadiyatna, W. Jatmiko, B. Hardjono, A. Wibisono, I. Sina,
[3] Y. Zhang and P. Dong, “Mpeg-m49944: Report of the ahg and P. Mursanto, “Background subtraction using gaussian mix-
on vcm,” Moving Picture Experts Group (MPEG) of ISO/IEC ture model enhanced by hole filling algorithm (gmmhf),” in
JTC1/SC29/WG11, Oct. 2019. 2013 IEEE International Conference on Systems, Man, and
[4] L. Duan, J. Liu, W. Yang, T. Huang, and W. Gao, Cybernetics, 2013, pp. 4006–4011.
“Video coding for machines: A paradigm of collaborative [16] B. Furht, Ed., Huffman Coding. Boston, MA: Springer US,
compression and intelligent analytics,” Trans. Img. Proc., 2006, pp. 278–280.
vol. 29, p. 8680–8695, jan 2020. [Online]. Available: [17] A. Wieckowski, J. Brandenburg, T. Hinz, C. Bartnik, V. George,
https://doi.org/10.1109/TIP.2020.3016485 G. Hege, C. Helmrich, A. Henkel, C. Lehmann, C. Stoffers,
[5] A. D. Bagdanov, M. Bertini, A. Del Bimbo, and L. Seidenari, I. Zupancic, B. Bross, and D. Marpe, “Vvenc: An open and
“Adaptive video compression for video surveillance applica- optimized vvc encoder implementation,” in Proc. IEEE Inter-
tions,” in 2011 IEEE International Symposium on Multimedia, national Conference on Multimedia Expo Workshops (ICMEW),
2011, pp. 190–197. pp. 1–2.
[18] A. Milan, L. Leal-Taixe, I. Reid, S. Roth, and K. Schindler,
“Mot16: A benchmark for multi-object tracking,” 2016.
(a) (b) (c)
(d) (e) (f)

Hình 5: Đồ thị minh họa sự phụ thuộc của Bitrate và MOTA.

VCM REV ECIT 2023-Final-Version

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

VCM REV ECIT 2023-Final-Version

Uploaded by

Copyright:

Available Formats

Cải tiến hiệu năng mã hóa video cho các ứng

dụng Học máy với chuẩn VVC kết hợp ROI

Tóm tắt—Các chuẩn mã hóa video HEVC (High Effi-

C. Điều chỉnh bản đồ QP

Số CTU chứa đối tượng

(d) (e) (f)

You might also like