Coding Đỗ Ngọc Minh, Nguyễn Phương Anh, Hoàng Văn Xiêm∗ Khoa Điện tử Viễn thông Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội ∗ Tác giả liên hệ: (dongocminh, xiemhoang)@vnu.edu.vn
Tóm tắt—Các chuẩn mã hóa video HEVC (High Effi-
ciency Video Coding) và gần đây nhất là VVC (Versatile Video Coding) ra đời, mang lại nhiều đột phá cho các ứng dụng truyền thông đa phương tiện như truyền hình hội nghị, truyền hình quảng bá và đặc biệt là E-learning. Tuy nhiên, sự phát triển của trí tuệ nhân tạo (AI) và dữ liệu lớn gần đây đặt ra một nhu cầu bức thiết về một mô hình mã hóa video chuyên biệt, được thiết kế riêng cho các ứng dụng phân tích hình ảnh, video sử dụng học máy (VCM - Video Coding for Machines). Do vậy, trong bài báo này, chúng tôi đề xuất một phương pháp mã hóa video mới, Hình 1: Sơ đồ tổng quát hệ thống mã hóa video thông kết hợp hiệu quả giữa thuật toán ROI Coding (Region Of thường (a) và VCM (b). Interest Coding) và mô hình mã hóa VVC. Phương pháp đề xuất xác định các vùng quan tâm trong các khung hình của video thông qua các đặc trưng cơ bản. Trên cơ sở đó, chúng tôi đề xuất điều chỉnh thích nghi phương đề quan trọng trong giới học thuật nói chung và công thức nén cho từng khối hình sao cho vẫn đảm bảo được nghiệp nói riêng. hiệu năng thực thi các ứng dụng học máy nhưng yêu cầu lượng dữ liệu mã hóa là ít nhất. Do đó, nghiên cứu khảo A. Mã hóa VCM và mô hình Standard-VCM sát hướng tiếp cận để trích xuất đặc trưng từ thông tin gốc tại phía mã hóa (EROI - Encoding based on Region Các chuẩn mã hóa video truyền thống như High- Of Interest). Kết quả cho thấy thuật toán EROI-VCM có efficiency Video Coding (HEVC) [1] và mới nhất là thể giúp tăng độ chính xác MOTA lên tới 9.69% và cùng Versatile Video Coding (VVC) [2] đã được tối ưu hóa một giá trị MOTA thì EROI-VCM tiết kiệm được 54.81% rất nhiều để cung cấp chất lượng tốt nhất có thể ở tỷ lệ về BD-Rate. bit cụ thể, trong đó người dùng cuối được xem xét làm Từ khóa—Mã hóa VCM, Chuẩn VVC, Mã hóa vùng tham chiếu để đánh giá chất lượng. Do đó, nó đặt ra một quan tâm (ROI Coding) vấn đề rằng liệu những tối ưu hóa được thực hiện cho người dùng được mô tả trong hình 1a, có phù hợp khi I. GIỚI THIỆU những dữ liệu này được phân tích và xử lý bởi một thuật Ngày nay, video chiếm hơn 80 phần trăm lưu lượng toán thay vì một con người, như hình 1b. Câu hỏi đó đã dữ liệu trên internet và trở thành một trong những định mở ra một lĩnh vực nghiên cứu về mã hóa video cho các dạng dữ liệu chính. Dung lượng video được khai thác tác vụ được xử lý bởi máy tính (VCM - Video Coding bởi máy tính đã vượt qua dung lượng video được khai for Machines). Từ đó, MPEG [3] đã thành lập một nhóm thác bởi con người. Các nhiệm vụ thị giác máy kết hơp các chuyên gia về lĩnh vực này vào năm 2019 với mục học máy bao gồm phát hiện đối tượng, phân đoạn, và tiêu nghiên cứu và phát triển chuẩn mã hóa video VCM theo dõi khá khác biệt so với những nhiệm vụ dành cho [4]. con người. Ngược lại, do dung lượng dữ liệu video lớn, Sau đó, các nghiên cứu về VCM trên video ngày càng việc nén video một cách hiệu quả cho máy tính (VCM được quan tâm. Trong nghiên cứu của A. D. Bagdanov - Video Coding for Machines) đã trở thành một chủ và công sự [5], họ đã đề xuất mô hình VCM dựa trên chuẩn mã hóa video H.264/AVC [6] mà giúp bảo tồn chất lượng các khu vực quan trọng, trong khi vùng nền được nén mạnh hơn. Kết quả cho thấy rằng kỹ thuật này có hiệu quả vượt trội so với việc mã hóa chuẩn H.264 với tỷ lệ bit tương tự và bảo tồn các đặc trưng quan trọng cho việc phát hiện và nhận dạng ở các bước tiếp theo. Ngoài ra, Choi và Bajic [7] đã đề xuất một chiến lược phân bổ bit và kiểm soát tốc độ được điều chỉnh để phục vụ bài toán phát hiện đối tượng. Bằng cách Hình 2: Ứng dụng theo dõi đối tượng. sử dụng các lớp tích chập ban đầu của bộ phát hiện đối tượng YOLO9000 [8], họ đã tạo ra một bản đồ biểu diễn tầm quan trọng của các vùng trong ảnh có thể hướng chuẩn VVC trên cơ sở giải quyết hai câu hỏi: (1) Cần dẫn việc phân bổ bit đến các khu vực quan trọng để phát mã hóa thông tin gì trong video để nâng cao hiệu quả hiện đối tượng. Phương pháp này cho phép tiết kiệm tốc quá trình phân tích và xử lý của máy tính; (2) Những độ bit từ 7% trở lên so với chuẩn HEVC mà hiệu quả thông tin quan trọng đối với máy tính được mã hóa như phát hiện đối tượng tương đương. thế nào. Đầu tiên, để xác định thông tin quan trọng cho VCM thì ROI Coding đang được cộng đồng nghiên cứu B. ROI Coding quan tâm. Ngoài ra, bài báo cũng trình bày phương pháp Thuật ngữ ROI Coding đã sớm xuất hiện trong mã hóa tiếp cận để xác định vùng ROI trong video, là EROI- ở tiêu chuẩn JPEG2000 [9] liên quan đến việc mã hóa VCM: sử dụng thông tin gốc ở phía mã hóa. Hướng tiếp ảnh sao cho vùng quan tâm (ROI - Region Of Interest) cận này mang lại hiệu quả cao trong việc tiết kiệm lượng được mã hóa với chất lượng tốt hơn so với phần còn bit mã hóa so với chuẩn VVC khi sử dụng trực tiếp cho lại của hình ảnh. Theo đó, vùng ROI có thể là người, VCM. xe, chuyển động hay bất kỳ đối tượng nào mà hệ thống Mô tả chi tiết về kiến trúc mã hóa video đề xuất được quan tâm. Ví dụ như trong các hệ thống nhận dạng biển trình bày ở mục II. Mục III trình bày kết quả và các phân số xe, vùng ROI cần được xác định ở đây là vùng chứa tích đánh giá. Mục IV đưa ra kết luận và các hướng phát biển số xe. triển. Sau đó, thuật ngữ này được sử dụng rộng rãi trong cả mã hóa ảnh và video. Trong mã hóa video, ROI Coding II. ĐỀ XUẤT MÔ HÌNH VCM TRÊN NỀN TẢNG là mã hóa vùng quan tâm với chất lượng tốt hơn so VVC VÀ ROI CODING với những vùng khác trong khung hình [10], điều này A. Tác vụ trí tuệ nhân tạo có nhiều ứng dụng như hệ thống họp trực tuyến, giám sát video hay phục vụ cho những tác vụ trí tuệ nhân Trong lĩnh vực trí tuệ nhân tạo, có một loạt các tác tạo. Việc cung cấp nhiều bit hơn cho vùng quan tâm vụ quan trọng liên quan đến việc theo dõi và xác định vị giúp phân biệt rõ hơn các khuôn mặt và hành vi của trí của nhiều đối tượng trong môi trường thời gian thực. con người so với môi trường xung quanh, do đó cải Một trong những tác vụ quan trọng nhất trong lĩnh vực thiện trải nghiệm họp và hiệu suất theo dõi. Ngoài ra, này là theo dõi đa đối tượng (MOT - Multiple Object nó cũng được sử dụng trong hình ảnh y học, nơi các Tracking) [13]. MOT đóng một vai trò then chốt trong vùng có cơ quan quan trọng đối với chẩn đoán của bác phân lập nhiều đối tượng, duy trì danh tính của họ và tạo sĩ được mã hóa với chất lượng tốt hơn và phần nền ít ra quỹ đạo cá nhân của từng đối tượng dựa trên video quan trọng bị làm mờ đi [11]. đầu vào. Các đối tượng cần được theo dõi có thể là người đi bộ trên đường, phương tiện trên đường, người C. Đóng góp chính của bài báo chơi thể thao trên sân, hoặc thậm chí là các nhóm động Hiện nay đã có các nghiên cứu về VCM dựa trên các vật như chim, dơi, kiến, cá, tế bào, hoặc ong. Việc theo chuẩn mã hóa thông dụng như H264/AVC, H265/HEVC, dõi nhiều đối tượng có thể được xem như việc theo dõi H266/VVC. Tuy nhiên, các nghiên cứu này tập trung vào nhiều phần khác nhau của một đối tượng duy nhất. xây dựng bộ mã hóa cho VCM mà chưa đưa ra kiến trúc Khi bước vào cuộc hành trình để cải thiện khả năng tổng thể dựa trên các chuẩn truyền thống và ROI Coding theo dõi nhiều đối tượng, mạng JDE (Joint Detection [12]. Để giải quyết vấn đề trên, bài báo tập trung vào and Embedding) [14] đã nổi lên như một công cụ quan trình bày một mô hình kết hợp giữa ROI Coding và trọng. JDE kết hợp giữa việc phát hiện các đối tượng và điều kiện biến đổi và thay đổi, trong khi thuật toán Hole Filling giúp giữ lại các chi tiết quan trọng và loại bỏ sự nhiễu từ phần nền. Kết hợp giữa hai phần này tạo ra một phương pháp mạnh mẽ cho việc theo dõi và mã hóa các đối tượng quan trọng trong lĩnh vực VCM như trong Hình 3.
C. Điều chỉnh bản đồ QP
(a) Khung hình gốc Để mã hóa tập trung vào thông tin hữu ích cho nhiệm vụ theo dõi đối tượng thì cần đưa vào bộ mã hóa những thông tin đó, cụ thể là chúng tôi sẽ xác định được vùng ROI như ở phần II-B. Thông tin về ROI sẽ được lưu ở dạng tọa độ điểm ảnh. Sau đó, khung hình khi mã hóa với chuẩn VVC sẽ được chia thành các CTU kích thước 128 × 128 theo thứ tự. Do đó, chúng ta sẽ xác định những CTU chứa ROI dựa vào tọa độ điểm ảnh tương ứng của nó. (b) Khung hình chứa ROI Để đảm bảo được tốc độ bit khi chỉnh giá trị QP cho Hình 3: Khung hình gốc (a) và khung hình sai khác (b). từng CTU thì chúng ta cần xác định tỉ lệ (α) giữa CTU chứa ROI và CTU không chứa ROI theo công thức (1).
Số CTU chứa đối tượng
việc nhúng chúng vào không gian đặc trưng, cho phép α= (1) Số CTU không chứa đối tượng theo dõi và duy trì danh tính của các đối tượng trong các tình huống yêu cầu thời gian thực. Sự kết hợp này Sau đó, giá trị QP của từng CTU sẽ được điều chỉnh giúp JDE đạt được độ chính xác và ổn định cao, làm theo công thức (2) để phục vụ cho quá trình mã hóa. cho nó trở thành một công cụ quan trọng cho nhiều ứng dụng thực tế như quản lý giao thông đô thị, theo dõi an QP = QP ± α × ∆QP (2) ninh và nhiều tác vụ quan trọng khác. Do đó, chúng tôi Trong đó, QP là chất lượng của từng CTU, ∆QP lượng sẽ tập trung vào việc đánh giá nghiên cứu về ảnh hưởng QP chênh lệch giữa vùng có đối tượng và vùng không của VCM đến nhiệm vụ theo dõi người đi bộ bằng mô có đối tượng. hình JDE như Hình 2. D. Mô hình VCM trên nền tảng VVC và ROI Coding B. Phương pháp xác định ROI Quá trình mã hóa video thông thường thường được Hiện nay, thách thức trong việc tìm ROI đó là thời dùng cho VCM (Standard-VCM) như Hình 1b không gian và độ chính xác. Đối với những bài toán giám sát hiệu quả cho các nhiệm vụ trí tuệ nhân tạo vì nó không hay theo dõi đối tượng thì chúng ta luôn có sự di chuyển tận dụng được các đặc trưng quan trọng trong hình ảnh. của đối tượng. Do đó, một trong những phương pháp Trong quá trình này, thông tin trên từng khung hình hiệu quả được sử dụng là Sai khác Hậu cảnh dựa trên mô thường bị nén một cách đồng đều, không phân biệt giữa hình Gaussian hỗn hợp và thuật toán Hole Filling[15]. các phần của hình ảnh. Điều này dẫn đến việc mất đi Đây là một phương pháp đặc biệt phù hợp cho bài toán nhiều thông tin quan trọng, đặc biệt là các đối tượng theo dõi đối tượng ở thiết bị cuối bởi vì nó sử dụng có ảnh hưởng trực tiếp đến việc phân tích và xử lý của mô hình phân bố Gaussian hỗn hợp (GMM - Gaussian máy tính. Ngoài ra, quá trình mã hóa video thông thường Mixture Model) để mô tả các giá trị điểm ảnh trong phần thường không tập trung vào việc bảo toàn các đặc trưng nền của video. Mô hình này dựa trên giả định rằng phần quan trọng cho việc phát hiện, nhận dạng và xử lý thông lớn điểm ảnh trong video tạo thành phần nền và được tin trí tuệ nhân tạo. Thay vào đó, nó tập trung vào việc mô tả bằng một tổ hợp của các phân phối Gaussian. Khi giảm thiểu kích thước của video và tối ưu hóa RD (Rate- một đối tượng xuất hiện trong video và di chuyển, giá Distortion), điều này có thể dẫn đến việc mất đi thông trị điểm ảnh tại vị trí của đối tượng thường khác biệt tin quan trọng cho các ứng dụng trí tuệ nhân tạo. Do đáng kể so với phân bố của phần nền. Do đó, GMM cho đó, quá trình mã hóa video cần được cải tiến và phát phép phát hiện các đối tượng một cách hiệu quả trong triển để đáp ứng yêu cầu của các ứng dụng này. Bảng II: Điều kiện kiểm thử Theo dõi đối tượng Dữ liệu Tập dữ liệu MOT [18] đánh giá Cấu hình All-Intra mã hóa Định dạng YUV 420 (8 bits) dữ liệu Hình 4: Sơ đồ tổng quát hệ thống EROI-VCM. QP {22, 27, 32, 37, 39, 42} Mô hình JDE-1088x608 [14] AI Với mục đích nén những đặc trưng được trích xuất từ video, nghiên cứu đề xuất hướng tiếp cận phục vụ cho Bảng III: Kết quả so sánh BD-Rate và BD-MOTA của các bài toán VCM. Theo đó, nghiên cứu xây dựng hệ EROI-VCM và Standard-VCM thống mà việc mã hóa và giải mã chỉ sử dụng thông tin EROI-VCM vs. vùng ROI được trích xuất tại bộ mã hóa gọi là EROI- Chuỗi Video Standard-VCM VCM như được minh họa trong Hình 4. Đầu tiên, các BD-Rate BD-MOTA MOT16-02 −67.34 6.30 khung hình đầu vào được trích xuất để xác định vùng MOT16-04 −49.96 4.60 ROI. Từ đó, bản đồ QP được điều chỉnh để tập trung MOT16-05 −94.22 28.41 vào việc bảo toàn vùng ROI cho các nhiệm vụ trí tuệ MOT16-10 −11.85 0.86 MOT16-11 −63.21 7.13 nhân tạo. Tuy nhiên, việc điều chỉnh QP này cần được MOT16-13 −42.29 10.87 đồng bộ ở cả hai bộ mã hóa và giải mã. Do đó, trong Trung bình −54.81 9.69 cấu trúc của EROI-VCM, dữ liệu được truyền đi bao gồm chuỗi video và thông tin về bản đồ QP được điều chỉnh. Thông tin bản đồ QP này sẽ được mã hóa bằng dụng để đánh giá hiệu suất của hệ thống theo dõi nhiều mã Huffman [16] để truyền đi. đối tượng trong lĩnh vực xử lý ảnh và thị giác máy tính. MOTA thường được sử dụng để đánh giá mức độ chính III. ĐÁNH GIÁ HIỆU NĂNG HỆ THỐNG xác của việc theo dõi vị trí của các đối tượng trong một A. Điều kiện kiểm thử video hoặc hình ảnh động. Chỉ số này cung cấp thông Việc đánh giá hiệu quả của mô hình VCM được thực tin về mức độ sai lệch giữa kết quả theo dõi của hệ hiện trên tập MOT16 Benchmark [13]. Tập dữ liệu này thống và thực tế. đánh giá hiệu suất theo dõi trên sáu chuỗi, bao gồm Cuối cùng, để đánh giá hiệu năng mã hóa video của cả các cảnh mặt trước với camera di động cũng như hướng tiếp cận cho bài toán trí tuệ nhân tạo, nghiên cứu các video giám sát từ trên xuống như được mô tả trong được đánh giá bằng hai chỉ số là: tỉ lệ tiết kiệm bitrate Bảng I. Sau đó, các video được mã hóa trên phần mềm (BD-Rate) và tỉ lệ tăng của MOTA (BD-MOTA). Từ hai VVenc [17] với cấu hình All-Intra và 6 hệ số lượng tử chỉ số đánh giá trên, phương pháp đề xuất được so sánh 22, 27, 32, 37, 42, 46 như được mô tả trong Bảng II. với mô hình mã hóa video thông thường dựa trên chuẩn H.266/VVC [2] với phần mềm tham chiếu VVenc, gọi Bảng I: Đặc tính các chuỗi video kiểm thử là Standard-VCM. Chuỗi Độ phân Tốc độ Số khung hình B. Đánh giá hiệu năng VCM Video giải khung hình mã hóa MOT16-02 1920x1080 30 600 Sau khi thực nghiệm trên bộ dữ liệu với hai kiến trúc MOT16-04 1920x1080 30 1050 (Standard-VCM, EROI-VCM), chúng tôi thu được kết MOT16-05 640x480 14 837 MOT16-10 1920x1080 30 654 quả như trong Bảng III. Bảng này thể hiện kết quả tỉ lệ MOT16-11 1920x1080 30 900 tiết kiệm bitrate (BD-Rate) video trong bộ dữ liệu. Từ MOT16-13 1920x1080 25 750 đó, ta thu được kết quả BD-Rate trung bình của mô hình EROI-VCM đạt −54.81. Điều đó chứng minh rằng, với Các chuỗi video sau khi giải mã sẽ được sử dụng cho cùng giá trị MOTA thì EROI-VCM tiết kiệm 54.81%. nhiệm vụ theo dõi đối tượng bằng sử dụng mô hình JDE- Trong khi đó, MOTA của EROI-VCM tăng 9.69%. 1088x608 [14]. Sau đó, độ chính xác của việc theo dõi Ngoài ra, chúng tôi đã vẽ đồ thị minh họa sự tương đối tượng được đánh giá bằng chỉ số MOTA (Multiple quan giữa Bitrate và giá trị MOTA như Hình 5. Từ đồ Object Tracking Accuracy)[13]. Đây là một thước đo sử thị cho thấy, đường minh họa mô hình EROI-VCM đều cao hơn Standard-VCM do chúng tập trung vào mã hóa [6] T. Wiegand, G. Sullivan, G. Bjontegaard, and A. Luthra, vùng ROI phục vụ cho các bài toàn trí tuệ nhân tạo. “Overview of the h.264/avc video coding standard,” IEEE Trans- actions on Circuits and Systems for Video Technology, vol. 13, IV. KẾT LUẬN no. 7, pp. 560–576, 2003. [7] H. Choi and I. V. Bajic, “High efficiency compression for object Trong bài báo này, chúng tôi đề xuất một phương pháp detection,” in 2018 IEEE International Conference on Acoustics, mã hóa video mới, kết hợp hiệu quả giữa thuật toán ROI Speech and Signal Processing (ICASSP), 2018, pp. 1792–1796. [8] J. Redmon and A. Farhadi, “Yolo9000: Better, faster, stronger,” Coding và mô hình mã hóa VVC. Sau đó, phương pháp 2017 IEEE Conference on Computer Vision and Pattern được khảo sát với hướng tiếp cận là EROI-VCM. Kết Recognition (CVPR), pp. 6517–6525, 2016. [Online]. Available: quả cho thấy, EROI-VCM có thể giúp tăng độ chính xác https://api.semanticscholar.org/CorpusID:786357 [9] D. Taubman and M. Marcellin, JPEG2000 Image Compression MOTA lên tới 9.69% và cùng một giá trị MOTA thì Fundamentals, Standards and Practice: Image Compression Fun- EROI-VCM tiết kiệm được 54.81% lượng bitrate. Do damentals, Standards and Practice. Springer Science Business đó, phương pháp đề xuất đạt được độ chính xác cao Media, 2012, vol. 642. [10] H. Meuel, J. Schmidt, M. Munderloh, and J. Ostermann, “Region hơn cho một nhiệm vụ trí tuệ nhân tạo cụ thể mà hiệu of interest coding for aerial video sequences using landscape suất nén cũng tốt hơn so với phương pháp mã hóa video models,” in Advanced Video Coding for Next-Generation truyền thống. Tuy vậy, trong tương lai nghiên cứu cần Multimedia Services, Y.-S. Ho, Ed. Rijeka: IntechOpen, 2013, ch. 3. [Online]. Available: https://doi.org/10.5772/52904 phát triển, cải tiến phương pháp tìm ROI để nâng cao [11] P. G. Tahoces, J. R. Varela, M. J. Lado, and M. Souto, “Im- hiệu năng mã hóa VCM và đánh giá nó trên nhiều tác age compression: Maxshift roi encoding options in jpeg2000,” Computer Vision and Image Understanding, vol. 109, no. 2, pp. vụ trí tuệ nhân tạo khác nhau. 139–145, 2008. [12] K. Fischer, F. Brand, C. Herglotz, and A. Kaup, “Video coding TÀI LIỆU THAM KHẢO for machines with feature-based rate-distortion optimization,” in [1] G. J. Sullivan, J.-R. Ohm, W.-J. Han, and T. Wiegand, “Overview 2020 IEEE 22nd International Workshop on Multimedia Signal of the high efficiency video coding (hevc) standard,” IEEE Processing (MMSP). IEEE, 2020, pp. 1–6. Transactions on Circuits and Systems for Video Technology, [13] W. Luo, J. Xing, A. Milan, X. Zhang, W. Liu, and T.-K. vol. 22, no. 12, pp. 1649–1668, 2012. Kim, “Multiple object tracking: A literature review,” Artificial [2] B. Bross, Y.-K. Wang, Y. Ye, S. Liu, J. Chen, G. J. Sullivan, Intelligence, vol. 293, p. 103448, 2021. and J.-R. Ohm, “Overview of the versatile video coding (vvc) [14] Z. Wang, L. Zheng, Y. Liu, and S. Wang, “Towards real-time standard and its applications,” IEEE Transactions on Circuits and multi-object tracking,” The European Conference on Computer Systems for Video Technology, vol. 31, no. 10, pp. 3736–3764, Vision (ECCV), 2020. 2021. [15] A. Nurhadiyatna, W. Jatmiko, B. Hardjono, A. Wibisono, I. Sina, [3] Y. Zhang and P. Dong, “Mpeg-m49944: Report of the ahg and P. Mursanto, “Background subtraction using gaussian mix- on vcm,” Moving Picture Experts Group (MPEG) of ISO/IEC ture model enhanced by hole filling algorithm (gmmhf),” in JTC1/SC29/WG11, Oct. 2019. 2013 IEEE International Conference on Systems, Man, and [4] L. Duan, J. Liu, W. Yang, T. Huang, and W. Gao, Cybernetics, 2013, pp. 4006–4011. “Video coding for machines: A paradigm of collaborative [16] B. Furht, Ed., Huffman Coding. Boston, MA: Springer US, compression and intelligent analytics,” Trans. Img. Proc., 2006, pp. 278–280. vol. 29, p. 8680–8695, jan 2020. [Online]. Available: [17] A. Wieckowski, J. Brandenburg, T. Hinz, C. Bartnik, V. George, https://doi.org/10.1109/TIP.2020.3016485 G. Hege, C. Helmrich, A. Henkel, C. Lehmann, C. Stoffers, [5] A. D. Bagdanov, M. Bertini, A. Del Bimbo, and L. Seidenari, I. Zupancic, B. Bross, and D. Marpe, “Vvenc: An open and “Adaptive video compression for video surveillance applica- optimized vvc encoder implementation,” in Proc. IEEE Inter- tions,” in 2011 IEEE International Symposium on Multimedia, national Conference on Multimedia Expo Workshops (ICMEW), 2011, pp. 190–197. pp. 1–2. [18] A. Milan, L. Leal-Taixe, I. Reid, S. Roth, and K. Schindler, “Mot16: A benchmark for multi-object tracking,” 2016. (a) (b) (c)
(d) (e) (f)
Hình 5: Đồ thị minh họa sự phụ thuộc của Bitrate và MOTA.