Professional Documents
Culture Documents
Multimedia Chuong5
Multimedia Chuong5
đa phương tiện
1
Chương 5: Các kỹ thuật khai thác
thông tin đa phương thức
2
1. Giới thiệu
• Bài toán phân tích dữ liệu đa phương thức
– Tích hợp dữ liệu đa dạng
– Xử lý đặc trưng của từng loại dữ liệu
– Phân tích/khai thác thông tin mới
– v.v.
3
1. Giới thiệu
• Độ khó của bài toán kết hợp đa phương thức:
– Loại phương thức khác nhau: định dạng khác nhau,
tần số/rate khác nhau.
– Thời gian xử lý các luồng khác nhau
– Các phương thức có thể tương quan/độc lập tùy mức
độ: tầng đặc trưng, tầng ngữ nghĩa
– Mức độ đóng góp của mỗi phương thức trong bài
toán
4
1. Giới thiệu
• Phân loại: tùy vào tính chất của đa
phương thức, và mục tiêu của bài toán:
– Mức kết hợp (levels of fusion): chiến lược nào?
– Cách kết hợp (how): phương pháp nào ?
– Thời điểm kết hợp (when), cách đồng bộ toàn bộ quá
trình kết hợp
– Đối tượng kết hợp (what)
5
2. Mức kết hợp thông tin
• Các mức kết hợp:
– Kết hợp thông tin mức đặc trưng: kết hợp sớm
– Kết hợp thông tin mức quyết định: kết hợp muộn
– Lai giữa hai cách kết hợp
6
2.1 Kết hợp thông tin mức đặc trưng
• Đặc trưng: tính chất mang tính phân biệt của
luồng dữ liệu/phương thức
7
2.1 Kết hợp thông tin mức đặc trưng
• Các đặc trưng:
– Đặc trưng hình ảnh: màu sắc (biểu đồ màu), kết cấu
(độ thô, hướng, độ tương phản), hình dáng, v.v.
– Đặc trưng văn bản: từ điển, tần suất xuất hiện, độ
phủ từ vựng, v.v.
– Đặc trưng âm thanh: tần số, MFCC, ZCR, LPC, tỉ số
SNR, cao độ, trường độ, v.v.
– Đặc trưng chuyển động: biến động điểm ảnh, hướng
chuyển động, luồng quang học, mẫu chuyển động,
v.v.
– Metadata: thông tin bổ sung.
8
2.1 Kết hợp thông tin mức đặc trưng
• Ưu điểm:
– tận dụng mối quan hệ tương quan giữa các
đặc trưng ngay ở giai đoạn đầu
– chỉ sử dụng một pha huấn luyện để tạo
vector đặc trưng kết hợp
• Nhược điểm:
– bổ sung thêm đặc trưng, cần xây dựng lại
gần như toàn bộ
– khó biểu diễn tính đồng bộ theo thời gian của
các đặc trưng
9
2.2 Kết hợp thông tin mức quyết định
10
2.2 Kết hợp thông tin mức quyết định
• Ưu điểm:
– các đầu vào quyết định chung cách biểu diễn
– khả năng mở rộng đầu vào
– có thể áp dụng các bộ phân tích khác nhau
tùy vào đặc trưng
• Nhược điểm:
– chi phí để thu được các quyết định cục bộ
11
2.3 Kết hợp lai
• Kết hợp 2 mức đặc trưng + quyết định
12
3. Phương pháp kết hợp ĐPT
• Phân loại:
– Phương pháp dựa trên luật
– Phương pháp dựa trên phân lớp
– Phương pháp dựa trên ước lượng
13
3. Phương pháp kết hợp ĐPT
• Phân loại:
14
3.1 Phương pháp dựa trên luật
• Phương pháp dựa trên luật:
– gồm nhiều quy tắc cơ bản
– tốt nếu dữ liệu tương đối đồng bộ về thời gian
• (1) Kết hợp trọng số tuyến tính:
– thông tin thống kê thu được từ các phương thức khác nhau
được kết hợp theo kiểu tuyến tính, có thể gán trọng số tùy từng
phương thức
• (2) Bầu chọn đa số
– Kết hợp với các trọng số bằng nhau
– Quyết định nào được nhiều bộ phân loại đưa ra nhất sẽ được
chọn là quyết định cuối cùng
• (3) Luật do người dùng định nghĩa
– Tùy bài toán, tạo ra các luật kết hợp phù hợp
– Phức tạp, cần nhiều kiến thức 15
3.1 Phương pháp dựa trên luật
• Phương pháp dựa trên luật
16
3.2 Phương pháp dựa trên phân lớp
• Phương pháp dựa trên phân lớp
– Phân loại quan sát ĐPT vào một trong các lớp đã
định nghĩa trước
17
3.2 Phương pháp dựa trên phân lớp
• Phương pháp dựa trên phân lớp
– Phân loại quan sát ĐPT vào một trong các lớp đã
định nghĩa trước
18
3.3 Phương pháp dựa trên ước lượng
• Phương pháp dựa trên ước lượng
– Chủ yếu trong bài toán ước lượng chuyển động của
đối tượng: theo vết đối tượng, kết hợp thông tin
ảnh/âm thanh, v.v.
19
Nhận xét
• Nhận xét:
– Phương pháp thông dụng: kết hợp trọng số tuyến
tính, SVM, mạng Bayesian động
– Kết hợp trọng số tuyến tính thường sử dụng chiến
lược kết hợp muộn
– SVM, DBN thường dùng với chiến lược kết hợp sớm,
hoặc phân loại nhiều lớp.
20
3.4 Các vấn đề khác
• Tính tương quan giữa các phương thức
– Mức đặc trưng: các độ đo hệ số tương quan
(Correlation coefficient), thông tin tương hỗ (Mutual
information), phân tích ngữ nghĩa tiềm ẩn (Latent
semantic analysis), v.v.
» Một số bài toán: phát hiện mặt dựa theo giọng nói,
đồng bộ audio/video, phân tích quan hệ ngữ nghĩa
văn bản, v.v.
– Mức quyết định: phân tích liên kết nguyên nhân-kết
quả (Causal link analysis), hệ số tương đồng
(Agreement coefficient), v.v.
» Một số bài toán: phát hiện sự kiện trong môi
trường giám sát ĐPT
21
3.4 Các vấn đề khác
• Thông tin ngữ cảnh
– Thời gian, vị trí v.v. ảnh hưởng tới độ chính xác của
bài toán phân loại ảnh tự động
– Điều kiện sáng, độ ẩm v.v. ảnh hưởng tới các cảm
biến trong môi trường giám sát
– Trạng thái cảm xúc người nghe ảnh hưởng tới ứng
dụng lựa chọn âm nhạc
– v.v.
• Kết hợp thông tin ngữ cảnh vào bài toán
– Chiến lược “if-then-else”
22
4. Đồng bộ quá trình kết hợp
• Thực hiện trước khi kết hợp
– Do các phương thức thường được thu nhận ở các
định dạng, tần số khác nhau.
• Đồng bộ mức đặc trưng
– kết hợp các đặc trưng tại các khoảng thời gian trùng
nhau
• Đồng bộ mức quyết định
– cần xác định các điểm kết hợp trên trục thời gian
• Cần xác định số lượng điểm đồng bộ cần thiết
(số lượng dữ liệu cần thiết) để thực hiện bài
toán
23
4. Đồng bộ quá trình kết hợp
24
Bài toán 1
• Early Fusion in satellite image retrieval
better understanding of a scene from observations with multiple different sensors.
Two observation
modalities:
multispectral and SAR
imaging
YAO, Wei, et al. Early and late fusion of multiple modalities in Sentinel
25
imagery and social media retrieval. 2021.
Bài toán 2
• Late-Fusion Approach to retrieve relevant social media
content: retrieves social media posts that are similar to a given tweet
YAO, Wei, et al. Early and late fusion of multiple modalities in Sentinel
26
imagery and social media retrieval. 2021.
Bài toán 3
• Double fusion for multimedia event detection : finding
videos of a particular event, given example videos and descriptions
Lan, Zhen-zhong, et al. "Double fusion for multimedia event detection." International Conference 27
on Multimedia Modeling. Springer, Berlin, Heidelberg, 2012.
Tài liệu tham khảo
• Atrey, P. K., Hossain, M. A., El Saddik, A., & Kankanhalli, M. S. (2010).
Multimodal fusion for multimedia analysis: a survey. Multimedia systems,
16(6), 345-379.
• Yao, W., Moumtzidou, A., Dumitru, C. O., Stelios, A., Gialampoukidis, I.,
Vrochidis, S., ... & Kompatsiaris, I. (2021). Early and late fusion of multiple
modalities in Sentinel imagery and social media retrieval.
28