Chương 1

You might also like

You are on page 1of 18

KHAI THÁC THÔNG TIN ĐA PHƯƠNG TIỆN

CHƯƠNG 1: Tổng quan về thông tin đa phương tiện


và khai thác thông tin đa phương tiện
NỘI DUNG
1. Giới thiệu

2. Một số khái niệm cơ sở

3. Dữ liệu/thông tin đa phương tiện

4. Khai thác thông tin đa phương tiện

Page: 2
1. GIỚI THIỆU

▪ Con người gồm có 5 giác quan (thị giác, thính giác, xúc giác, khứu giác và
vị giác).
▪ Thông tin đến từ các giác quan (Theo nghiên cứu [Heli92]):
• Thị giác: 70%
• Thính giác: 20%
• Khứu giác: 5%
• Xúc giác: 4%
• Vị giác: 1%

Nguồn: https://www.researchgate.net/figure/Functional-diagram-of-the-Brain-lobes-Image-credit-Chen-2011_fig7_349423952

Page: 3
2. MỘT SỐ KHÁI NIỆM CƠ SỞ

▪ Dữ liệu (Data, Datum) và Thông tin (information):


• Dữ liệu là ký hiệu, chữ viết, chữ số, hình ảnh, âm thanh hoặc dạng tương tự khác
• Khi dữ liệu được xử lý, tổ chức, cấu trúc, biểu diễn trong một ngữ cảnh nào đó
=> Trở thành thông tin
• Từ cùng một dữ liệu có thể có nhiều thông tin được trích rút ra

Nguồn: https://www.packtpub.com/en-nz/product/getting-started-with-python-data-analysis-1-9781785285110/chapter/introducing-data-analysis-and-
libraries

Page: 4
2. MỘT SỐ KHÁI NIỆM CƠ SỞ

▪ Media (Latin: medius, Eng: means, intermediary)


• Là kênh truyền thông/công cụ nhằm lưu trữ và truyền tải thông tin
• VD: các kênh mạng xã hội, truyền hình, internet, báo, tạp chí, biển quảng cáo,…
▪ Phân loại Media dựa trên thời gian:

Media tĩnh Media động


Không có chiều thời gian, không phụ Có chiều thời gian, ý nghĩa và độ
thuộc vào thời gian trình diễn. chính xác của chúng phụ thuộc vào
tốc độ trình diễn.
Bao gồm dữ liệu văn bản, đồ họa. Bao gồm annimation, video, audio.

Page: 5
3. DỮ LIỆU THÔNG TIN ĐA PHƯƠNG TIỆN

▪ Multimedia (Latin: multus-, Eng: numeous):


• Là tập hợp các kiểu Media được sử dụng chung, trong đó ít nhất có một kiểu
không phải là văn bản
• Các thành phần của multimedia:
▪ Văn bản và kiểu chữ
▪ Hình ảnh và đồ họa
▪ Âm thanh
▪ Video
▪ Animation
▪ Media Item – Media Object
• Thực thể tự trị trong hệ thống chỉ mục và tìm kiếm thông tin đa phương tiện
(MIRS-Multimedia Indexing and Retrieval System)
Nguồn: https://careerviet.vn/vi/talentcommunity/wiki-career/multimedia-la-gi-tat-
tan-tat-ve-nganh-multimedia-ma-ban-can-biet.35A52464.html

Page: 6
3. DỮ LIỆU THÔNG TIN ĐA PHƯƠNG TIỆN

▪ Media Item – Media Object


• Thực thể tự trị trong hệ thống chỉ mục và tìm kiếm thông tin đa phương tiện
(MIRS-Multimedia Indexing and Retrieval System)
▪ Cơ sở dữ liệu (CSDL-Database) và Hệ quản trị CSDL:
• CSDL: Tập hợp các bản ghi data hay media item
• Là một tập hợp được tổ chức các dữ liệu được lưu trữ trong một hệ thống, mà từ
đó chúng ta có thể truy xuất, cập nhật, và xử lý các thông tin cần thiết
▪ Hệ quản trị CSDL:
• Hệ quản trị CSDL - DBMS: Toàn bộ hệ thống quản trị CSDL
• Là các công cụ và quy trình để quản lý và điều phối dữ liệu trong CSDL

Page: 7
3. DỮ LIỆU THÔNG TIN ĐA PHƯƠNG TIỆN

▪ Chỉ mục và tìm kiếm đa phương tiện:


• CSDL có cấu trúc:
▪ Tìm kiếm thông tin dựa trên đối sánh chính xác
• Hệ thống quản lý cơ sở dữ liệu đa phương tiện (Multimedia Database Managment
System – MMDBMS):
▪ Là khung làm việc để quản lý các kiểu dữ liệu khác nhau, thể hiện trong các
khuôn dạng khác nhau.
▪ Khả năng tìm kiếm thông tin theo nội dung
▪ MMDBMS cần có khả năng hỗ trợ các kiểu dữ liệu đa phương tiện, hơn nữa
phải có khả năng thực hiện các chức năng thông thường của DBMS truyền
thống như tạo lập CSDL, mô hình hóa dữ liệu, truy tìm, xâm nhập, tổ chức dữ
liệu và độc lập dữ liệu

Page: 8
3. DỮ LIỆU THÔNG TIN ĐA PHƯƠNG TIỆN

▪ Trích chọn đặc trưng (Feature Selection):


• Loại bỏ những cột, những feature hoặc redundant
(thừa thãi), hoặc irrelevant (không liên quan)
• Feature selection khác biệt nhiều với Feature
extraction (chiết xuất đặc trưng):
▪ Feature extraction tạo ra feature mới từ các
feature cũ
▪ Feature selection là quá trình chọn ra một tập
con các features từ bộ features lớn, thường
được sử dụng khi có nhiều features nhưng ít
dữ liệu.

Nguồn: https://themanoftalent.medium.com/feature-selection-9b1609f1f6b0

Page: 9
3. DỮ LIỆU THÔNG TIN ĐA PHƯƠNG TIỆN

▪ Tính chất chung của dữ liệu đa phương tiện:


• Khối lượng khổng lồ (đặc biệt với dữ liệu audio và video). Thí dụ 10 phút video
không nén có dung lượng 1,5 GB.
• Audio và video có thêm chiều thời gian. • Dữ liệu ảnh, audio và video được thể
hiện bởi dãy các giá trị mẫu, không có cấu trúc nhất định để máy tính tự động
nhận biết.
• Rất nhiều ứng dụng đa phương tiện đòi hỏi trình diễn đồng thời các loại media
khác nhau. Thí dụ, phim bao gồm các ảnh đồng bộ với âm thanh.
• Ngữ nghĩa (semantic) của dữ liệu đa phương tiện đôi khi rất mờ.
• Dữ liệu đa phương tiện rất giàu thông tin. Đòi hỏi nhiều tham số để biểu diễn nội
dung của chúng.

Page: 10
3. DỮ LIỆU THÔNG TIN ĐA PHƯƠNG TIỆN

▪ Dữ liệu lớn (Big data):


• 4V
▪ Volume (khối lượng dữ liệu)
▪ Velocity (tốc độ dữ liệu)
▪ Variety (sự đa dạng trong dữ liệu)
▪ Veracity (tính xác thực của dữ liệu)
=> Khai thác giá trị và tiềm năng của
dữ liệu

Nguồn: https://kenh14.vn/big-data-xu-huong-can-thiet-khi-may-moc-co-the-du-
doan-tuong-lai-va-so-phan-cua-con-nguoi-2017122422104606.chn

Page: 11
3. DỮ LIỆU THÔNG TIN ĐA PHƯƠNG TIỆN

▪ Ảnh:

Nguồn: Pinteres

Page: 12
3. DỮ LIỆU THÔNG TIN ĐA PHƯƠNG TIỆN

▪ Video:
• Video có kịch bản (Scripted video): bản tin
• Video không có kịch bản (Unscripted video)

Video Thể thao

Video Giám sát

Bản tin Nguồn: https://ivi.fnwi.uva.nl/isis/mediamill/challenge/data.php


https://www.youtube.com/watch?v=wm6v1FiA7Cs
https://www.shutterstock.com/vi/video/search/multiple-cctv

Page: 13
3. DỮ LIỆU THÔNG TIN ĐA PHƯƠNG TIỆN

▪ Audio, tiếng nói (Speech)

Nguồn: https://perso.telecom-paristech.fr/essid/ces_ds/audio-analysis-lecture_2017.pdf
https://symbl.ai/developers/blog/machine-learning-crash-course-in-audio-classification/

Page: 14
3. DỮ LIỆU THÔNG TIN ĐA PHƯƠNG TIỆN

▪ Video khóa học online: audio, video, text…

Nguồn: https://learninginnovation.duke.edu/blog/2020/07/using-coursera-for-campus-in-your-teaching/
https://blog.coursera.org/updates-to-your-learning-experience-on-coursera/

Page: 15
3. DỮ LIỆU THÔNG TIN ĐA PHƯƠNG TIỆN

▪ Các ứng dụng hiện thực tăng cường, hiện thực ảo trong giáo dục

Nguồn: https://onetech.jp/wp-content/uploads/2020/04/vr-technology-in-training-and-education-1.jpg

Page: 16
4. KHAI THÁC THÔNG TIN ĐA PHƯƠNG TIỆN
▪ Khai thác thông tin đa phương tiện: tập hợp các phương pháp, kỹ thuật cho
phép trích xuất và trình diễn các thông tin theo một mong muốn nào đó từ
dữ liệu.
▪ Có nhiều phương pháp khác nhau được sử dụng để khai thác thông tin đa
phương tiện, bao gồm:
• Xử lý ảnh: Sử dụng các thuật toán để phân tích hình ảnh, trích xuất các đặc
điểm như màu sắc, hình dạng, kết cấu, v.v.
• Xử lý video: Sử dụng các thuật toán để phân tích video, trích xuất các đặc điểm
như chuyển động, âm thanh, v.v.
• Xử lý ngôn ngữ tự nhiên (NLP): Sử dụng các thuật toán để xử lý văn bản, trích
xuất các thông tin như chủ đề, ý kiến, v.v.
• Học máy: Sử dụng các thuật toán học máy để tự động học hỏi từ dữ liệu đa
phương tiện và thực hiện các tác vụ như phân loại, nhận dạng, v.v.

Page: 17

You might also like