Professional Documents
Culture Documents
Test 1
Test 1
Test 1
“Visual Words”
Nguyễn Sĩ Việt
Mục lục
1 Giới thiệu 1
2 Phương pháp 3
2.1 Trích xuất đặc trưng của ảnh: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.1 SIFT desciptor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Xây dựng từ điển đặc trưng: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.3 Biểu diễn ảnh dưới dạng Vector Visual Words: . . . . . . . . . . . . . . . . . . . . . . 4
4 Kết luận 5
1 Giới thiệu
Phương pháp Bag of Words (BOW) là một kỹ thuật quan trọng trong xử lý ngôn ngữ tự nhiên và
phân loại ảnh, dựa trên ý tưởng của thuật toán mã hoá, quản lý và tìm kiếm văn bản chữ. Để hiện
thực hóa phương pháp này, một từ điển chứa các từ khoá, thường gọi là "word," được xây dựng dựa
trên nội dung của toàn bộ văn bản.
Mỗi văn bản được duyệt qua và biến đổi thành một vector, có độ dài bằng số từ khoá có trong từ
điển. Cụ thể, mỗi thành phần của vector tương ứng với vị trí của từ khoá trong từ điển và giá trị của
nó là số lần xuất hiện của từ khoá đó trong văn bản. Nếu một từ khoá không xuất hiện trong văn
bản, giá trị của vector tại chỉ số tương ứng sẽ là 0.
Điều này giúp tạo ra biểu diễn số học cho mỗi văn bản, cho phép quản lý và tìm kiếm hiệu quả
dựa trên sự xuất hiện của các từ khoá trong ngữ liệu. Giả sử chúng ta có từ điển visual words với
các từ khoá: ["sky", "tree", "car", "person"]. Ảnh mô tả một cảnh thành phố có thể được biểu diễn
bằng vector [10, 5, 3, 2], nghĩa là có 10 visual words tương ứng với "sky," 5 visual words tương ứng
với "tree," 3 visual words tương ứng với "car," và 2 visual words tương ứng với "person." Hoàn toàn
có thể áp dụng nguyên lý xử lý văn bản vào ảnh thông qua việc xây dựng thuật toán mô tả ảnh sử
dụng các từ khoá đặc trưng, được gọi là visual word. Một ví dụ đơn giản có thể được trình bày như
sau. Giả sử ta có ba ảnh, mỗi ảnh có thể được biểu diễn dưới dạng tổ hợp của một số unit-block, như
minh họa trong hình .
Tổng quan về phương pháp này:
1
1 GIỚI THIỆU
- Thu thập Dữ liệu Huấn luyện: Sử dụng một bộ dữ liệu ảnh đa dạng để huấn luyện mô hình.
- Trích xuất Đặc trưng Hình ảnh: Sử dụng các phương pháp trích xuất đặc trưng (ví dụ: SIFT,
SURF) để xác định các điểm quan trọng trong ảnh.
2
2 PHƯƠNG PHÁP
2 Phương pháp
2.1 Trích xuất đặc trưng của ảnh:
- Số lượng ảnh lớn và có vô số tổ hợp các blocks ảnh. Do đó, không thể sử dụng trực tiếp block ảnh
làm "visual word" vì kích thước của từ điển sẽ là vô hạn. Chúng ta phải trích xuất các đặc trưng cơ
bản của ảnh để có thể đại diện cho ảnh và xây dựng từ điển "visual words."
- Ảnh có thể chứa cùng một vật nhưng ở nhiều tỷ lệ khác nhau. Làm thế nào để biểu diễn một block
ảnh ở nhiều tỷ lệ khác nhau (ví dụ: 8x8 giống với block ảnh 16x16) khi chúng có nội dung tương tự?
Hay nói cách khác, làm thế nào để trích xuất cùng một đặc trưng của ảnh ở các tỷ lệ khác nhau.
- Tương tự, ảnh cùng một đối tượng nhưng ở nhiều góc độ khác nhau (do không gian là 3 chiều) có
thể tạo ra các ma trận pixel biểu diễn ảnh khác nhau. Làm thế nào để so sánh đặc trưng trích xuất
của ảnh cùng nội dung nhưng được chụp ở các góc độ khác nhau?
- Ảnh chụp cùng một cảnh tại các thời điểm khác nhau có thể có cường độ sáng, độ tương phản khác
nhau, dẫn đến các block ảnh có giá trị pixel khác nhau. Làm thế nào để mô tả nội dung của các ảnh
này bằng các đặc trưng giống nhau?
3
2.3 Biểu diễn ảnh dưới dạng Vector Visual Words: 2 PHƯƠNG PHÁP
ảnh, thường cần tiến hành quá trình phân cụm nhiều lần và chạy trên tập huấn luyện để tìm ra giá
trị thích hợp.
4
4 KẾT LUẬN
(a) (b)
Hình 4: (a) Confusion matrix chuẩn hóa (b) Confusion matrix không chuẩn hóa
4 Kết luận
Sau khi mô hình lại phương pháp bag of viusual thì thấy phương pháp hiệu quả cho việc trích xuất
đặc trưng để sử dụng cho các bài toán phân loại ảnh. Mặc dù độ chính xác còn thấp 0.574 nhưng có
thể cải thiện bằng các thuật toán phân loại khác như SVM,.. hoặc thêm dữ liệu training
5
TÀI LIỆU TÀI LIỆU
Tài liệu
[1] Mansoori, Naimeh Nejati, Mansour Razzaghi, Parvin Samavi, Shadrokh. (2013). Bag
of visual words approach for image retrieval using color information. 1-6. 10.1109/Irani-
anCEE.2013.6599562.
[2] Guo, Gongde Wang, Hui Bell, David Bi, Yaxin. (2004). KNN Model-Based Approach in Clas-
sification.