Professional Documents
Culture Documents
IT4090 Ch8 CVIntro SV
IT4090 Ch8 CVIntro SV
IT4090 Ch8 CVIntro SV
Tổng quan về thị giác máy tính về thị giác máy tính
• Hệ thống thị giác máy tính (Computer Vision System - CV)
(Computer Vision) gồm thiết bị quan sát (camera) thu nhận thông tịn dữ liệu ảnh,
cảnh và hệ thống xử lý dữ liệu ảnh, video, bao gồm nhiều mô
Giới thiệu tổng quan về thị giác máy tính đun chức năng tùy theo mục đích ứng dụng;
Nhận dạng ảnh (Pattern Recognition – • Các mức xử lý CV gồm: Image Formation: Camera; Low-level -
Image Processing: Low-level Vision; Middle-level Vision;
Object classìication)
High-level Vision.
Phát hiện đối tượng (Object detection) Image Processing - Xử lý dữ liệu ảnh: Image Enhancement
(Improvement), Image Restoration, Noise Removal; Edge Detection;
Mạng nơ ron tích chập (CNN: Convolutional Feature Extraction; Morphology – Binary Image processing.
Neural Network) và ứng dụng Mid-Level Computer Vision: Segmentation; classification; Background
Một số ứng dụng thị giác máy tính Subtraction; Separate Image in the zone (ROI); Shape, Light
High-Level Computer Vision: Pattern Recognition, Object classification;
NGUYEN Thi Hoang Lan - HUST 1
Object detection; Robot vision 2
Digital Image Processing
Nguyen Thi Hoang Lan ĐHBK HN
Giới thiệu tổng quan Thị giác máy tính và các lĩnh vực
về thị giác máy tính liên quan
• Thị giác máy tính (Computer Vision): Kỹ thuật kết hợp đa lĩnh
vực sao cho máy tính có thể quan sát và hiểu được ảnh, cảnh được
chụp (thu nhận) từ các camera số.
• Thị giác máy tính có thể được định nghĩa gồm lý thuyết và công
nghệ để xây dựng hệ thống có khả năng quan sát và nhận biết hiểu
được cảnh trong thế giới thực như hệ thống thị giác con người. Hệ
thống là sự kết hợp nhiều lĩnh vực, nhiều môn học trong đó có xử lý
ảnh, xử lý dữ liệu đa chiều, nhận dạng, học máy, AI…
• “Obviously, with an interdisciplinary nature, this area involves
fundamental research in image processing, computer vision,
computer graphics, machine learning, pattern recognition,
biomechanics and even psychology”
NGUYEN Thi Hoang Lan - HUST 3 NGUYEN Thi Hoang Lan - HUST 4
Hệ thống nhận dạng Kiến trúc hệ thống nhận dạng đối tượng
(Pattern Recognition) Kiến trúc hệ thống nhân dạng và 2 pha hoạt động của hệ thống [1]
Đánh giá và điều chỉnh
Đối tượng
vật lý Học - Huấn
luyện để phân
Quan sát Tiền xử lý, Biểu diễn. lớp
cảm biến, phân tích, Trích chọn
thu nhận tín chuẩn hóa đặc trưng
hiệu, số hóa dữ liệu
Quyết định
nhận dạng,
phân lớp
Cơ sở Dữ
liệu (DB)
Kết quả
Sơ đồ khối chức năng của Trả lời nhận dạng
hệ thống nhận dạng
Phát hiện đối tượng (Object detection) Phát hiện đối tượng và các nhiệm vụ
• Bài toán: Phát hiện và xác định vị trí các đối tượng, vật thể liên quan của thị giác máy tính (CV)
(generic objects) trong ảnh/ video gồm nhiều loại như: phát hiện
khuôn mặt, phát hiện người, phát hiện xe, vật thể . Phát hiện đối
tượng là ứng dụng quan trọng của thị giác máy tính, dùng các mô
hình ML, DL để hiểu ảnh và cảnh video.
• Phát hiện đối tượng và nhận dạng đối tượng:
Object Recognition: which object is depicted in the image?
- input: An image containing unknown object(s)
- output: Label(s) (names) and position(s) of the objects in the image
The positions of objects are either acquired form the input or determined based on the
input image. Label objects: dog, car, horse, cow, bird …., system "knows" by Learning
Object detection: where is this object in the image?
- input: A clear image of an object, or some kind of model of an object (e.g. duck)
and an image (possibly) containing the object of interest
- output: Position, or a bounding box of the input object if it exists in the image
(e.g. the duck is in the upper left corner of the image)
11 12
Nguyen Thi Hoang Lan ĐHBK HN
Nguyen Thi Hoang Lan ĐHBK HN
Mạng nơ ron tích chập
Các vấn đề khó
(CNN: Convolutional Neural Network )
Giới thiệu khái quát
• Object Detection algorithms act as a combination of
• CNN: Mạng nơ ron chập nhập là một kiểu mạng nơ ron nhân tạo thực
object image classification and object localization hiện phương pháp học sâu - Deep Learning, học tự động và nhận biết
• Challenges: như hệ thống nơ ron sinh học
– Illumination, • Thuật toán học sâu CNN được phát triển theo phương pháp học có giám
sát, đặc điểm nổi bật là CNN thực hiện học tự động (automatique) từ
– viewpoint,
thông tin nguồn từ cảm biến cho ra kêt quả là các đặc trưng (features),
– deformations, tiếp theo là phân biệt (phân lớp) được các đối tượng. CNN được áp dụng
– Intra-class nhiều trog lĩnh vực phân lớp nhận dạng ảnh, video, ngôn ngữ tự nhiên.
variability • Mô hình CNN được nghiên cứu phát triển manh từ 2012 đến nay, các
công cụ phần mềm CNN có ưu điểm rất dễ sử dụng không cần có kiến
thức sâu lý thuyết về mạng nơ ron và thuật toán. Khai thác ứng dụng
CNN với mỗi mô hình công cụ đã có chủ yếu là thực hiện huấn luyện
CNN theo “transfer learning” sử dụng các thư viện mở với API rõ ràng.
Nguyen Thi Hoang Lan ĐHBK HN 13 Digital Image Processing 14
Nguyen Thi Hoang Lan ĐHBK HN
Kiến trúc Mạng nơ ron tích chập Kiến trúc phân tầng CNN
• Kiến trúc về chức năng mạng nơ ron nhân chập gồm 2 phần Kiến trúc về thuật toán CNN gồm các tầng xử lý với nhiều
- Phần 1: Mạng nơ ron CNN có chức năng tiếp nhận các ảnh vào, tự tham số (hyperparameters)
động trích (chiết xuất) các đặc trưng ảnh (Features Extraction)
• Tầng CONV: la couche de convolution (CONV) qui traite les
- Phần 2: Bộ phân lớp (Classication) theo mô hình mạng MLP données d'un champ récepteur ;
(Multi-Layer Perceptron) kết nối toàn phần.
• Tầng POOL: la couche de pooling (POOL), qui permet de
compresser l'information en réduisant la taille de l'image
intermédiaire (souvent par sous-échantillonnage) ;
• Tầng ReLU: la couche de correction (ReLU), souvent appelée
par abus « ReLU » en référence à la fonction d'activation (Unité
de rectification linéaire) ;
• Tầng FC: la couche « entièrement connectée » (FC), qui est une
couche de type perceptron MLP ;
• Tầng LOSS: la couche de perte (LOSS).
Digital Image Processing 15 Digital Image Processing 16
Nguyen Thi Hoang Lan ĐHBK HN Nguyen Thi Hoang Lan ĐHBK HN
Bài toán phân lớp với CNN
Mô hình kiến trúc CNN phân lớp ảnh
• Phân lớp dùng CNN, dùng MLP
Các mô hình CNN phát hiện đối tượng Một số ứng dụng thị giác máy tính
• Các mô hình họ R-CNN (Region based CNN): Thuật Phát hiện khuôn mặt (Face detection)
toán gồm 2 phần: Region proposal, Image classification Bộ phát hiện Viola Jones
• Các mô hình họ Yolo tốc độ xử lý nhanh
Viola-Jones face detector
• Phát hiện đối tượng:
Thuật toán Viola-Jones cơ bản được thực hiện qua
– Phát hiện đối tượng đơn
4 khối chính:
– Phát hiện nhiều loại đối tượng
• Phát hiện đối tượng dùng CNN:
1. Haar-Like Feature Selection
o Mô hình 2 tầng (Two Stages): Propose “objects”. Classify each 2. Creating an Integral Image
candidate 3. Adaboost Training
o Mô hình 1 tầng (One-Stage): Sliding window to classify all
candidates) 4. Cascading Classifiers
Digital Image Processing 19 Nguyen Thi Hoang Lan ĐHBK HN 20
Nguyen Thi Hoang Lan ĐHBK HN
Viola-Jones face detector Phát hiện khuôn mặt trong ảnh
Sơ đồ khối tổng quát