IT4090 Ch8 CVIntro SV

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 7

Chương 8 Giới thiệu tổng quan

Tổng quan về thị giác máy tính về thị giác máy tính
• Hệ thống thị giác máy tính (Computer Vision System - CV)
(Computer Vision) gồm thiết bị quan sát (camera) thu nhận thông tịn dữ liệu ảnh,
cảnh và hệ thống xử lý dữ liệu ảnh, video, bao gồm nhiều mô
 Giới thiệu tổng quan về thị giác máy tính đun chức năng tùy theo mục đích ứng dụng;
 Nhận dạng ảnh (Pattern Recognition – • Các mức xử lý CV gồm: Image Formation: Camera; Low-level -
Image Processing: Low-level Vision; Middle-level Vision;
Object classìication)
High-level Vision.
 Phát hiện đối tượng (Object detection)  Image Processing - Xử lý dữ liệu ảnh: Image Enhancement
(Improvement), Image Restoration, Noise Removal; Edge Detection;
 Mạng nơ ron tích chập (CNN: Convolutional Feature Extraction; Morphology – Binary Image processing.
Neural Network) và ứng dụng  Mid-Level Computer Vision: Segmentation; classification; Background
 Một số ứng dụng thị giác máy tính Subtraction; Separate Image in the zone (ROI); Shape, Light
 High-Level Computer Vision: Pattern Recognition, Object classification;
NGUYEN Thi Hoang Lan - HUST 1
Object detection; Robot vision 2
Digital Image Processing
Nguyen Thi Hoang Lan ĐHBK HN

Giới thiệu tổng quan Thị giác máy tính và các lĩnh vực
về thị giác máy tính liên quan
• Thị giác máy tính (Computer Vision): Kỹ thuật kết hợp đa lĩnh
vực sao cho máy tính có thể quan sát và hiểu được ảnh, cảnh được
chụp (thu nhận) từ các camera số.
• Thị giác máy tính có thể được định nghĩa gồm lý thuyết và công
nghệ để xây dựng hệ thống có khả năng quan sát và nhận biết hiểu
được cảnh trong thế giới thực như hệ thống thị giác con người. Hệ
thống là sự kết hợp nhiều lĩnh vực, nhiều môn học trong đó có xử lý
ảnh, xử lý dữ liệu đa chiều, nhận dạng, học máy, AI…
• “Obviously, with an interdisciplinary nature, this area involves
fundamental research in image processing, computer vision,
computer graphics, machine learning, pattern recognition,
biomechanics and even psychology”
NGUYEN Thi Hoang Lan - HUST 3 NGUYEN Thi Hoang Lan - HUST 4
Hệ thống nhận dạng Kiến trúc hệ thống nhận dạng đối tượng
(Pattern Recognition) Kiến trúc hệ thống nhân dạng và 2 pha hoạt động của hệ thống [1]
Đánh giá và điều chỉnh

Đối tượng
vật lý Học - Huấn
luyện để phân
Quan sát Tiền xử lý, Biểu diễn. lớp
cảm biến, phân tích, Trích chọn
thu nhận tín chuẩn hóa đặc trưng
hiệu, số hóa dữ liệu
Quyết định
nhận dạng,
phân lớp
Cơ sở Dữ
liệu (DB)
Kết quả
Sơ đồ khối chức năng của Trả lời nhận dạng
hệ thống nhận dạng

NGUYEN Thi Hoang Lan - HUST 5 6


Nguyễn Thị Hoàng Lan
Viện CNTT&TT ĐHBK HN

Các mô đun chức năng xử lý Các mô đun chức năng xử lý


của hệ thống nhận dạng của hệ thống nhận dạng
• Thu nhận thông tin và Tiền xử lý : • Learning (Training): Là mô đun chủ yếu đảm nhiệm chức năng
– Capture – Acquisition: Thiết bị quan sát thu thập và biểu huấn luyện (Training) hệ thống trong pha học (Learning) tạo nên
diễn dữ liệu đối tượng nhận dạng. Nhận dạng ảnh đầu vào tri thức hệ thống
là các ảnh (ảnh động) thu nhận bởi camera Các phương pháp học: Supervised Learning; Unsupervised
– Preprocessing – Tiền xử lý (Xử lý ảnh) : Phân tích dữ liệu Learning; Reinforcement learning; Deep learning (CNN)
thu nhận được, cải thiện, nâng cấp tăng cường chất lượng, • So khớp– ra quyết định (Matching- Decision Classification):
xử lý phân dữ liệu đặc trưng ảnh. Là mô đun có chức năng so khớp - đối sánh và ra quyết định
• Chuẩn hóa dữ liệu (Normalization) phân lớp đưa ra trả lời kết quả nhận dạng trong pha thực hiện
• Trích chọn đặc trưng (Feature Extraction): Xử lý dữ liệu trích nhận dạng (Testing).
chọn đặc trưng chủ yếu của đối tượng, giảm độ dư thừa thông Mô đun “Learning” và mô đun “Matching- Decision” đảm nhiệm
tin, giảm thứ nguyên, giảm độ phức tạp tính toán và tăng cường vai trò trí tuệ nhân tạo – AI” của hệ thống nhận dạng
hiệu năng hệ thống.
Digital Image Processing 7 Digital Image Processing 8
Nguyen Thi Hoang Lan ĐHBK HN Nguyen Thi Hoang Lan ĐHBK HN
Các vấn đề (bài toán) nhận dạng Học có giám sát và phân lớp ảnh
• Các bài toán riêng trong lĩnh vực nhận dạng và thi giác máy: (Supervised learning - Image classification)
Nhận dạng, phân lớp (Recognition – Clasiffication);
Phát hiện (Detection); Các pha xử lý theo hướng tiếp cận từ dữ liệu (Data-driven
Xác thực (Authentication – Verification); approach) dùng mô hình.
• Các vấn đề kỹ thuật của hệ thống nhận dạng Trainning:
o Quan sát, đo lường các đối tượng vật lý, thu nhận tín hiệu của • Collect a database of images with labels: Thu thập dữ liệu ảnh,
đối tượng và số hóa tín hiệu – dữ liệu đánh nhãn các loại ảnh.
o Xử lý phân tích (tùy thuộc đối tượng quan sát) • Use ML to train an image classifier: Tiền xử lý ảnh, chuẩn hóa
o Biểu diễn đối tượng và trích chọn đặc trưng dữ liệu, xác định tham số (trích chọn đặc trưng), thực hiện huấn
o Quá trình học (huấn luyện hệ thống) luyện máy học (ML) theo mô hình.
o Ra quyết định phân lớp, dự đoán: Trả lời nhận diện các đối
tượng, Testing:
o Đánh giá chất lượng nhận dạng và hiệu chỉnh hệ thống • Evaluate the classifier on test images: Thử nghiệm phân lớp ảnh,
đánh giá kết quả.
NGUYEN Thi Hoang Lan - HUST 9 Digital Image Processing 10
Nguyen Thi Hoang Lan ĐHBK HN

Phát hiện đối tượng (Object detection) Phát hiện đối tượng và các nhiệm vụ
• Bài toán: Phát hiện và xác định vị trí các đối tượng, vật thể liên quan của thị giác máy tính (CV)
(generic objects) trong ảnh/ video gồm nhiều loại như: phát hiện
khuôn mặt, phát hiện người, phát hiện xe, vật thể . Phát hiện đối
tượng là ứng dụng quan trọng của thị giác máy tính, dùng các mô
hình ML, DL để hiểu ảnh và cảnh video.
• Phát hiện đối tượng và nhận dạng đối tượng:
 Object Recognition: which object is depicted in the image?
- input: An image containing unknown object(s)
- output: Label(s) (names) and position(s) of the objects in the image
The positions of objects are either acquired form the input or determined based on the
input image. Label objects: dog, car, horse, cow, bird …., system "knows" by Learning
 Object detection: where is this object in the image?
- input: A clear image of an object, or some kind of model of an object (e.g. duck)
and an image (possibly) containing the object of interest
- output: Position, or a bounding box of the input object if it exists in the image
(e.g. the duck is in the upper left corner of the image)
11 12
Nguyen Thi Hoang Lan ĐHBK HN
Nguyen Thi Hoang Lan ĐHBK HN
Mạng nơ ron tích chập
Các vấn đề khó
(CNN: Convolutional Neural Network )
Giới thiệu khái quát
• Object Detection algorithms act as a combination of
• CNN: Mạng nơ ron chập nhập là một kiểu mạng nơ ron nhân tạo thực
object image classification and object localization hiện phương pháp học sâu - Deep Learning, học tự động và nhận biết
• Challenges: như hệ thống nơ ron sinh học
– Illumination, • Thuật toán học sâu CNN được phát triển theo phương pháp học có giám
sát, đặc điểm nổi bật là CNN thực hiện học tự động (automatique) từ
– viewpoint,
thông tin nguồn từ cảm biến cho ra kêt quả là các đặc trưng (features),
– deformations, tiếp theo là phân biệt (phân lớp) được các đối tượng. CNN được áp dụng
– Intra-class nhiều trog lĩnh vực phân lớp nhận dạng ảnh, video, ngôn ngữ tự nhiên.
variability • Mô hình CNN được nghiên cứu phát triển manh từ 2012 đến nay, các
công cụ phần mềm CNN có ưu điểm rất dễ sử dụng không cần có kiến
thức sâu lý thuyết về mạng nơ ron và thuật toán. Khai thác ứng dụng
CNN với mỗi mô hình công cụ đã có chủ yếu là thực hiện huấn luyện
CNN theo “transfer learning” sử dụng các thư viện mở với API rõ ràng.
Nguyen Thi Hoang Lan ĐHBK HN 13 Digital Image Processing 14
Nguyen Thi Hoang Lan ĐHBK HN

Kiến trúc Mạng nơ ron tích chập Kiến trúc phân tầng CNN
• Kiến trúc về chức năng mạng nơ ron nhân chập gồm 2 phần Kiến trúc về thuật toán CNN gồm các tầng xử lý với nhiều
- Phần 1: Mạng nơ ron CNN có chức năng tiếp nhận các ảnh vào, tự tham số (hyperparameters)
động trích (chiết xuất) các đặc trưng ảnh (Features Extraction)
• Tầng CONV: la couche de convolution (CONV) qui traite les
- Phần 2: Bộ phân lớp (Classication) theo mô hình mạng MLP données d'un champ récepteur ;
(Multi-Layer Perceptron) kết nối toàn phần.
• Tầng POOL: la couche de pooling (POOL), qui permet de
compresser l'information en réduisant la taille de l'image
intermédiaire (souvent par sous-échantillonnage) ;
• Tầng ReLU: la couche de correction (ReLU), souvent appelée
par abus « ReLU » en référence à la fonction d'activation (Unité
de rectification linéaire) ;
• Tầng FC: la couche « entièrement connectée » (FC), qui est une
couche de type perceptron MLP ;
• Tầng LOSS: la couche de perte (LOSS).
Digital Image Processing 15 Digital Image Processing 16
Nguyen Thi Hoang Lan ĐHBK HN Nguyen Thi Hoang Lan ĐHBK HN
Bài toán phân lớp với CNN
Mô hình kiến trúc CNN phân lớp ảnh
• Phân lớp dùng CNN, dùng MLP

Digital Image Processing 17 Digital Image Processing 18


Nguyen Thi Hoang Lan ĐHBK HN Nguyen Thi Hoang Lan ĐHBK HN

Các mô hình CNN phát hiện đối tượng Một số ứng dụng thị giác máy tính
• Các mô hình họ R-CNN (Region based CNN): Thuật Phát hiện khuôn mặt (Face detection)
toán gồm 2 phần: Region proposal, Image classification Bộ phát hiện Viola Jones
• Các mô hình họ Yolo tốc độ xử lý nhanh
Viola-Jones face detector
• Phát hiện đối tượng:
Thuật toán Viola-Jones cơ bản được thực hiện qua
– Phát hiện đối tượng đơn
4 khối chính:
– Phát hiện nhiều loại đối tượng
• Phát hiện đối tượng dùng CNN:
1. Haar-Like Feature Selection
o Mô hình 2 tầng (Two Stages): Propose “objects”. Classify each 2. Creating an Integral Image
candidate 3. Adaboost Training
o Mô hình 1 tầng (One-Stage): Sliding window to classify all
candidates) 4. Cascading Classifiers
Digital Image Processing 19 Nguyen Thi Hoang Lan ĐHBK HN 20
Nguyen Thi Hoang Lan ĐHBK HN
Viola-Jones face detector Phát hiện khuôn mặt trong ảnh
Sơ đồ khối tổng quát

Nguyen Thi Hoang Lan ĐHBK HN 21 Digital Image Processing 22


Nguyen Thi Hoang Lan ĐHBK HN

Phát hiện người chuyển động


Hệ thống phát hiện người trong SVM + HOG for human detection
video (Human Detection in video) • Person detection with HOG & linear SVM
• Sơ đồ hệ thống ‘Person detection’;
Trích
Phát
Phân vùng chọn đặc Có
Ảnh Tiền xử hiện
chuyển trưng người/23
23
video lý người
động HOG Không
đầu (Preproc (Human
(Segmentat (Feature có
vào essing) Detectio
ion) Extracti người
n)
on)

Ảnh video đầu vào:


- Ảnh video từ các bộ dữ liệu
- Ảnh video thu nhận từ camera
NGUYEN Thi Hoang Lan - HUST
23
Nguyen Thi Hoang Lan ĐHBK HN
Phát hiện người dùng đặc trưng HOG Phát hiện người chuyển động trong video

Digital Image Processing 25 Digital Image Processing 26


Nguyen Thi Hoang Lan ĐHBK HN Nguyen Thi Hoang Lan ĐHBK HN

Các lĩnh vực áp dụng nhận dạng


• Nhận dạng ảnh
– Phát hiện có khuôn mặt và vị trí khuôn mặt trong ảnh
– Thẩm định, xác thực ảnh khuôn mặt
– Nhận diện ảnh khuôn mặt: Nhận dạng phân lớp; Xác thực
• Thị giác máy: Quan sát và ứng dụng nhận dạng ảnh, học máy
• Nhận dạng vân tay
– Phân loại vân tay
– Thẩm định, xác thực vân tay
– Nhận dạng vân tay (nhận dạng đồng nhất)
• Nhận dạng áp dụng trong lĩnh vực Y tế
• Nhận dạng áp dụng trong các lĩnh vực an ninh
• Nhận dạng áp dụng trong các lĩnh vực quốc phòng
Digital Image Processing 27
Nguyen Thi Hoang Lan ĐHBK HN

You might also like