Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 6

Giới thiệu bài toán Image Segmentation

Image Segmentation hay còn được gọi là bài toán phân vùng ảnh, một nhánh nhỏ trong
Computer Vision.
Mục tiêu của bài toán Image Segmentation tương tự như object detection hay object
classification là phát hiện ra vùng ảnh chứa vật thể và gán nhãn phù hợp cho chúng. Tuy nhiên,
khác với các bài toán về object detection chỉ xác định được bounding box của đối tượng, thì tiêu
chuẩn về độ chính xác của Image Segmentation ở mức cao hơn khi nó yêu cầu nhãn dự báo
đúng tới từng pixel.

Bài toán phân vùng ảnh (Image Segment) còn chia ra thành nhiều loại nhỏ hơn như:

 Semantic segmentation: Thực hiện segment với từng lớp khác nhau, ví dụ hình trên là
phân biệt 2 lớp chó và mèo.
 Instance segmentation: Thực hiện segment với từng đối tượng trong một lớp, như hình
trên, có 2 con chó trong ảnh nhưng được phân biệt với 2 màu khác nhau chứng minh
chúng là 2 đối tượng riêng biệt.
Ứng dụng
Trong cuộc sống có rất nhiều vấn đề cần phức tạp cần đến sự phân tích kĩ chi tiết của hình ảnh
thay vì chỉ xác định 1 khoảng bounding box của đối tượng trong hình ảnh. Một số ứng dụng có
thể kể đến như:

 Xe tự lái: là một nhiệm vụ rất phức tạp của robot (xe), đòi hỏi phải có khả năng nhận
thức, biết cách tự điều khiển trong bất kỳ mọi tình huống nào cần được thực hiện với độ
chính xác tối đa, vì độ an toàn của người ngồi trên xe là được đặt lên hàng đầu. Do đó, cần
xử lý thông tin về không gian xung quanh thật chi tiết. Trong việc xử lý xe tự hành,Image
Segmentation cung cấp các thông tin về không gian ở trên đường, phát hiện các đối tượng
và các biển báo giao thông ở trên đường.
 Chuẩn đoán y học: Phát hiện những khối u hay những dị thường bên trong cơ thể người
bệnh là 1 vấn đề phức tạp yêu cầu độ chính xác cao. Vì hình dạng của các tế bào ung thư là
một trong những yếu tố quyết định độ ác tính của bệnh, nên ta cần image segmentation
để biết được chính xác hình dạng của các tế bào ung thư từ đó đưa ra nhưng chuẩn đoán
chính xác cao.
 Ứng dụng trong nông nghiệp: Áp dụng Image segmentation cho hệ thống tưới nước hay
phun thuốc tự động có thể tiết kiệm chi phí khi có thể phân biệt đâu là nơi cần tưới

Thách thức
Hiện nay, bài toán image segmentation cũng đang gặp phải những thách thức đang chờ được
giải đáp như:
Áp dụng image segmentation với big data, với sự phát triển không ngừng của big data cũng
như nhu cầu thông tin của con người ngày càng lớn ( như các hệ thống quan sát Trái đất,
nghiên cứu hình ảnh không gian địa lý và viễn thám với sự gia tăng độ phân giải không gian,
quang phổ và thời gian hoạt động thì các hệ thống này đang chuyển sang mô hình dữ liệu lớn).
Từ đó yêu cầu bài toán image segmentation phải làm việc hiệu quả với dữ liệu lớn, tuy nhiên
việc render hình ảnh sẽ khó khăn hơn khi làm việc với dữ liệu lớn do sức mạnh tính toán của
phần cứng không theo kịp với kích thước và tốc độ của dữ liệu mới.
Hướng tiếp cận
DeepLab là một trong những mô hình tốt để xử lý bài toán Image Segmentation, được nhóm
tác giả Liang-Chieh Chen, George Papandreou là những nhà nghiên cứu lâu năm về Semantic
Segmentation công bố lần đầu vào năm 2016 và lần thứ 2 vào năm 2017.
Các phiên bản deeplab cho tới hiện tại gồm:

 V1: Dùng tích chập atrous điều khiển kết quả đặc trưng trong CNN
 V2: Sử dụng atrous spatial pyramid pooling (ASPP), để tính toán tỷ lệ đối tượng khác nhau
và tăng độ chính xác.
 V3: Thêm các tính năng cấp độ hình ảnh vào ASPP và áp dụng chuẩn hóa hàng loạt để
traing dễ dàng hơn.
 V3 plus: Mở rộng DeepLabv3 bằng module giải mã để tinh chỉnh kết quả phân vùng.

DeepLab V1+V2:
Kiến trúc chung của Deeplab V1 + V2:
Input -> DCNN -> Score Map -> Bi-linear Interpolation -> Fully Connected CRF -> Final Output
Cách hoạt động của kiến trúc DeepLabV1 + V2:
Đầu tiên một ảnh đầu vào sẽ được truyền vào một mạng CNN học sâu nhiều tầng (DCNN - Deep
Convolutional Neural Network để tạo ra một feature map là một biểu diễn không gian các đặc
trưng của ảnh đầu vào, mạng DCNN sử dụng các tích chập Atrous để trích lọc đặc trưng thay vì
các tích chập CNN thông thường. Tích chập Atrous sẽ có những tác dụng đặc biệt hơn so với
tích chập CNN đó là tầm nhìn (field of view) được mở rộng hơn, không làm giảm chiều của
feature map quá sâu mà vẫn giữ được số lượng tham số và chi phí tính toán tương đương với
tích chập CNN.
Sau cùng của mạng DCNN ta thu được một feature map là một bản đồ đặc trưng của ảnh đầu
vào chính là Aeroplane Coarse Score map.
Score map có kích thước nhỏ hơn nhiều so với ảnh gốc. Chúng ta sử dụng Bi-linear
Interpolation để resize lại score map về kích thước gốc. Bố cục của ảnh sau khi resize không
khác so với ảnh gốc, chỉ thay đổi về kích thước.
Để tạo ra được feature map dự báo thì chúng ta áp dụng một layer kết nối toàn bộ (Fully
Connected Layer) kết hợp với phương pháp Conditional Random Field.
 Điểm mấu chốt ở các kiến trúc này đó là áp dụng Atrous Convolution và Fully Connected
CRF để dự đoán ma trận mask cho ảnh chuẩn xác hơn.
Atrous Convolution (tích chập Atrous):

 Là một tích chập thường được sử dụng trong các bài toán image segmentation. Atrous
Convolution cho phép chúng ta trích lọc được các đặc trưng ở mật đồ dày hơn thu được
tầm nhìn rộng hơn, giúp bảo toàn thông tin về không gian và độ chi tiết của các vật thể.

 Công thức:

Đối với tích chập austrous ta quan tâm tới các chỉ số:
 rate: Ký hiệu là R, là khoảng cách giữa các dòng hoặc cột liên tiếp nhau sau khi chèn
thêm các dòng và cột 0. Nếu rate = r thì cứ cách một dòng hoặc cột là r−1 dòng hoặc cột 0.
 kernel: Ký hiệu K, kích thước bộ lọc.
 padding: Ký hiệu P, kích thước zero padding bao ngoài ảnh.
 stride: Ký hiệu S, số bước di chuyển của mỗi lượt tích chập.

Atrous Spatial Pyramid Pooling (ASPP):


ASPP là một tập hợp của nhiều bộ lọc atrous với kích thước khác nhau được thực hiện đồng
thời trên cùng một vùng feature map.
ASPP giúp chúng ta có thể nhận diện các vật thể có thể xuất hiện trong ảnh với nhiều kích thước
khác nhau, tính toán các tỷ lệ đối tượng khác nhau và cải thiện độ chính xác.

Fully Connected CRF:


Là một chu trình xử lý sau cùng để tính toán ra phân phối xác suất cho output áp dụng kỹ thuật
Conditional Random Field (viết tắt là CRF) để làm cho dự báo cho các pixel trở nên chuẩn xác
hơn.
Không gian có tính liên kết, dựa vào nội dung, bố cục, hình dạng và màu sắc của một vùng ảnh
ta có thể dự đoán được các vùng ảnh xung quanh, những pixel có khoảng cách gần với pixel có
nhãn có khả năng cùng nhãn, cùng màu với nó, theo ý tưởng đó áp dụng CRF dự đoán các pixel
Công thức Fully Connected CRF:
Thuật toán CRF sẽ tìm cách chuẩn hóa lại điểm số cho mỗi điểm ảnh thông qua một hàm năng
lượng (Energy score) như sau:

Tiếp theo đánh giá khả năng ghép cặp tiềm năng giữa 2 pixels bất kỳ trong ảnh theo công thức:

Hạn chế của deeplab V1 + V2:


Do sử dụng CRF ở bước cuối cùng để phân vùng tốt hơn, tuy nhiên CRF khiến cho mô hình mất
nhiều thời gian cũng như chi phí để đưa ra kết quả, do đó CRF đã bị lượt bỏ ở những phiên bản
V3 và V3+.

DeepLab V3:
Một số cải tiến của cảu deeplab V3 gồm:
Tiến hành tích chập song song ASPP tại nhiều scale khác nhau và đưa thêm batch normalization
(giúp mô hình hội tụ nhanh hơn), kế thừa ý tưởng từ mạng Inception.
Đặc biệt, bỏ Fully Connected CRF tại bước xử lý sau cùng giúp gia tăng tốc độ tính toán.

DeepLab V3+ :
Kiến trúc mô hình deeplab V3 plus:
Tách ra làm 2 giai đoạn mã hóa và giải mã:

 Mã hóa (encoder): Hình ảnh đầu vào được train trong mạng CNN trích xuất ra thông tin
đối tượng và vị trí của chúng.

 Giải mã (decoder): từ thông tin ở giai đoạn mã hóa thì tạo output sao cho đúng với kích
thước ban đầu.

 Loại mô hình này có các ứng dụng trong cả nhiệm vụ phân vùng và nhận dạng.
Tham khảo:
https://www.tandfonline.com/doi/full/10.1080/19475683.2014.938774#:~:text=Image
%20segmentation%20is%20rendered%20more,distributed%20and%20parallel%20computing
%20platforms.

https://viblo.asia/p/part-1-cac-kien-truc-mang-deep-learning-trong-viec-giai-bai-toan-semantic-
segment-phan-vung-ngu-nghia-anh-RQqKL9J4Z7z

https://nttuan8.com/bai-12-image-segmentation-voi-u-net/

You might also like