Thị giác máy tính là một lĩnh vực trí tuệ nhân tạo

Hình ảnh kỹ thuật số là hình ảnh bao gồm các phần tử hình ảnh , còn được gọi là pixel
, mỗi
phần tử có số lượng biểu diễn số hữu hạn , rời rạc cho cường độ hoặc mức xám của nó, là đầu
ra từ các hàm hai chiều của nó được cung cấp làm đầu vào bởi tọa độ không gian của nó được
biểu thị bằng x , y lần lượt trên trục x và trục y. [1] Tùy thuộc vào việc độ phân giải hình ảnh có cố
định hay không, nó có thể thuộc loại vectơ hoặc raster . Bản thân thuật ngữ "hình ảnh kỹ thuật
số" thường dùng để chỉ hình ảnh raster hoặc hình ảnh bitmap (ngược lại với hình ảnh vector )
Thị giác máy tính là một lĩnh vực trí tuệ nhân tạo (AI) sử dụng máy học và
mạng lưới thần kinh để dạy máy tính và hệ thống lấy thông tin có ý nghĩa từ
hình ảnh, video kỹ thuật số và các đầu vào trực quan khác—đồng thời đưa
ra đề xuất hoặc thực hiện hành động khi chúng thấy khiếm khuyết hoặc sự
cố. Nếu AI cho phép máy tính suy nghĩ thì thị giác máy tính cho phép chúng nhìn, quan sát và hiểu.
Thị giác của con người và thị giác máy tính đều nhằm mục đích nhận biết và hiểu các hình ảnh,
nhưng chúng hoạt động theo các cách khác nhau và có những điểm giống nhau và khác nhau rõ
rệt. Dưới đây là sự so sánh về sự khác nhau và giống nhau giữa hai loại thị giác này:
Giống nhau:
1. Mục tiêu chung: Cả hai đều nhằm phân tích và nhận dạng các đối tượng và cảnh vật từ
hình ảnh.
2. Xử lý dữ liệu hình ảnh: Cả con người và hệ thống thị giác máy tính đều xử lý dữ liệu
hình ảnh để rút ra thông tin hữu ích.
3. Sử dụng ánh sáng: Cả hai đều phụ thuộc vào ánh sáng để nhìn thấy và nhận diện các đối
tượng.
4. Phát hiện và nhận dạng đối tượng: Cả hai có khả năng phát hiện và nhận dạng các đối
tượng, cũng như phân loại chúng.
Khác nhau:
1. Cơ chế hoạt động:

o Thị giác con người: Dựa trên hệ thống mắt và não bộ. Mắt thu thập ánh sáng và
chuyển đổi thành tín hiệu điện gửi đến não để xử lý. Não bộ sử dụng kinh nghiệm,
kiến thức và khả năng tư duy để hiểu hình ảnh.
o Thị giác máy tính: Dựa trên các cảm biến hình ảnh (camera) và các thuật toán
phần mềm. Hình ảnh được phân tích bởi các thuật toán xử lý ảnh và học máy để
nhận diện và hiểu nội dung.
2. Khả năng xử lý:
o Thị giác con người: Có khả năng nhận biết nhanh chóng và chính xác trong
nhiều tình huống phức tạp, nhưng có giới hạn về khả năng xử lý lượng lớn dữ liệu
cùng một lúc.
o Thị giác máy tính: Có thể xử lý một lượng lớn dữ liệu hình ảnh với tốc độ cao,
nhưng đôi khi gặp khó khăn trong các tình huống phức tạp hoặc không điển hình.
3. Học hỏi và thích nghi:
o Thị giác con người: Học hỏi qua trải nghiệm, không cần huấn luyện trước mà sử
dụng kiến thức và kinh nghiệm tích lũy.
o Thị giác máy tính: Phải được huấn luyện trên dữ liệu lớn để học cách nhận biết
và phân loại đối tượng, thường sử dụng các thuật toán học máy như mạng nơ-ron
sâu.
4. Khả năng thích nghi và ngữ cảnh:
o Thị giác con người: Có khả năng thích nghi cao và hiểu ngữ cảnh một cách tự
nhiên, giúp nhận biết các đối tượng trong các tình huống không điển hình.
o Thị giác máy tính: Khó khăn trong việc thích nghi và hiểu ngữ cảnh phức tạp
nếu không được huấn luyện đặc biệt cho tình huống đó.
5. Chi phí và độ phức tạp:
o Thị giác con người: Là hệ thống tự nhiên và hiệu quả, không cần thiết bị phức
tạp hoặc chi phí cao để duy trì.
o Thị giác máy tính: Yêu cầu phần cứng mạnh mẽ (như GPU), phần mềm phức tạp
và chi phí cao cho việc phát triển, duy trì và nâng cấp.
Nhìn chung, thị giác con người và thị giác máy tính đều có những ưu điểm và hạn chế riêng. Thị
giác máy tính có thể bổ sung và mở rộng khả năng của thị giác con người trong nhiều ứng dụng,
từ giám sát an ninh đến nhận dạng khuôn mặt và xử lý ảnh y tế
### Đặc trưng thủ công (Hand-crafted Features):
**Định nghĩa**:
Đặc trưng thủ công là các đặc trưng được thiết kế bởi con người dựa trên kiến thức chuyên môn và hiểu
biết về cách các yếu tố hình ảnh ảnh hưởng đến kết quả nhận diện. Chúng được phát triển bằng cách sử
dụng các phương pháp và thuật toán phân tích hình ảnh truyền thống.
**Ví dụ**:
1. **SIFT (Scale-Invariant Feature Transform)**:
- SIFT là một thuật toán phát hiện và mô tả các đặc trưng cục bộ trong hình ảnh. Nó có khả năng bất
biến với tỷ lệ và xoay, cũng như mạnh mẽ với các biến đổi ánh sáng và nhiễu.
2. **HOG (Histogram of Oriented Gradients)**:
- HOG là một phương pháp dùng để phát hiện và mô tả các đặc trưng bằng cách phân tích các gradient
hướng trong các ô nhỏ của hình ảnh. Nó thường được sử dụng trong các bài toán nhận diện đối tượng
và phát hiện người.
### Đặc trưng học sâu (Deep Features):
**Định nghĩa**:
Đặc trưng học sâu được trích xuất tự động từ các mô hình học sâu, đặc biệt là các mạng nơ-ron sâu
(deep neural networks). Các đặc trưng này không cần phải được thiết kế thủ công mà được học trực tiếp
từ dữ liệu thông qua quá trình huấn luyện mô hình.
**Ví dụ**:
1. **CNN Features (Convolutional Neural Network Features)**:
- Đặc trưng trích xuất từ các lớp của mạng CNN, chẳng hạn như từ các lớp trung gian hoặc lớp đầu ra
của các mô hình nổi tiếng như VGG, ResNet, hay Inception. Các đặc trưng này thường có tính chất tổng
quát và mạnh mẽ cho nhiều tác vụ thị giác máy tính.
2. **Autoencoder Features**:
- Đặc trưng trích xuất từ các mạng autoencoder, nơi hình ảnh đầu vào được mã hóa vào một không
gian ẩn (latent space) bởi mạng mã hóa (encoder). Các đặc trưng này có thể được sử dụng cho các bài
toán nén dữ liệu, phát hiện bất thường, và khôi phục ảnh.
### Tóm tắt
- **Đặc trưng thủ công**:
- Được thiết kế thủ công dựa trên kiến thức chuyên môn.
- Ví dụ: SIFT, HOG.

- **Đặc trưng học sâu**:
- Được trích xuất tự động từ các mô hình học sâu.
- Ví dụ: CNN Features, Autoencoder Features.
Phân đoạn ảnh:
Phân đoạn ảnh là hoạt động của

phân chia hình ảnh thành một tập hợp
tập hợp các pixel được kết nối.
• Phân đoạn bằng những từ dễ hiểu là gán
nhãn thành pixel. Tất cả các thành phần hình ảnh hoặc
pixel
thuộc cùng một loại có một
nhãn chung được gán cho chúng
phân loại ảnh:
Khái niệm: Phân loại ảnh là quá trình gán nhãn hoặc phân loại toàn bộ hình ảnh vào một trong nhiều
danh mục (classes) đã được định trước. Mỗi nhãn đại diện cho một loại đối tượng hoặc cảnh vật cụ thể
trong ảnh.
### b) Ứng dụng của Phân đoạn ảnh trong thực tế:
**Ứng dụng trong Y tế:**
Phân đoạn ảnh y tế là một ứng dụng quan trọng của phân đoạn ảnh. Trong lĩnh vực này, phân đoạn ảnh
được sử dụng để phân tích và xác định các cấu trúc giải phẫu khác nhau từ hình ảnh y tế như MRI, CT,
hoặc X-ray. Ví dụ:
- **Phân đoạn khối u**: Xác định và phân biệt các vùng bị ung thư từ các mô khỏe mạnh. Điều này rất
quan trọng để lên kế hoạch điều trị, như phẫu thuật hoặc xạ trị.
- **Phân đoạn cơ quan**: Tự động phân đoạn các cơ quan như gan, tim, hoặc não để hỗ trợ trong việc
chẩn đoán và theo dõi bệnh tật.
### c) Các phương pháp phân đoạn ảnh:
1. **Thresholding (Phương pháp ngưỡng)**:
- Đây là một kỹ thuật phân đoạn đơn giản dựa trên việc so sánh giá trị cường độ của các pixel với một
ngưỡng (threshold) nhất định. Các pixel có giá trị cao hơn ngưỡng sẽ được gán vào một lớp, và các pixel
có giá trị thấp hơn ngưỡng sẽ được gán vào lớp khác. Kỹ thuật này hiệu quả với hình ảnh có độ tương
phản cao giữa các vùng cần phân đoạn.
2. **Region-based Segmentation (Phân đoạn dựa trên vùng)**:
- **Region Growing (Tăng trưởng vùng)**: Bắt đầu từ một hoặc nhiều hạt giống ban đầu và mở rộng
vùng này bằng cách thêm các pixel lân cận có các thuộc tính tương tự.
- **Region Splitting and Merging (Chia tách và gộp vùng)**: Hình ảnh ban đầu được chia thành các
vùng nhỏ hơn dựa trên tiêu chí đồng nhất. Sau đó, các vùng tương tự nhau được gộp lại để tạo thành
các vùng lớn hơn.
3. **Edge-based Segmentation (Phân đoạn dựa trên biên)**:
- Sử dụng các kỹ thuật phát hiện biên như Sobel, Canny để xác định các đường biên giữa các đối tượng
trong hình ảnh. Các đường biên này sau đó được sử dụng để phân đoạn hình ảnh thành các vùng khác
nhau.
- **SegNet**: Một kiến trúc mạng sâu được thiết kế để phân đoạn ảnh theo từng pixel, sử dụng một
mạng nơ-ron tích chập với các bước up-sampling để khôi phục thông tin không gian chi tiết từ ảnh đầu
vào.
- **Ứng dụng phân đoạn ảnh trong y tế**: Được sử dụng để phân đoạn khối u, cơ quan, và các cấu trúc
giải phẫu từ hình ảnh y tế.
- **Các phương pháp phân đoạn ảnh**:
- Thresholding (Phương pháp ngưỡng)
- Region-based Segmentation (Phân đoạn dựa trên vùng)

- Edge-based Segmentation (Phân đoạn dựa trên biên).
Cạnh là gì?
Cạnh (đường viền) ảnh là một đặc trưng rất quan trọng do hệ thống thị giác của con người dựa trên
cạnh để nhận thức được đối tượng. • Việc dò tìm cạnh ảnh có thể dựa vào độ thay đổi của các giá trị
pixel, hay còn gọi là gradient của ảnh
Phương pháp dò cạnh có thể được chia làm 2 loại: – phụ thuộc hướng và – độc lập hướng. • Phương
pháp dò cạnh phụ thuộc hướng: sẽ dựa trên việc xác định gradient của ảnh theo các hướng x và y.
• Phát hiện cạnh được sử dụng rộng rãi trong ảnh

phân đoạn khi chúng ta muốn chia
hình ảnh thành các khu vực tương ứng với khác nhau
các đối tượng.
• Nếu chúng ta muốn trích xuất các đối tượng khác
nhau từ một
hình ảnh, chúng ta cần phát hiện cạnh.
• Sử dụng tính năng phát hiện cạnh, chúng ta có thể:
nhận dạng,
so sánh hình ảnh, đối tượng không được chấp nhận có
thể
LOẠI BỎ.
### Harris Detector và Sự Không Bất Biến với Phép Biến Đổi Tỷ Lệ
**Harris Detector** là một phương pháp phổ biến để phát hiện các điểm quan trọng (interest points)
trong hình ảnh. Nó sử dụng thông tin gradient của ảnh để phát hiện các góc (corners) bằng cách tính
toán một ma trận tự tương quan (autocorrelation matrix) trong các vùng nhỏ xung quanh mỗi pixel.
#### Lý do Harris Detector không bất biến với phép biến đổi tỷ lệ
Harris Detector không bất biến với phép biến đổi tỷ lệ (scale-invariant) vì nó sử dụng một cửa sổ
(window) cố định để tính toán các gradient và ma trận tự tương quan. Khi kích thước của đối tượng thay
đổi (do phép biến đổi tỷ lệ), cửa sổ cố định này không thể thích ứng với sự thay đổi về kích thước của
các cấu trúc trong hình ảnh. Cụ thể:
1. **Cửa sổ cố định**: Kích thước của cửa sổ gradient cố định, do đó khi kích thước của hình ảnh hoặc
đối tượng trong ảnh thay đổi, cửa sổ này không thể điều chỉnh để phù hợp với kích thước mới, dẫn đến
việc mất thông tin quan trọng hoặc nhiễu.
2. **Tính toán ma trận tự tương quan**: Ma trận tự tương quan dựa trên các gradient trong cửa sổ cố
định. Khi hình ảnh bị phóng to hoặc thu nhỏ, các gradient này không còn phản ánh chính xác các đặc
trưng của cấu trúc gốc, dẫn đến việc phát hiện góc không chính xác.
### Giải pháp: Scale-Invariant Feature Transform (SIFT)
Để giải quyết hạn chế của Harris Detector trong việc không bất biến với phép biến đổi tỷ lệ, người ta
phát triển các phương pháp như SIFT (Scale-Invariant Feature Transform). Ý tưởng chính để đạt được sự
bất biến với tỷ lệ bao gồm các bước sau:
1. **Phát hiện cực trị trong không gian tỷ lệ (scale-space)**:
- SIFT sử dụng một không gian tỷ lệ (scale-space) bằng cách áp dụng bộ lọc Gaussian với các giá trị
sigma khác nhau lên hình ảnh gốc để tạo ra một chuỗi các hình ảnh bị làm mờ (blurred images) ở các tỷ
lệ khác nhau.
- Sau đó, SIFT tính toán sự khác biệt của Gaussian (Difference of Gaussian - DoG) giữa các hình ảnh này
để phát hiện các điểm cực trị trong không gian tỷ lệ.
2. **Xác định tỷ lệ tối ưu cho mỗi điểm quan trọng**:
- Tại mỗi điểm cực trị, SIFT xác định tỷ lệ (scale) tối ưu bằng cách tìm các giá trị cực trị của DoG trong
không gian tỷ lệ.
- Điều này giúp xác định một kích thước cửa sổ thích hợp cho từng điểm quan trọng dựa trên kích
thước của cấu trúc trong hình ảnh.
3. **Mô tả đặc trưng bất biến với tỷ lệ**:
- SIFT tính toán các mô tả đặc trưng (feature descriptors) tại mỗi điểm quan trọng bằng cách sử dụng
gradient trong một vùng xung quanh điểm đó, với kích thước vùng phù hợp với tỷ lệ đã xác định.
- Điều này tạo ra các đặc trưng không phụ thuộc vào kích thước của hình ảnh hoặc đối tượng trong
hình ảnh.
### Tóm tắt
- **Harris Detector**: Không bất biến với phép biến đổi tỷ lệ vì sử dụng cửa sổ cố định để tính toán các
gradient và ma trận tự tương quan.
- **Giải pháp với SIFT**: Để đạt được sự bất biến với tỷ lệ, SIFT tạo ra một không gian tỷ lệ, phát hiện
các điểm cực trị trong không gian này, xác định tỷ lệ tối ưu cho mỗi điểm quan trọng, và tính toán các mô
tả đặc trưng trong vùng thích hợp với tỷ lệ đó.
Điều này giúp SIFT nhận diện và mô tả các điểm quan trọng một cách nhất quán và chính xác, bất kể sự
thay đổi về tỷ lệ của hình ảnh hoặc đối tượng trong hình ảnh.
Dưới đây là bảng mô tả input và output của các bài toán trong thị giác máy tính cho hai bài toán:
classification và object detection:
| Bài toán | Input | Output |
|--------------------|-------------------------|-------------------------------------------------------------|
| Classification | Một hình ảnh | Một nhãn duy nhất chỉ loại đối tượng hoặc cảnh trong hình ảnh
|
| Object Detection | Một hình ảnh | Các hộp giới hạn (bounding boxes) và nhãn tương ứng cho
mỗi đối tượng trong hình ảnh |
### Giải thích chi tiết:

#### Classification (Phân loại ảnh)
- **Input**:
- Một hình ảnh chứa một đối tượng hoặc một cảnh.
- **Output**:
- Một nhãn (label) duy nhất xác định loại đối tượng hoặc loại cảnh trong hình ảnh. Ví dụ, nếu hình ảnh
là của một con chó, đầu ra có thể là nhãn "chó".
#### Object Detection (Phát hiện đối tượng)
- **Input**:
- Một hình ảnh chứa một hoặc nhiều đối tượng.
- **Output**:
- Các hộp giới hạn (bounding boxes) xung quanh mỗi đối tượng được phát hiện trong hình ảnh. Mỗi
hộp giới hạn đi kèm với một nhãn chỉ loại đối tượng. Ví dụ, trong một hình ảnh có một con chó và một
con mèo, đầu ra sẽ bao gồm hai hộp giới hạn, một hộp xung quanh con chó với nhãn "chó" và một hộp
xung quanh con mèo với nhãn "mèo".
Hy vọng rằng bảng này đáp ứng yêu cầu của bạn về input và output của các bài toán trong thị giác máy
tính.
Để tính độ chính xác (Accuracy) của kết quả phân loại, chúng ta cần biết số lượng dự đoán đúng và
tổng số lượng ảnh. Công thức tính độ chính xác là:
\[ \text{Accuracy} = \frac{\text{Số lượng dự đoán đúng}}{\text{Tổng số lượng ảnh}} \]
Chúng ta sẽ tính tổng số lượng ảnh và số lượng dự đoán đúng dựa trên bảng dữ liệu đã cung cấp.
### Bảng Dữ liệu

| Số lượng ảnh | Tên lớp (class) đã biết trước (ground truth) | Mô hình dự đoán (predict) |
|--------------|----------------------------------------------|---------------------------|
| 25 | Cat | Cat |
| 10 | Cat | Dog |
|5 | Cat | Mouse |
| 35 | Dog | Cat |
| 15 | Dog | Dog |
| 10 | Mouse | Cat |
| 20 | Mouse | Dog |
| 30 | Mouse | Mouse |
### Tính tổng số lượng ảnh
Tổng số lượng ảnh = 25 + 10 + 5 + 35 + 15 + 10 + 20 + 30 = 150
### Tính số lượng dự đoán đúng
- Cat (ground truth: Cat, predict: Cat) => 25 ảnh đúng
- Dog (ground truth: Dog, predict: Dog) => 15 ảnh đúng
- Mouse (ground truth: Mouse, predict: Mouse) => 30 ảnh đúng
Tổng số lượng dự đoán đúng = 25 + 15 + 30 = 70
### Tính độ chính xác (Accuracy)
\[ \text{Accuracy} = \frac{70}{150} = 0.4667 \]
Vậy độ chính xác (Accuracy

Trong bài toán phân đoạn ảnh, việc sử dụng các đặc trưng khác nhau có thể cải thiện hiệu quả phân
đoạn. Hai cách biểu diễn phổ biến của ảnh là RGB và RGBXY. Dưới đây là sự khác biệt giữa hai cách
biểu diễn này:
### 1. RGB (Red, Green, Blue)
- **Đặc trưng**: RGB là không gian màu cơ bản của hình ảnh, trong đó mỗi pixel được biểu diễn bởi ba
giá trị tương ứng với cường độ của ba màu cơ bản: đỏ (Red), xanh lá (Green) và xanh dương (Blue).
- **Ứng dụng**: RGB được sử dụng rộng rãi trong các phương pháp xử lý ảnh và phân đoạn, bởi vì nó là
cách biểu diễn trực tiếp nhất của màu sắc mà mắt người có thể nhìn thấy.
- **Hạn chế**: RGB không cung cấp thông tin về vị trí không gian của các pixel, do đó trong một số bài
toán phân đoạn, nó có thể không đủ để phân biệt các vùng khác nhau khi màu sắc của chúng giống nhau
nhưng vị trí của chúng khác nhau.
### 2. RGBXY (Red, Green, Blue, X, Y)
- **Đặc trưng**: RGBXY là một mở rộng của không gian màu RGB, trong đó thêm hai thông tin về vị trí
không gian của pixel (X, Y). Trong đó, X là tọa độ ngang và Y là tọa độ dọc của pixel trong ảnh.
- **Ứng dụng**: RGBXY thường được sử dụng trong các bài toán phân đoạn ảnh mà trong đó thông tin
về vị trí không gian của các pixel là quan trọng. Điều này giúp phân biệt các vùng trong ảnh không chỉ
dựa trên màu sắc mà còn dựa trên vị trí của chúng.
- **Ưu điểm**: Việc kết hợp thông tin không gian với thông tin màu sắc giúp cải thiện độ chính xác của
phân đoạn, đặc biệt là khi các vùng có màu sắc tương tự nhau nhưng nằm ở vị trí khác nhau.
- **Hạn chế**: RGBXY tăng kích thước không gian đặc trưng, dẫn đến tăng độ phức tạp tính toán và yêu
cầu bộ nhớ cao hơn so với RGB.
### So sánh:
- **Thông tin không gian**: RGBXY cung cấp thêm thông tin về vị trí của pixel, trong khi RGB chỉ có thông
tin về màu sắc.
- **Độ chính xác**: RGBXY thường cho kết quả phân đoạn chính xác hơn so với RGB trong các bài toán
mà vị trí không gian của các pixel quan trọng.
- **Độ phức tạp**: RGBXY phức tạp hơn về mặt tính toán và yêu cầu bộ nhớ so với RGB, do có thêm hai
kênh thông tin (X, Y).
Trong thực tế, lựa chọn giữa RGB và RGBXY phụ thuộc vào yêu cầu cụ thể của bài toán phân đoạn và khả
năng tính toán của hệ thống.
Input và output của bài toán Image

Segmentation
Image Segmentation nếu được huấn luyện theo bài toán học có giám sát trong th ị
giác máy tính thì sẽ yêu cầu gán nhãn cho ảnh. Input của bài toán là một b ức ảnh
và output là một ma trận mask mà giá trị của từng pixel đã được gãn nhãn trên
đó.
Có 2 bài toán image segmentation chính:
 Semantic segmentation: Chúng ta phân đoạn (segment) các vùng ảnh theo
những nhãn khác nhau mà không phân biệt sự khác nhau giữa các đ ối
tượng trong từng nhãn. Ví dụ trong hình ảnh bên trái chúng ta phân bi ệt
được pixel nào thuộc về người và pixel nào thuộc về background. Tuy nhiên
trong bức ảnh xuất hiện 5 người, mức độ phân chia sẽ không xác định từng
pixel thuộc về người nào.
 Instance segmentation: Chúng ta phân đoạn các vùng ảnh chi ti ết đ ến t ừng
đối tượng trong mỗi nhãn. Ví dụ: ở hình ảnh bên phải đối với nhãn người sẽ
được phân chia chi tiết tới từng người 1, 2, … , 5.
Thị giác máy tính hoạt động giống như thị giác của con người, ngoại trừ việc con người có
khởi đầu thuận lợi hơn. Thị giác của con người có lợi thế về bối cảnh trong suốt cuộc đời để
rèn luyện cách phân biệt các vật thể, chúng ở khoảng cách bao xa, liệu chúng có đang
chuyển động hay có điều gì đó không ổn với hình ảnh.
Thị giác máy tính huấn luyện máy móc thực hiện các chức năng này, nhưng nó phải thực hiện
việc đó trong thời gian ngắn hơn nhiều nhờ máy ảnh, dữ liệu và thuật toán thay vì võng mạc, dây
thần kinh thị giác và vỏ não thị giác. Bởi vì một hệ thống được đào tạo để kiểm tra sản phẩm
hoặc theo dõi tài sản sản xuất có thể phân tích hàng nghìn sản phẩm hoặc quy trình trong một
phút, nhận thấy những khiếm khuyết hoặc vấn đề không thể nhận ra, nên nó có thể nhanh chóng
vượt qua khả năng của con người.
HOG (Histogram of Oriented Gradient) : là một phương pháp mô tả đặc trưng
Sử dụng gradient magnitude và gradient orientation để lưu thông tin ảnh. • Các toán tử HOG
được cài đặt bằng cách chia nhỏ một bức ảnh thành các vùng con(cells) • Mỗi cell,tính toán một
histogram về các hướng của gradients cho các điểm nằm trong cell. • Ghép các histogram lại với
nhau ta sẽ có một biểu diễn cho bức ảnh ban đầu.

Thị giác máy tính là một lĩnh vực trí tuệ nhân tạo

Uploaded by

Copyright:

Available Formats

You might also like

Thị giác máy tính là một lĩnh vực trí tuệ nhân tạo

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Thị giác máy tính là một lĩnh vực trí tuệ nhân tạo

Uploaded by

Copyright:

Available Formats

Hình ảnh kỹ thuật số là hình ảnh bao gồm các phần tử hình ảnh , còn được gọi là pixel

1. Cơ chế hoạt động:

### Đặc trưng thủ công (Hand-crafted Features):

1. **SIFT (Scale-Invariant Feature Transform)**:

2. **HOG (Histogram of Oriented Gradients)**:

### Đặc trưng học sâu (Deep Features):

1. **CNN Features (Convolutional Neural Network Features)**:

### Tóm tắt

- **Đặc trưng thủ công**:

- Ví dụ: SIFT, HOG.

- Được trích xuất tự động từ các mô hình học sâu.

- Ví dụ: CNN Features, Autoencoder Features.

Phân đoạn ảnh:

Phân đoạn ảnh là hoạt động của

**Ứng dụng trong Y tế:**

### c) Các phương pháp phân đoạn ảnh:

1. **Thresholding (Phương pháp ngưỡng)**:

2. **Region-based Segmentation (Phân đoạn dựa trên vùng)**:

3. **Edge-based Segmentation (Phân đoạn dựa trên biên)**:

- **Các phương pháp phân đoạn ảnh**:

- Thresholding (Phương pháp ngưỡng)

- Region-based Segmentation (Phân đoạn dựa trên vùng)

• Phát hiện cạnh được sử dụng rộng rãi trong ảnh

### Giải pháp: Scale-Invariant Feature Transform (SIFT)

1. **Phát hiện cực trị trong không gian tỷ lệ (scale-space)**:

2. **Xác định tỷ lệ tối ưu cho mỗi điểm quan trọng**:

3. **Mô tả đặc trưng bất biến với tỷ lệ**:

### Tóm tắt

| Bài toán | Input | Output |

### Giải thích chi tiết:

#### Object Detection (Phát hiện đối tượng)

- Một hình ảnh chứa một hoặc nhiều đối tượng.

\[ \text{Accuracy} = \frac{\text{Số lượng dự đoán đúng}}{\text{Tổng số lượng ảnh}} \]

### Bảng Dữ liệu

### Tính tổng số lượng ảnh

Tổng số lượng ảnh = 25 + 10 + 5 + 35 + 15 + 10 + 20 + 30 = 150

### Tính số lượng dự đoán đúng

- Cat (ground truth: Cat, predict: Cat) => 25 ảnh đúng

- Dog (ground truth: Dog, predict: Dog) => 15 ảnh đúng

- Mouse (ground truth: Mouse, predict: Mouse) => 30 ảnh đúng

Tổng số lượng dự đoán đúng = 25 + 15 + 30 = 70

### Tính độ chính xác (Accuracy)

\[ \text{Accuracy} = \frac{70}{150} = 0.4667 \]

Vậy độ chính xác (Accuracy

### 1. RGB (Red, Green, Blue)

### 2. RGBXY (Red, Green, Blue, X, Y)

Input và output của bài toán Image

Có 2 bài toán image segmentation chính:

You might also like

1. SIFT (Scale-Invariant Feature Transform):

2. HOG (Histogram of Oriented Gradients):

1. CNN Features (Convolutional Neural Network Features):

- Đặc trưng thủ công:

Ứng dụng trong Y tế:

1. Thresholding (Phương pháp ngưỡng):

2. Region-based Segmentation (Phân đoạn dựa trên vùng):

3. Edge-based Segmentation (Phân đoạn dựa trên biên):

- Các phương pháp phân đoạn ảnh:

1. Phát hiện cực trị trong không gian tỷ lệ (scale-space):

2. Xác định tỷ lệ tối ưu cho mỗi điểm quan trọng:

3. Mô tả đặc trưng bất biến với tỷ lệ: