Tóm tắt

GoogLeNet, còn được gọi là Inception v1, là một mô hình mạng nơ-ron sâu (deep neural
network) được phát triển bởi nhóm nghiên cứu tại Google vào năm 2014 và được đưa vào
trong bài báo “ Going Deeper with Convolutions” và giành chiến thắng ở cuộc thi
ImageNet vào năm 2015. Đây là một trong những mô hình đột phá trong lĩnh vực học sâu
và đã đóng góp quan trọng vào sự phát triển của công nghệ nhận dạng hình ảnh.
Mục tiêu chính của GoogLeNet là xây dựng một mô hình mạng nơ-ron sâu có khả năng
nhận dạng hình ảnh chính xác và hiệu quả. Để đạt được điều này, GoogLeNet sử dụng
một kiến trúc đặc biệt được gọi là kiến trúc Inception.
Khối Inception:
o Khối Inception sẽ bao gồm 4 nhánh song song. Các bộ lọc kích thước lần lượt
là 1x1, 3x3, 5x5 được áp dụng trong Inception Module giúp trích lọc được đa dạng đặc trưng
trên những vùng nhận thức có kích thước khác nhau.
o Ở đầu các nhánh 1, 2, 4 từ trên xuống, phép tích chập 1x1 được sử dụng trên từng điểm ảnh như
một kết nối fully connected nhằm mục đích giảm độ sâu kênh và số lượng tham số của mô hình.
Ví dụ: Ở block trước chúng ta có kích thước width x height x channels = 12 x 12 x 256 .
Sau khi áp dụng 32 bộ lọc kích thước 1x1 sẽ không làm thay đổi width, height và độ sâu giảm
xuống 32, output shape lúc này có kích thước là 12 x 12 x 32. Ở layer liền sau, khi thực hiện
tích chập trên toàn bộ độ sâu, chúng ta chỉ khởi tạo các bộ lọc có độ sâu 32 thay vì 256. Do đó đó
số lượng tham số giảm đi một cách đáng kể.
o Nhánh thứ 3 từ trên xuống chúng ta giảm chiều dữ liệu bằng một layer max-pooling kích thước
3x3 và sau đó áp dụng bộ lọc kích thước 1x1 để thay đổi số kênh.
o Các nhánh áp dụng padding và stride sao cho đầu ra có cùng kích cỡ chiều dài và chiều rộng.
Cuối cùng ta concatenate toàn bộ kết quả đầu ra của các khối theo kênh để thu được output có
kích thước bằng với input.
Khối Inception được lặp lại 7 lần trong kiến trúc Inception-V1. Toàn bộ mạng bao gồm
22 Layers, lớn hơn gần gấp đôi so với VGG-16. Nhờ áp dụng tích chập 1x1 giúp tiết
kiệm số lượng tham số xuống chỉ còn 5 triệu, ít hơn gần 27 lần so với VGG-16.
Kiến trúc Inception của GoogLeNet được xây dựng dựa trên các khối Inception. Mỗi khối
Inception bao gồm một tập hợp các lớp tích chập với các kích thước khác nhau và sau đó
kết hợp kết quả từ các lớp này. Ý tưởng chính của kiến trúc Inception là kết hợp thông tin
từ các kích thước khác nhau của đặc trưng trong ảnh để tạo ra một biểu diễn tổng thể tốt
hơn.
Một điểm đặc biệt của GoogLeNet là việc sử dụng các lớp tích chập có kích thước nhỏ
(1x1, 3x3, 5x5) để giảm số lượng tham số và tính toán. Điều này giúp mô hình trở nên
hiệu quả hơn và giảm nguy cơ overfitting. Ngoài ra, GoogLeNet cũng sử dụng kỹ thuật
kết hợp (ensembling) để kết hợp các mô hình nhỏ thành một mô hình lớn, tăng cường khả
năng nhận dạng và chính xác của mạng.
GoogLeNet đã đạt được kết quả ấn tượng trong các cuộc thi nhận dạng hình ảnh, như
ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Với kiến trúc độc đáo
và kỹ thuật kết hợp thông minh, GoogLeNet đã trở thành một trong những mô hình quan
trọng và được sử dụng rộng rãi trong lĩnh vực học sâu và nhận dạng hình ảnh.

Tóm tắt

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tóm tắt

Uploaded by

Copyright:

Available Formats

GoogLeNet, còn được gọi là Inception v1, là một mô hình mạng nơ-ron sâu (deep neural

You might also like