Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 2

I.

GT & nêu vấn đề


Như cô và các bạn biết, hiện tại đang là kỉ nguyên 4.0, là kỉ nguyên của công nghệ thông tin, và sau đây
sẽ là kỉ nguyên của robot và trí tuệ nhân tạo. Một con robot hoàn hảo là một con robot có thể mô phỏng
hoàn hảo các hành vi của con người với độ chính xác, khéo léo hơn thế nữa. Vậy làm sao để nó thực hiện
được như vậy, trước hết ta phải dạy chúng bằng các bài toán nhận dạng.
Với sự phát triển của công nghệ camera, các hành vi, cử chỉ tay phức tạp (trong thể thao, trong công việc)
được ghi lại rõ ràng hơn, khiến cho bài toán nhận dạng trở nên cần thiết để robot có thể thực hiện chính
xác và mượt mà. Tuy nhiên không phải lúc nào cũng có thể ghi lại các hành vi như vậy, do đó không có
nhiều dữ liệu để dạy máy học như các phương pháp, công nghệ cũ.
 Cần thiết 1 công nghệ mới
 Công nghệ nhận dạng cử chỉ tay dựa theo khung xương sử dụng mạng nơ ron tăng cường và
phương pháp One-shot learning phù hợp với lượng dữ liệu ít nhưng vẫn đảm bảo độ chính xác.

1.1 GTTT
Trước đây đã có nhiều thuật toán nhận dạng, ví dụ nhận dạng bằng chiều sâu, bằng độ gập khớp hay
bằng quỹ đạo chuyển động, tuy nhiên độ chính xác không được cao, ở công nghệ này sử dụng thuật
toán nhận diện khung xương, vốn đã được chứng minh độ chính xác cao qua nhiều nghiên cứu khác
nhau.
Để tăng hiệu quả thuật toán nhận dạng bằng khung xương lên, ta sẽ áp dụng kết hợp với mạng nơron
tang cường, vốn là sự kết hợp của 2 mạng nơ ron khác nhau:
Mạng LSTM có các liên kết điều khiển phản hồi giúp tăng độ chính xác dùng để điều khiển
Mạng MANN với dung lượng lớn dùng làm bộ nhớ cho mạng
Mạng nơ ron tăng cường kết hợp bởi 2 mạng nơ ron trên và áp dụng thuật toán nhận dạng bằng
khung xương gọi tắt là GREN
1.2 GTPP
Như đã nói trên, công nghệ nhận dạng này áp dụng phương pháp One-shot learning để phù hợp với
lượng dữ liệu hạn chế hiện tại. One shot learning hay “học 1 lần” là 1 nhánh của machine learning,
đây là phương pháp dạy máy có giám sát mà mỗi mẫu (cử chỉ) chỉ dùng 1 vài, rất ít hay thậm chí là
1 bức ảnh để nhận dạng.
Từ đầu vào là 1 bức ảnh, chúng ta sử dụng một kiến trúc thuật toán CNN đơn giản để dự báo đó là hành
động gì.
Tuy nhiên nhược điểm của phương pháp này là chúng ta phải huấn luyện lại thuật toán thường xuyên khi
xuất hiện các mẫu (cử chỉ) mới.
1.3 Vấn đề
Khi nghiên cứu công nghệ nhận diện, chúng tôi đưa ra 3 vấn đề cần giải quyết:
- Vấn đề đầu tiên mà các bài toán nhận dạng mới luôn gặp phải đó là thiếu cơ sở dữ liệu, hoặc cơ
sở dữ liệu thiếu chính xác để xác định các tham số cho thuật toán nhận diện
- Vấn đề tiếp theo là do hạn chế của phương pháp One-shot learning, thường xuyên huấn luyện lại khi
có mẫu mới yêu cầu nhiều tham số riêng cho mỗi mẫu khác nhau, dẫn đến khó đồng bộ
- Cuối cùng, đó là hạn chế về tài nguyên, mạng nơ ron độ chính xác cao để nhận dạng thường có bộ
nhớ giới hạn, khi huấn luyện nhiều cơ sở dữ liệu lớn có thể mất các dữ liệu cũ

Bài nghiên cứu này đưa ra sự kết hợp thuật toán và phương pháp đã có để tạo ra công nghệ mới
nhằm xử lý các vấn đề gặp phải do các hạn chế về tài nguyên và phương pháp hiện tại. Dưới đây là
nguyên lý hoạt động cũng như chứng minh thực nghiệm của bài nghiên cứu.
II. Nguyên lý hoạt động mạng GREN
Ý tưởng mang nơ ron tăng cường GREN là sự kết hợp ưu điểm của 2 mạng nơ ron khác nhau, mạng
LSTM có vai trò điều khiển ( Clstm trong hình) và mạng MANN đóng vai trò là bộ nhớ (phần ở trên)
cùng với 2 đầu đọc và ghi
 Hình ảnh nhận vào là Xi được đánh số tương ứng yi như trên hình là input của mạng nơ ron, sau đó mạng
nơ ron điều khiển LSTM mã hóa thông tin nhận vào bằng hàm softmax(hi,ri) là hàm trung bình mũ, có
chức năng chuẩn hóa các giá trị đầu vào khác nhau thành các phân phối xác suất hi. Tín hiệu ri được
truyền đến đầu đọc để so sánh hi với các giá trị hi trước đó, nếu xác nhận dữ liệu vào không trùng khớp,
mạng nơ ron điều khiển LSTM sẽ truyền tín hiệu để ghi hi vào bộ nhớ ngoài( ở đây là MANN) và truyền
tiếp tín hiệu đọc ri+1, tín hiệu điều khiển cho qúa trình tiếp theo.
Trong hình là quá trình xử lý của mạng GREN lần đầu, dữ liệu mới sẽ được mã hóa và đưa vào mạng
MANN lần lượt, hàm softmax là thuật toán hiệu quả để áp dụng one shot learning do với 1 mẫu dữ liệu
chỉ có 1 input và đưa ra 1 kết quả h, tránh việc tạo ra nhiều kết quả với 1 mẫu khi đưa vào nhiều input.

You might also like