Download as pdf or txt
Download as pdf or txt
You are on page 1of 7

Mạng nơ-ron

Mạng nơ-ron
Bởi:
Wiki Pedia

Theo nghĩa sinh học, mạng nơ-ron là một tập hợp các dây thần kinh kết nối với nhau.
Ngày nay, thuật ngữ này còn dùng để chỉ mạng nơ-ron nhân tạo, cấu thành từ các nơ-ron
nhân tạo. Do đó thuật ngữ 'mạng nơ-ron' xác định hai khái niệm phân biệt:

1. Mạng nơ-ron sinh học là một mạng lưới (plexus) các nơ-ron có kết nối hoặc có
liên quan về mặt chức năng trực thuộc hệ thần kinh ngoại biên (peripheral
nervous system) hay hệ thần kinh trung ương (central nervous system). Trong
ngành thần kinh học (neuroscience), nó thường được dùng để chỉ một nhóm nơ-
ron thuộc hệ thần kinh là đối tượng của một nghiên cứu khoa học nhất định.
2. Mạng nơ-ron nhân tạo được thiết kế để mô hình một số tính chất của mạng nơ-
ron sinh học, tuy nhiên, khác với các mô hình nhận thức, phần lớn các ứng
dụng lại có bản chất kỹ thuật, .

Sơ đồ đơn giản về một mạng nơ-ron nhân tạo

Xin xem các bài tương ứng để có được thông tin chi tiết về mạng nơ-ron thần kinh hay
mạng nơ-ron nhân tạo. Bài này chỉ tập trung vào mối quan hệ giữa hai khái niệm này.

Đặc điểm

Thông thường, một mạng nơ-ron bao gồm một hoặc nhiều nhóm các nơ-ron được kết
nối vật lý với nhau hoặc có liên quan với nhau về chức năng. Một nơ-ron đơn có thể
được nối với nhiều nơ-ron khác và tổng số nơ-ron và kết nối trong một mạng có thể
là một giá trị cực kỳ lớn. Các kết nối, gọi là các khớp thần kinh (synapses), thường
nối từ các axon tới các tế bào tua gai thần kinh (dendrite), tuy có thể có các vi mạch
dendrodentritic [Arbib, tr.666] và các kết nối khác. Ngoài tín hiệu điện, còn có các dạng
tín hiệu khác phát sinh từ việc khuyếch tán các chất dẫn truyền xung động thần kinh
(neurotransmitter). Chúng có ảnh hưởng đối với tín hiệu điện. Do vậy, cũng như các
mạng sinh học khác, mạng nơ-ron vô cùng phức tạp. Trong khi hiện nay, dù chưa đạt

1/7
Mạng nơ-ron

được một mô tả chi tiết nào về hệ thần kinh , người ta vẫn ngày càng hiểu rõ hơn về các
cơ chế cơ bản.

Trí tuệ nhân tạo và Mô hình nhận thức (cognitive modelling) cố gắng giả lập một số tính
chất của mạng nơ-ron. Tuy các kỹ thuật của hai ngành là tương tự, Trí tuệ nhân tạo có
mục tiêu giải quyết các bài toán cụ thể, trong khi ngành kia hướng tới việc xây dựng các
mô hình toán học của các hệ thần kinh sinh học.

Trong ngành Trí tuệ nhân tạo, mạng nơ-ron đã được áp dụng thành công trong các lĩnh
vực nhận dạng tiếng nói, xử lý ảnh và điều khiển thích nghi, để xây dựng các agent phần
mềm (software agent) (trong trò chơi điện tử và máy tính) hoặc robot tự hành. Hầu hết
các mạng nơ-ron nhân tạo hiện được dùng cho trí tuệ nhân tạo đều dựa trên lý thuyết
điều khiển, tối ưu hóa, và ước lượng thống kê.

Ngành Mô hình nhận thức nghiên cứu mô hình toán học hoặc vật lý của hoạt động của
hệ thần kinh; từ mức độ nơ-ron (ví dụ, mô hình cung phản xạ thần kinh tủy sống đối
với kích thích), tới mức độ đám nơ-ron (ví dụ, mô hình sự giải phóng và tác dụng của
dopamine trong các hạch thần kinh căn bản), rồi tới mức cơ thể sống hoàn chỉnh (ví dụ,
mô hình hành vi phản xạ của cơ thể sống đối với kích thích).

Bộ não, mạng nơ-ron và máy tính

Trong lịch sử, bộ não đã từng được xem là một dạng máy tính, và ngược lại. Tuy nhiên,
điều này chỉ đúng theo nghĩa rộng nhất. Máy tính không phải là mô hình của bộ não
(mặc dù có thể mô tả một quá trình suy luận logic như là một chương trình máy tính,
hoặc có thể kích thích não bằng một cái máy tính) do chúng đã không được chế tạo với
mục đích này.

Tuy nhiên, từ xưa, các mạng nơ-ron dùng trong trí tuệ nhân tạo đã được xem là các mô
hình đơn giản của hoạt động thần kinh trong não. Một chủ đề của các nghiên cứu hiện
nay trong ngành thần kinh học lý thuyết là câu hỏi: mạng nơ-ron cần phức tạp đến đâu
và cần có những tính chất gì để có thể tái tạo cái gì đó giống như trí thông minh động
vật.

Mạng nơ-ron và Trí tuệ nhân tạo

Nền tảng

Các mô hình mạng nơ-ron trong trí tuệ nhân tạo thường được gọi là các mạng nơ-ron
nhân tạo; chúng thực chất là các mô hình toán học đơn giản định nghĩa một hàm f : X
->Y. Từ mạng được sử dụng vì hàm này phân rã được thành các thành phần đơn giản
hơn kết nối với nhau.

2/7
Mạng nơ-ron

Một loại mô hình mạng nơ-ron cụ thể tương ứng với một lớp hàm như vậy. Khả năng
học là điều thu hút nhiều quan tâm nhất tới mạng nơ-ron.

Cho trước một bài toán cụ thể để giải quyết, và một lớp các hàm F, việc học có nghĩa là
sử dụng một tập các quan sát để tìm hàm f^* \in F giải được bài toán một cách tốt nhất.

Việc đó đòi hỏi định nghĩa một hàm chi phí C : F ->{R} sao cho, với lời giải tối ưu f * ,

Hàm chi phí C là một khái niệm quan trọng trong học máy, do nó là một phép đo khoảng
cách tới lời giải tối ưu cho bài toán cần giải quyết. Các thuật toán học tìm kiếm trong
không gian lời giải để được một hàm có chi phí nhỏ nhất có thể.

Các loại học

Có ba kiểu học chính, mỗi kiểu mẫu tương ứng với một nhiệm vụ học trừu tượng. Đó là
học có giám sát, học không có giám sát và học tăng cường. Thông thường, loại kiến trúc
mạng nào cũng có thể dùng được cho các nhiệm vụ trên.

Học có giám sát

Trong học có giám sát, ta được cho trước một tập ví dụ gồm các cặp

và mục tiêu là tìm một hàm f (trong lớp các hàm được phép) khớp với các ví dụ. Nói
cách khác, ta muốn tìm ánh xạ mà dữ liệu đầu vào đã hàm ý, với hàm chi phí đo độ
không khớp giữa ánh xạ của ta và dữ liệu.

Học không có giám sát

Trong học không có giám sát, ta được cho trước một số dữ liệu x, và hàm chi phí cần
được cực tiểu hóa có thể là một hàm bất kỳ của dữ liệu x và đầu ra của mạng, f. Hàm
chi phí được quyết định bởi phát biểu của bài toán. Phần lớn ứng dụng nằm trong vùng
các bài toán ước lượng như mô hình hóa thống kê, nén, lọc (filtering), blind source
seperation và phân mảnh (clustering).

Học tăng cường

Trong học tăng cường, dữ liệu x thường không được cho trước mà được tạo ra trong
quá trình một agent tương tác với môi trường. Tại mỗi thời điểm t, agent thực hiện hành
động yt và môi trường tạo một quan sát xt và một chi phí tức thời ct, theo một quy trình

3/7
Mạng nơ-ron

động nào đó (thường là không được biết). Mục tiêu là tìm một sách lược lựa chọn hành
động để cực tiểu hóa một chi phí dài hạn nào đó, nghĩa là chi phí tích lũy mong đợi. Quy
trình động của môi trường và chi phí dài hạn cho mỗi sách lược thường không được biết,
nhưng có thể ước lượng được. Mạng nơ-ron nhân tạo thường được dùng trong học tăng
cường như là một phần của thuật toán toàn cục. Các bài toán thường được giải quyết
bằng học tăng cường là các bài toán điều khiển, trò chơi, và các nhiệm vụ quyết định
tuần tự (sequential decision making) khác.

Các thuật toán học

Có nhiều thuật toán có thể dùng cho việc huấn luyện các mô hình mạng nơ-ron; hầu hết
có thể được xem là áp dụng trực tiếp của lý thuyết tối ưu hóa và ước lượng thống kê

Phần lớn các thuật toán huấn luyện mạng nơ-ron sử dụng một kiểu xuống dốc (gradient
descent - tiến dần tới cực tiểu địa phương) nào đó. Điều này được thực hiện bằng cách
lấy đạo hàm của hàm chi phí theo các tham số của mạng và thay đổi các tham số đó theo
một hướng được tính toán theo độ dốc (gradient-related direction) để tiến dần tới cực
tiểu địa phương của hàm chi phí.

Các phương pháp thường dùng cho huấn luyện mạng nơ-ron là: phương pháp tiến hóa,
giải thuật luyện kim (simulated annealing), expectation maximisation (cực đại hóa kỳ
vọng) và các phương pháp không tham số (non-parametric methods). Xem thêm bài Học
máy.

Các tính chất lý thuyết

Năng lực

Một số mô hình lý thuyết của mạng nơ-ron đã được phân tích để tính toán một số tính
chất, chẳng hạn khả năng lưu trữ tối đa, độc lập với các thuật toán học. Nhiều kỹ thuật
ban đầu được phát triển để nghiên cứu các hệ từ trường nhiễu (disordered magnetic
systems (spin glasses)) đã được áp dụng thành công cho các kiến trúc mạng nơ-ron
đơn giản, chẳng hạn mạng perceptron. Công trình nghiên cứu có ảnh hưởng lớn của E.
Gardner và B. Derrida đã cho thấy nhiều tính chất thú vị về các perceptron với các trọng
số có giá trị là số thực, trong khi nghiên cứu sau này của W. Krauth và M. Mezard đã
mở rộng các nguyên lý này cho các trọng số có giá trị 0 hoặc 1.

Các loại mạng nơ-ron nhân tạo

Perceptron một lớp

Perceptron nhiều lớp

Mạng bán kính-tâm

4/7
Mạng nơ-ron

Support vector machines

Committee machines

Bản đồ tự điều chỉnh

Máy thống kê

Xem bài mạng nơ-ron nhân tạo để có thông tin về nhiều dạng mạng nơ-ron.

Mạng nơ-ron và ngành thần kinh học

Thần kinh học lý thuyết và tính toán quan tâm đến các phân tích lý thuyết và mô hình
tính toán của các hệ thần kinh sinh học. Do các hệ thần kinh có liên quan mật thiết tới
các quá trình nhận thức và ứng xử, ngành này còn liên quan chặt chẽ tới mô hình hóa
hành vi và nhận thức.

Mục tiêu của ngành là xây dựng mô hình của các hệ thần kinh sinh học để tìm hiểu cơ
chế hoạt động của các hệ thống sinh học. Để đạt được hiểu biết này, các nhà thần kinh
học cố gắng xây dựng một mối liên hệ giữa dữ liệu về các quá trình sinh học quan sát
được, các cơ chế sinh học cho xử lý thần kinh với việc học (các mô hình mạng nơ-ron
sinh học) và lý thuyết (lý thuyết học bằng thống kê và lý thuyết thông tin).

Các loại mô hình

Ngành thần kinh học sử dụng nhiều mô hình tại nhiều mức độ trừu tượng khác nhau và
mô hình các khía cạnh khác nhau của các hệ thần kinh. Từ các mô hình hành vi ngắn
hạn của từng nơ-ron, qua các mô hình phát sinh động lực cho các mạch nơ-ron từ tương
tác giữa các nơ-ron cá thể, tới các mô hình phát sinh ứng xử từ các mô đun thần kinh
trừu tượng đại diện cho các hệ thống con hoàn chỉnh. Các mô hình này còn bao gồm các
mô hình về plasticity ngắn hạn và dài hạn của các hệ thần kinh và mối liên quan của nó
tới việc học và ghi nhớ, từ mức một nơ-ron tới mức hệ thống.

Các nghiên cứu hiện nay

Trong khi hầu hết các nghiên cứu ban đầu quan tâm đến các tính chất về điện của các
nơ-ron, một phần đặc biệt quan trọng trong các nghiên cứu gần đây là sự tìm hiểu vai trò
của các neuromodulators chẳng hạn dopamine, acetylcholine, và serotonin đối với hành
vi và học tập.

5/7
Mạng nơ-ron

Tham khảo

• Peter Dayan, L.F. Abbott ({{{Year}}}). Theoretical Neuroscience. MIT Press.


{{{ID}}}.
• Wulfram Gerstner, Werner Kistler ({{{Year}}}). Spiking Neuron
Models:Single Neurons, Populations, Plasticity. Cambridge University Press.
{{{ID}}}.

Lịch sử khái niệm mạng nơ-ron

Khái niệm mạng nơ-ron được bắt đầu vào cuối thập kỷ 1800 khi người ta cố gắng mô
tả hoạt động của trí tuệ con người. Ý tưởng này bắt đầu được áp dụng cho các mô hình
tính toán từ mạng Perceptron.

Đầu thập kỷ 1950 Friedrich Hayek là người đầu tiên khẳng định ý tưởng về trật tự tự
phát trong não xuất phát từ các mạng phân tán gồm các đơn vị đơn giản (nơ-ron). Cuối
thập kỷ 1940, Donnald Hebb đưa ra giả thuyết đầu tiên về một cơ chế thần kinh mềm
dẻo (neural plasticity), Hebbian learning (???). Hebbian learning được coi là một quy
tắc 'điển hình' của học không có giám sát. Nó (và các biến thể) là mô hình thời kỳ đầu
của long term potentiation (tạo tiềm lực dài hạn).

Perceptron là một bộ phân loại tuyến tính dành cho việc phân loại dữ liệu x \in R^n xác
định bằng các tham số w \in R^n, b \in R và một hàm đầu ra f = w'x + b. Các tham số
của nó được thích nghi với một quy tắc tùy biến (ad-hoc) tương tự với xuống dốc ngẫu
nhiên (stochastic steepest gradient descent). Perceptron chỉ có thể phân loại hoàn hảo
một tập dữ liệu mà các lớp khác nhau là phân tách tuyến tính (linearly separable) trong
không gian đầu vào. Nó thường thất bại hoàn toàn đối với dữ liệu không chia tách được.
Sự phát triển của thuật toán này ban đầu đã tạo ra một số hứng khởi, phần vì mối quan
hệ của nó đối với các cơ chế sinh học. Sau này, phát hiện về điểm yếu này đã làm cho
các mô hình Perceptron bị bỏ mặc cho đến khi các mô hình phi tuyến được đưa ra.

Cognitron (1975) là một mạng nơ-ron đa tầng thời kỳ đầu với một thuật toán huấn luyện.
Các chiến lược thần kinh khác nhau sẽ khác nhau về cấu trúc thực sự của mạng và các
phương pháp thiết lập trọng số cho các kết nối. Mỗi dạng có các ưu điểm và nhược điểm
riêng. Mạng có thể lan truyền thông tin chỉ theo một hướng, hoặc thông tin có thể được
đẩy đi đẩy lại cho đến khi tại một nút xuất hiện sự tự kích hoạt và mạng sẽ dừng tại một
trạng thái kết thúc. Khả năng truyền dữ liệu hai chiều giữa các nơ-ron/nút còn được sử
dụng trong mạng Hopfield (1982), và sự chuyên hóa các tầng nút này cho các mục đích
cụ thể đã được đưa ra trong mạng nơ-ron lai (hybrid neural network) đầu tiên.

Giữa thập kỷ 1980, xử lý phân tán song song (parallel distributed processing) trở nên
một chủ đề thu hút được nhiều quan tâm dưới cái tên connectionism.

6/7
Mạng nơ-ron

Mạng truyền ngược (backpropagation) có lẽ đã là nguyên nhân chính của sự tái xuất của
mạng nơ-ron từ khi công trình "Learning Internal Representations by Error Propagation"
(học các biểu diễn bên trong bằng cách lan truyền lỗi) được xuất bản năm 1986. Mạng
truyền ngược ban đầu sử dụng nhiều tầng, mỗi tầng gồm các đơn vị tổng-trọng-số có
dạng f = g(w'x + b), trong đó g là một hàm sigmoid. Huấn luyện được thực hiện theo
kiểu xuống dốc ngẫu nhiên. Việc sử dụng quy tắc tính nguyên hàm cho hàm hợp (chain
rule) khi tính toán các thay đổi thích hợp cho các tham số dẫn đến một thuật toán có vẻ
'truyền ngược lỗi'. Đó là nguồn gốc của thuật ngữ truyền ngược. Tuy nhiên, về bản chất,
đây chỉ là một dạng xuống dốc. Việc xác định các tham số tối ưu cho một mô hình thuộc
dạng này không đơn giản, không thể dựa vào các phương pháp xuống dốc để có được
lời giải tốt mà không cần một xuất phát điểm tốt. Ngày nay, các mạng có cùng kiến trúc
với mạng truyền ngược được gọi là các mạng Perceptron đa tầng. Thuật ngữ này không
hàm ý bất cứ giới hạn nào đối với loại thuật toán dùng cho việc học.

Mạng truyền ngược đã tạo ra nhiều hứng khởi và đã có nhiều tranh cãi về chuyện quy
trình học đó có thể được thực hiện trong bộ não hay không. Một phần vì khi đó chưa tìm
ra cơ chế truyền tín hiệu ngược. Nhưng lý do quan trọng nhất là chưa có một nguồn tín
hiệu 'dạy' hay tín hiệu 'đích' đáng tin cậy.

Ngày nay, các nhà thần kinh học đã thành công trong việc tìm ra mối liên hệ giữa học
tăng cường và hệ thống hưởng thưởng dopamine (dopamine system of reward). Tuy
nhiên, vai trò của nó và các neuromodulator khác vẫn đang được nghiên cứu.

7/7

You might also like