Neural Networks and Learning Machines by Simon O. Haykin-Pages-1-299

Machine Translated by Google
Mạng thần kinh và
Máy học
Ấn bản thứ ba
Simon Haykin
Đại học McMaster
Hamilton, Ontario, Canada
New York Boston San Francisco

London Toronto Sydney Tokyo Singapore Madrid
Thành phố Mexico Munich Paris Cape Town Hồng Kông Montreal
Dữ liệu Danh mục trong Nhà xuất bản của Thư viện Quốc hội
Haykin, Mạng nơron và máy học của Simon / Simon Haykin. —
xuất bản lần thứ 3.
P. cm.
Phiên bản của: Mạng nơ-ron. Xuất bản lần thứ 2, 1999.
Bao gồm tài liệu tham khảo và chỉ mục.

ISBN-13: 978-0-13-147139-9
ISBN-10: 0-13-147139-2 1. Mạng
thần kinh (Khoa học máy tính) 2. Bộ lọc thích ứng. I. Haykin, Simon
Mạng nơron. II. Tiêu đề.
QA76.87.H39 2008
006.3 --dc22
2008034079
Phó chủ tịch kiêm Giám đốc biên tập, ECS: Marcia J. Horton Phó tổng
biên tập: Alice Dworkin Giám sát / Trợ lý biên tập: Dolores Mars Trợ
lý biên tập: William Opaluch Giám đốc quản lý dự án dựa trên nhóm:
Vince O'Brien Tổng biên tập: Scott Disanno A / V Biên tập sản xuất:
Greg Dulles Giám đốc nghệ thuật: Jayne Conte Nhà thiết kế bìa: Bruce
Kenselaar Giám đốc sản xuất: Alan Fischer Người mua sản xuất: Lisa
McDowell Giám đốc tiếp thị: Tim Galligan
Bản quyền © 2009 của Pearson Education, Inc., Upper Saddle River, New Jersey 07458.
Sảnh Pearson Prentice. Đã đăng ký Bản quyền. Được in tại Hoa Kỳ. Ấn phẩm này được bảo vệ bởi Bản quyền và phải
có sự cho phép của nhà xuất bản trước mọi hành vi bị cấm sao chép, lưu trữ trong hệ thống truy xuất, hoặc truyền
tải dưới bất kỳ hình thức nào hoặc bằng bất kỳ phương tiện nào, điện tử, cơ khí, sao chụp, ghi âm, hoặc tương
tự. Để biết thông tin về (các) quyền, hãy viết thư cho: Phòng Quyền và Quyền.
Pearson® là nhãn hiệu đã đăng ký của Pearson plc
Pearson Education Ltd. Pearson Education Australia Pty. Limited

Pearson Education Singapore Pte. Ltd. Pearson Education North Asia Ltd.
Pearson Education Canada, Ltd. Pearson Educación de Mexico, SA de CV
Pearson Education – Japan Pearson Education Malaysia Pte. Ltd.
10 9 8 7 6 5 4 3 2 1
ISBN-13: 978-0-13-147139-9
ISBN-10: 0-13-147139-2
Gửi đến vợ tôi, Nancy, vì sự kiên nhẫn và lòng bao dung của cô ấy,
và
cho vô số nhà nghiên cứu về mạng nơ-ron vì những đóng góp ban đầu của họ, nhiều người
đánh giá cho các đầu vào quan trọng của họ và nhiều sinh viên tốt nghiệp của tôi vì sự
quan tâm đặc biệt của họ.
Trang này cố ý để trống

Nội dung
Lời nói đầu x
Giới thiệu 1
1. Mạng Neural là gì? 1
2. Bộ não con người 6
3. Mô hình của Neuron 10
4. Mạng thần kinh được xem dưới dạng đồ thị có hướng 15
5. Phản hồi 18
6. Kiến trúc mạng 21
7. Biểu diễn tri thức 24
số 8.
Quá trình học tập 34
9. Nhiệm vụ học tập 38
10. Kết luận 45
Ghi chú và Tài liệu tham khảo 46
Chương 1 Rosenblatt's Perceptron 47

Giới thiệu 47
1.1 1.2. Perceptron 48
1.3. Định lý hội tụ Perceptron 50
1.4. Mối quan hệ giữa Perceptron và Bayes Classifier cho một môi trường Gaussian 55
1.5. Thí nghiệm máy tính: Phân loại mẫu 60
1.6. Thuật toán Perceptron Batch 62
1.7. Tóm tắt và thảo luận 65
Vấn đề 66
Chương 2 Xây dựng mô hình thông qua hồi quy 68

Giới thiệu 68
2.1 2.2 Mô hình hồi quy tuyến tính: Xem xét sơ bộ 69
2.3 Ước lượng Posteriori tối đa của vectơ tham số 71
2.4 Mối quan hệ giữa ước tính bình phương nhỏ nhất được quy định hóa
và Ước tính MAP 76
2.5 Thí nghiệm máy tính: Phân loại mẫu 77
2.6 Nguyên tắc Độ dài Mô tả Tối thiểu 79
2.7 Cân nhắc về kích thước mẫu hữu hạn 82
2.8 Phương pháp biến công cụ 86
2.9 Tóm tắt và thảo luận 88

Vấn đề 89
v
vi Nội dung
Chương 3 Thuật toán bình phương tối thiểu 91 Giới thiệu

91 3.1 Cấu trúc lọc của thuật toán LMS 92 3.2
3.3 Tối ưu hóa không giới hạn: Đánh giá 94 3.4 Bộ

lọc Wiener 100 3.5 Thuật toán trung bình thấp nhất
102 3.6 Mô hình Markov phác họa độ lệch của thuật
toán LMS từ Bộ lọc Wiener 104
3.7 Phương trình Langevin: Đặc trưng của chuyển động Brown 106 3.8 Phương
pháp trung bình trực tiếp của Kushner 107 3.9 Lý thuyết học tập thống kê
LMS chotuyến
tham tính
số tốc độ3.11
110 học Thí
tập nghiệm
nhỏ 108máy
3.10 ThíII:
tính nghiệm
Phân máy tính
loại mẫu I: Dự3.12
112 đoánNhững
ưu điểm và hạn chế của Thuật toán LMS 113 3.13 Lịch trình ủ tốc độ học tập 115
3.14 Tóm tắt và thảo luận 117 Ghi chú và Tài liệu tham khảo 118 Vấn đề 119
Chương 4 Perceptron đa lớp 122 4.1 Giới thiệu

123 4.2học
Mộttrực
số sơ bộ 124
tuyến 126 4.3
4.4 Học theo
Thuật lô lan
toán và
truyền ngược 129 4.5 Vấn đề XOR 141 4.6
Heuristics để tạo thuật toán lan truyền ngược hoạt
động tốt hơn 144 4.7 Thí nghiệm máy tính: Phân loại
mẫu 150 4.8 Truyền lại và Phân biệt Quay lại 153
4.9 Hessian
tuyến và vai
155 tròĐiều
4.10 của khiển
nó trong việc
nhiệt học
tối ưu trực
và kiểm soát thích ứng tốc độ học 157
4.11 Tổng quát hóa 164 4.12 Tính gần đúng của các chức năng 166 4.13 Xác thực chéo
171 4.14 Điều chỉnh độ phức tạp và cắt tỉa mạng 175 4.15 Những điểm mạnh và hạn chế
của Học truyền ngược 180 4.16 Học tập có giám sát Được xem như một vấn đề tối ưu
hóa 186 4.17 Mạng hợp pháp 201 4.18 Lọc phi tuyến 203 4.19 Vấn đề học tập quy mô
nhỏ so với quy mô lớn 209 4.20 Tóm tắt và thảo luận 217 Ghi chú và tài liệu tham
khảo 219 Vấn đề 221
Chương 5 Phương pháp hạt nhân và mạng hàm cơ sở hướng tâm 230 5.1 5.2 Định lý
Cover về
Giới
khảthiệu
năng 230
tách biệt của các mẫu 231 5.3 Bài toán nội suy 236 5.4 Mạng
cơ sở hướng tâm 239 5.5 K-Means Clustering 242 5.6 Ước tính bình phương nhỏ
nhất đệ quy của vectơ trọng số 245 5.7 Quy trình học kết hợp cho mạng RBF 249
5.8 Thí nghiệm máy tính: Phân loại mẫu 250 5.9 Giải thích các đơn vị ẩn Gaussian
252
Nội dung vii
5.10 Hồi quy hạt nhân và mối liên quan của nó với mạng RBF 255
5.11 Tóm tắt và thảo luận 259 Ghi chú và tài liệu tham khảo 261
Vấn đề 263
Chương 6 Máy vectơ hỗ trợ 268 6.1 Giới thiệu 268

6.2 Siêu
tuyến
phẳng
tính
tối269
ưu 6.3
cho Siêu
các mẫu
phẳng
phân
tối
tách
ưu cho
các mẫu không thể tách rời 276 6.4 Máy vectơ hỗ trợ được xem như
một máy nhân 281 6.5 Thiết kế máy vectơ hỗ trợ 284 6.6 Vấn đề
XOR 286 6.7 Thí nghiệm máy tính: Phân loại mẫu 289 6.8 Hồi quy: Cân
nhắc độ chắc chắn 289 6.9 Giải pháp tối ưu cho vấn đề hồi quy tuyến
tính 293 6.10 Định lý biểu diễn và các vấn đề liên quan 296 6.11 Tóm
tắt và thảo luận 302 Ghi chú và tham khảo 304 Vấn đề 307
Chương 7 Lý thuyết điều tiết 313 7.1 Giới

thiệu 313
có vị
7.2thế
Cáctốt
điều
314
kiện
7.3 của
Lý thuyết
Hadamard
điều
để
tiết của Tikhonov 315 7.4 Mạng điều tiết 326 7.5 Mạng
chức năng cơ bản tổng quát 327 7.6 Công cụ ước tính
bình phương thấp nhất được điều tiết hóa: Xem lại 331
7.7 Điều tiết hóa 7.8 Ước lượng tham số điều hòa 336 7.9
Học bán giám sát 342 7.10 Điều tiết đa dạng: Xem xét sơ bộ 343
7.11 Các biểu hiện có thể phân biệt 345 7.12 Lý thuyết điều335
hòa
tổng quát 348 7.13 Lý thuyết đồ thị phổ 350 7.14 Định lý đại
diện tổng quát Phân loại Sử dụng Học tập bán giám sát 356 7.17
Tóm tắt và Thảo luận 359 Ghi chú và Tài liệu tham khảo 361 Vấn
đề 363
Chương 8 Phân tích các thành phần chính 367

8.1 Giới thiệu 367 8.2
Nguyên 368
tắc 8.3
tự tổ chức
Phân tích tính năng tự tổ
chức 372
Lý 8.4 Phânnhiễu
thuyết tích loạn
thành373
phần chính:
8.5
Eigenfilter tối đa dựa trên Hebbian 383 8.6 Phân tích thành phần
chính dựa trên Hebbian 392 8.7 Nghiên cứu điển hình: Mã hóa hình
ảnh 398 8.8 Phân tích thành phần chính của nhân 401 8.9 Các vấn
đề cơ bản liên quan đến mã hóa hình ảnh tự nhiên 406 8.10 Thuật
toán Hebbian của nhân 407 8.11 Tóm tắt và thảo luận 412 Ghi chú
và tham khảo 415 Vấn đề 418
viii Nội dung
Chương 9 Bản đồ tự tổ chức 425 Giới thiệu

425 9.1
9.2 Hai mô hình ánh xạ đối tượng cơ bản 426 Bản
bản đồ đồ
đốitự
tượng
tổ chức
437 428
9.4 9.3 Các thuộc tính của
9.5 Thí nghiệm máy tính I: Disentangling Lattice Dynamics Sử dụng SOM 445 9.6 Bản
đồ ngữ cảnh 447 9.7 Lượng tử hóa vectơ phân cấp 450 9.8 Bản đồ tự tổ chức nhân 454
9.9 Thí nghiệm máy tính II: Disentangling Lattice Dynamics Sử dụng
Kernel SOM 462

9.10 Mối quan hệ giữa Kernel SOM và Kullback – Leibler Divergence 464 9.11 Tóm tắt
và Thảo luận 466 Ghi chú và Tham khảo 468 Vấn đề 470
Chương 10 Mô hình học tập lý thuyết-thông tin 475 10.1 Giới thiệu
476 10.2 Entropy 477 10.3 Nguyên lý Entropy cực đại 481 10.4 Thông
tin tương hỗ 484
10,5 Kullback – Leibler Phân kỳ 486 10,6

Công thức 489 10,7 Thông tin lẫn nhau như
một chức năng mục tiêu cần được tối ưu hóa 493 10,8 Nguyên tắc thông tin
lẫn nhau tối đa 494 10,9 Giảm thông tin và dự phòng 499 10,10 Đặc điểm kết
hợp không gian 501 10,11 Tính năng kết hợp không gian 504 10,12 Phân tích
các thành phần độc lập 508 10.13 Mã hóa hình ảnh tự nhiên và so sánh với
mã hóa ICA 514 10.14 Học theo độ dốc tự nhiên để phân tích các thành phần
độc lập 516 10.15 Ước tính khả năng tối đa cho phân tích các thành phần
độc lập 526 10.16 Học Entropy tối đa để tách nguồn mù 529 10.17 Tối đa hóa
Negentropy cho các thành phần độc lập Phân tích 534 10.18 Phân tích các thành
phần độc lập gắn kết 541 10.19 Lý thuyết về độ méo tốc độ và nút thắt cổ chai thông
tin 549 10.20 Biểu diễn đa dạng tối ưu của dữ liệu 553 10.21 Thử nghiệm máy tính:
Phân loại mẫu 560 10.22 Tóm tắt và thảo luận 561 Ghi chú và tham khảo 564 Vấn đề 572
Chương 11 Phương pháp ngẫu nhiên bắt nguồn từ cơ học thống kê 579 11.1 Giới
thiệu 580 11.2 Cơ học thống kê 580 11.3 Chuỗi Markov 582
11,4 Thuật toán Metropolis 591

11,5 Ủ mô phỏng 594 11,6 Lấy mẫu
Gibbs 596 11,7 Máy Boltzmann 598
11,8 Niềm tin Logistic 604 11,9
Niềm tin Sâu sắc 606 11,10 Ủ xác
định 610
Nội dung ix
11.11 Tương tự của việc ủ xác định với thuật toán tối đa hóa kỳ vọng 616
11.12 Tóm tắt và thảo luận 617 Ghi chú và tài liệu tham khảo 619 Vấn
đề 621
Chương 12 Lập trình động 627 12.1 Giới thiệu

627 12.2 Quy trình quyết định Markov 629 12.3
Tiêu chí tối ưu của Bellman 631 12.4 Lặp lại
chính sách 635 12.5 Lặp lại giá trị 637 12.6
Lập trình động gần đúng: Phương pháp trực tiếp
642 12.7 Học tạm thời-khác biệt 643 12.8 Q-
Learning 648 12.9 Lập trình động gần đúng: Phương pháp gián tiếp
652 12.10 Đánh giá chính sách bình phương tối thiểu 655 12.11 Lặp
lại chính sách gần đúng 660 12.12 Tóm tắt và thảo luận 663 Ghi chú
và tài liệu tham khảo 665 Vấn đề 668
Chương 13 Neurodynamics 672

13,1 Giới thiệu 672 13,2
Hệ thống động 674 13,3 Tính
ổn định của các trạng thái cân bằng 678
13,4 Điểm thu hút 684 13,5 Mô hình thần
kinh động lực học 686 13,6 Thao tác các
yếu tố thu hút như một mô hình mạng lặp lại 689
13,7 Mô hình Hopfield 690 13,8 Định lý
Cohen – Grossberg 703 13,9 Brain-State-In-A- Mô
hình hộp 705 13.10 Thu hút kỳ lạ và sự hỗn loạn
711 13.11 Tái tạo động của một quá trình kỳ lạ
716 13.12 Tóm tắt và thảo luận 722 Ghi chú và
tham khảo 724 Vấn đề 727
Chương 14 Bộ lọc Bayse để ước tính trạng thái của các hệ thống động 731 14,1 Giới thiệu
731 14,2 Mô hình không gian-trạng thái 732 14,3 Bộ lọc Kalman 736 14,4 Bộ lọc phân kỳ-
hiện tượng và bộ lọc căn bậc hai 744 14,5 Bộ lọc Kalman mở rộng 750 14,6 Bộ lọc Bayesian
755 14,7 Bộ lọc Kalman khối : Xây dựng dựa trên Bộ lọc Kalman 759 14,8 Bộ lọc hạt 765
14,9 Thí nghiệm trên máy tính: Đánh giá so sánh giữa Kalman và hạt mở rộng
Bộ lọc 775
14.10 Lọc Kalman trong mô hình hóa các chức năng của não 777
14.11 Tóm tắt và Thảo luận 780 Ghi chú và Tham khảo 782 Vấn
đề 784
x Nội dung
Chương 15 Mạng tuần hoàn theo hướng động 790 15,1 Giới thiệu 790 15,2
Kiến trúc mạng tuần hoàn 791 15,3 Định lý xấp xỉ phổ quát 797 15,4
Khả năng kiểm soát và khả năng quan sát 799 15,5 Sức mạnh tính toán
của mạng lặp lại 804 15,6 Thuật toán học 806 15,7 Truyền ngược qua
thời gian 808 15,8 Học lặp lại theo thời gian thực 812 15,9 Vanishing
Gradients trong mạng định kỳ 818 15.10 Khung đào tạo được giám sát
cho mạng lặp lại sử dụng công cụ ước tính trạng thái tuần tự phi
tuyến 822
15.11 Thí nghiệm máy tính: Tái tạo động của Mackay – Glass Attractor 829 15.12 Cân nhắc về
khả năng thích ứng 831 15.13 Nghiên cứu điển hình: Tham chiếu mô hình được áp dụng cho điều
khiển thần kinh 833 15.14 Tóm tắt và thảo luận 835 Ghi chú và tham khảo 839 Vấn đề 842
Thư mục 845
Chỉ số 889
Lời nói đầu
Khi viết ấn bản thứ ba của cuốn sách cổ điển này, tôi đã được hướng dẫn bởi cùng một triết lý cơ
bản của ấn bản đầu tiên của cuốn sách:
Viết một bản xử lý cập nhật về mạng nơ-ron một cách toàn diện, kỹ lưỡng và có thể đọc được.
Phiên bản mới đã được đổi tên thành Mạng thần kinh và Máy học, để
phản ánh hai thực tế:
1. Perceptron, perceptron nhiều lớp, bản đồ tự tổ chức và động lực học thần kinh, tên một số
chủ đề, luôn được coi là những phần không thể thiếu của
mạng thần kinh, bắt nguồn từ những ý tưởng lấy cảm hứng từ bộ não con người.
2. Các phương thức hạt nhân, được ví dụ bởi máy vectơ hỗ trợ và hạt nhân chính
phân tích thành phần, bắt nguồn từ lý thuyết thống kê học.
Mặc dù trên thực tế, chúng chia sẻ nhiều khái niệm và ứng dụng cơ bản, nhưng có
một số khác biệt nhỏ giữa các hoạt động của mạng nơ-ron và các chines ma học. Do đó, chủ đề cơ bản
sẽ phong phú hơn nhiều khi chúng được nghiên cứu cùng nhau, dưới một cái ô, đặc biệt là khi
• các ý tưởng rút ra từ mạng nơ-ron và học máy được kết hợp với nhau để cải thiện các nhiệm vụ
học tập trên mỗi dạng ngoài khả năng của một trong hai hoạt động trên nó
sở hữu, và
• những ý tưởng được truyền cảm hứng từ bộ não con người dẫn đến những quan điểm mới cho dù họ ở đâu
tầm quan trọng đặc biệt.
Hơn nữa, phạm vi của cuốn sách đã được mở rộng để cung cấp các cách xử lý chi tiết về lập
trình động và ước lượng trạng thái tuần tự, cả hai điều này đã ảnh hưởng đến việc nghiên cứu học
tăng cường và học có giám sát, trong
những cách đáng kể.
Tổ chức của Sách
Cuốn sách bắt đầu bằng một chương mở đầu mang tính động lực, mở đường cho
phần còn lại của cuốn sách được sắp xếp thành sáu phần như sau:
1. Các chương từ 1 đến 4, cấu thành phần đầu của cuốn sách, theo kinh điển
cách tiếp cận về học tập có giám sát. Đặc biệt,
xi
xii Lời nói đầu
• Chương 1 mô tả perceptron của Rosenblatt, làm nổi bật định lý perceptron con vergence,
và mối quan hệ giữa perceptron và
Bộ phân loại Bayes hoạt động trong môi trường Gaussian.
• Chương 2 mô tả phương pháp bình phương nhỏ nhất làm cơ sở cho việc xây dựng mô hình.
Mối quan hệ giữa phương pháp này và suy luận Bayes về sự đặc biệt
trường hợp môi trường Gaussian được thiết lập. Chương này cũng bao gồm sự phân biệt
của nguyên tắc độ dài mô tả tối thiểu (MDL) để lựa chọn mô hình.
• Chương 3 được dành cho thuật toán bình phương nhỏ nhất (LMS) và phân tích kết hợp của
nó.
nhiệt động lực học không cân bằng).
Ba chương này, mặc dù khác nhau về khái niệm, nhưng có chung

tính năng: Tất cả chúng đều dựa trên một đơn vị tính toán duy nhất. Quan trọng nhất, họ
cung cấp rất nhiều cái nhìn sâu sắc về quá trình học tập trong cá nhân của họ
cách — một tính năng được khai thác trong các chương tiếp theo.
Chương 4, về perceptron nhiều lớp, là sự khái quát hóa của Rosenblatt
perceptron. Chương khá dài này bao gồm các chủ đề sau:
• thuật toán lan truyền ngược, các ưu điểm và hạn chế của nó, và vai trò của nó như một
phương pháp tối ưu để tính toán các đạo hàm riêng;
• ủ tối ưu và kiểm soát thích ứng tốc độ học tập;
• xác nhận chéo;
• mạng phức hợp, lấy cảm hứng từ công trình tiên phong của Hubel và Wiesel
trên hệ thống trực quan;
• học có giám sát được xem như một vấn đề tối ưu hóa, tập trung vào sự chú ý
về phương pháp gradient liên hợp, phương pháp gần như Newton, và Marquardt–
Thuật toán Levenberg;
• lọc phi tuyến;
• cuối cùng, nhưng không kém phần quan trọng, một cuộc thảo luận tương phản giữa các vấn đề học
tập quy mô nhỏ và quy mô lớn.
2. Phần tiếp theo của cuốn sách, bao gồm Chương 5 và 6, thảo luận về các mô hình hạt nhân
dựa trên mạng chức năng cơ sở xuyên tâm (RBF).
Theo một cách nào đó, Chương 5 có thể được xem như một phần giới thiệu sâu sắc về hạt nhân
các phương pháp. Cụ thể, nó thực hiện những việc sau:
• trình bày định lý của Cover như là sự biện minh lý thuyết cho cấu trúc cấu trúc của
mạng RBF;
• mô tả một quy trình kết hợp hai giai đoạn tương đối đơn giản để học có giám sát, với
giai đoạn 1 dựa trên ý tưởng phân cụm (cụ thể là K-mean algo rithm) để tính toán lớp
ẩn và giai đoạn 2 sử dụng LMS hoặc phương pháp
bình phương nhỏ nhất để tính toán lớp đầu ra tuyến tính của mạng;
• trình bày hồi quy hạt nhân và kiểm tra mối quan hệ của nó với mạng RBF.
Chương 6 được dành để hỗ trợ máy vectơ (SVM), được công nhận là một phương pháp
được lựa chọn để học có giám sát. Về cơ bản,
SVM là một bộ phân loại nhị phân, trong bối cảnh chương này bao gồm các chủ đề về hạ
thấp của fol:
Lời nói đầu xiii
• điều kiện để xác định biên độ phân cách tối đa giữa một cặp lớp nhị phân có thể phân
tách tuyến tính; • tối ưu hóa bậc hai để tìm siêu phẳng tối ưu khi hai lớp
có thể phân tách tuyến tính và khi nào thì không;

• SVM được xem như một máy nhân, bao gồm các cuộc thảo luận về thủ thuật hạt nhân và
định lý Mercer; • triết lý thiết kế của SVM; • hàm mất mát-nhạy cảm và vai trò của nó
trong việc tối ưu hóa hồi quy
các vấn đề;

• Định lý Đại diện, và các vai trò của không gian Hilbert và tái tạo ker
nel không gian Hilbert (RKHS) trong công thức của nó.
Từ mô tả này, rõ ràng là lý thuyết cơ bản về máy vectơ hỗ trợ được xây dựng trên
nền tảng toán học vững chắc — do đó sức mạnh đặt của chúng như một công cụ thanh lịch và
mạnh mẽ cho việc học có giám sát.
3. Phần thứ ba của cuốn sách liên quan đến một chương duy nhất, Chương 7. Chương này dựa
trên phạm vi rộng được dành cho lý thuyết chính quy hóa, là cốt lõi của học máy. Các chủ
đề sau được nghiên cứu chi tiết: • Lý thuyết chính quy cổ điển của Tikhonov, được xây
dựng dựa trên RKHS được thảo luận trong Chương 6. Lý thuyết này thể hiện một số khái
niệm toán học sâu sắc: vi phân Fréchet của hàm Tikhonov, định lý biểu diễn Riesz,
phương trình Euler – Lagrange , Hàm Green, và hàm Gaussian đa biến; • mạng RBF tổng
quát và sửa đổi của chúng để có khả năng kiểm soát tính toán; • công cụ ước tính bình
phương nhỏ nhất chính quy, được xem xét lại dưới góc độ của Người đại diện
Định lý;
• ước tính tham số chính quy hóa, sử dụng khái niệm chung của Wahba
xác nhận chéo ized; •
học tập bán giám sát, sử dụng các ví dụ có nhãn cũng như không dán nhãn; • các
đa tạp có thể phân biệt và vai trò của chúng trong quá trình điều hòa đa tạp — một vai trò
là cơ bản để thiết kế máy học bán giám sát;
• lý thuyết đồ thị quang phổ để tìm hạt nhân Gaussian trong mạng RBF được sử dụng cho
học tập bán giám sát; • Định lý đại diện tổng quát để xử lý hạt nhân bán giám sát
máy móc;
• thuật toán bình phương nhỏ nhất chính quy Laplacian (LapRLS) để tính toán lớp đầu ra
tuyến tính của mạng RBF; ở đây, cần lưu ý rằng khi tham số chính quy nội tại (chịu
trách nhiệm cho dữ liệu không được gắn nhãn) được giảm xuống 0, thuật toán tương ứng
được giảm xuống thuật toán bình phương nhỏ nhất thông thường.
Chương mang tính lý thuyết cao này có tầm quan trọng thực tiễn sâu sắc. Đầu tiên, nó
cung cấp cơ sở cho việc chính thức hóa các máy học có giám sát. Thứ hai, nó đặt nền tảng
cho việc thiết kế các máy học bán giám sát được chính quy hóa.
4. Các chương từ 8 đến 11 tạo thành phần thứ tư của cuốn sách, đề cập đến việc học không
theo chủ đề. Bắt đầu từ Chương 8, bốn nguyên tắc tự tổ chức, được thúc đẩy bằng trực
giác bởi các cân nhắc sinh học thần kinh, được trình bày:
xiv Lời nói đầu
(i) Định đề của Hebb về việc học tập để tự khuếch đại;

(ii) Cạnh tranh giữa các khớp thần kinh của một tế bào thần kinh đơn lẻ hoặc một
nhóm tế bào thần kinh vì nguồn lực hạn chế; (iii) Hợp tác giữa nơ-ron chiến
thắng và các nước láng giềng; (iv) Thông tin cấu trúc (ví dụ: dự phòng) có trong dữ
liệu đầu vào.
Chủ đề chính của chương gồm ba phần: • Các
nguyên tắc (i), (ii), và (iv) được áp dụng cho một nơ-ron duy nhất, trong đó quy tắc
Oja cho phép lọc eigenfiltering tối đa được bắt nguồn; đây là một kết quả đáng chú
ý có được nhờ quá trình tự tổ chức, bao gồm việc học tập từ dưới lên cũng như từ
trên xuống. Tiếp theo, ý tưởng về bộ lọc điện tử tối đa được khái quát hóa thành
phân tích thành phần chính (PCA) trên dữ liệu đầu vào nhằm mục đích giảm kích
thước; thuật toán kết quả được gọi là thuật toán Heb bian tổng quát (GHA). • Về cơ
bản, PCA là một phương pháp tuyến tính, do đó khả năng tính toán của nó bị giới
hạn ở các thống kê bậc hai. Để xử lý các thống kê bậc cao, phương pháp hạt nhân được
áp dụng cho PCA theo cách tương tự như được mô tả trong Chương 6 trên các máy
vectơ hỗ trợ, nhưng có một điểm khác biệt cơ bản: không giống như SVM, PCA hạt
nhân được thực hiện theo cách không được giám sát .
• Thật không may, trong việc xử lý các hình ảnh tự nhiên, kernel PCA có thể trở nên
không thể quản lý được về mặt tính toán. Để vượt qua giới hạn tính toán này, GHA
và kernel PCA được kết hợp thành một thuật toán học tập không giám sát trực tuyến
mới được gọi là thuật toán Hebbian của hạt nhân (KHA), thuật toán này tìm kiếm các
ứng dụng làm giảm hình ảnh.
Sự phát triển của KHA là một ví dụ nổi bật về những gì có thể đạt được khi một ý
tưởng từ học máy được kết hợp với một ý tưởng bổ sung bắt nguồn từ mạng nơ-ron, tạo
ra một thuật toán mới khắc phục được những hạn chế thực tế tương ứng của chúng.
Chương 9 được dành cho các bản đồ tự tổ chức (SOM), việc phát triển bản đồ này
tuân theo các nguyên tắc tự tổ chức được mô tả trong Chương 8. SOM là một thuật toán
đơn giản về mặt tính toán, nhưng rất mạnh mẽ về khả năng xây dựng tích hợp của nó bản
đồ địa hình có tổ chức với một số đặc tính hữu ích: • xấp xỉ rời rạc về mặt không
gian của không gian đầu vào, chịu trách nhiệm tạo ra dữ liệu; • trật tự tôpô, theo
nghĩa là vị trí không gian của nơ-ron trong bản đồ địa hình tương ứng với một đặc
điểm cụ thể trong không gian đầu vào (dữ liệu);
• khớp mật độ đầu vào - đầu ra; •

lựa chọn tính năng dữ liệu đầu vào.
SOM đã được áp dụng rộng rãi trong thực tế; việc xây dựng bản đồ ngữ cảnh và lượng
tử hóa véc tơ phân cấp được trình bày dưới dạng hai ví dụ minh họa về sức mạnh tính
toán của SOM. Điều thực sự đáng kinh ngạc là SOM thể hiện một số đặc tính thú vị và
giải quyết các nhiệm vụ tính toán khó, nhưng nó thiếu một chức năng mục tiêu có thể
được tối ưu hóa. Để lấp đầy khoảng trống này và do đó cung cấp khả năng lập bản đồ
địa hình được cải thiện, bản đồ tự tổ chức được sử dụng lại. Điều này được thực hiện
bằng cách đưa một hàm entropi làm mục tiêu
Lời nói đầu xv
chức năng được tối đa hóa. Ở đây một lần nữa, chúng ta thấy lợi ích thiết thực của việc lai
các ý tưởng bắt nguồn từ mạng nơ-ron với các định lý hạt nhân bổ sung.
Chương 10 khai thác các nguyên tắc bắt nguồn từ lý thuyết thông tin của Shannon như
công cụ cho việc học tập không có giám sát. Chương khá dài này bắt đầu bằng cách trình
bày một đánh giá về lý thuyết thông tin của Shannon, đặc biệt chú ý đến các vấn đề của
entropy, thông tin lẫn nhau, và sự phân kỳ Kullback-Leibler (KLD).
Bài đánh giá cũng bao gồm khái niệm về copulas, thật không may, đã
phần lớn bị bỏ qua trong vài thập kỷ. Quan trọng nhất, copula cung cấp một
thước đo sự phụ thuộc thống kê giữa một cặp ables phương sai ngẫu nhiên có tương quan.
Trong mọi trường hợp, tập trung vào thông tin lẫn nhau như một chức năng mục tiêu,
chương thiết lập các nguyên tắc sau:
• Nguyên tắc Infomax, tối đa hóa thông tin lẫn nhau giữa
dữ liệu đầu vào và đầu ra của một hệ thống thần kinh; Infomax có liên quan chặt chẽ đến
việc giảm dancy redun.
• Nguyên tắc Imax, tối đa hóa thông tin lẫn nhau giữa các đầu ra sin gle của một cặp hệ
thống thần kinh được điều khiển bởi các đầu vào tương quan.
• Nguyên tắc Imin hoạt động theo cách tương tự như nguyên tắc Imax, ngoại trừ
rằng thông tin lẫn nhau giữa cặp biến ngẫu nhiên đầu ra là
giảm thiểu.
• Nguyên tắc phân tích các thành phần độc lập (ICA), cung cấp một công cụ mạnh mẽ để
phân tách mù một tập hợp ẩn độc lập về mặt thống kê
các tín hiệu nguồn. Với điều kiện thỏa mãn một số điều kiện hoạt động nhất định, ICA
nguyên tắc tạo cơ sở cho các thủ tục lấy lại bản gốc
nguồn tín hiệu từ một tập hợp các vật thể quan sát tương ứng được trộn tuyến tính
phiên bản của tín hiệu nguồn. Hai thuật toán ICA cụ thể được mô tả:
(i) thuật toán học theo độ dốc tự nhiên, ngoại trừ chia tỷ lệ và mỗi đột biến, giải
quyết vấn đề ICA bằng cách giảm thiểu KLD giữa hàm mật độ xác suất pa rameterized
và giai thừa tương ứng
phân bổ;
(ii) thuật toán học entropy tối đa, tối đa hóa entropy của
một phiên bản được biến đổi phi tuyến tính của đầu ra demixer; thuật toán này,
thường được gọi là thuật toán Infomax cho ICA, cũng thể hiện khả năng mở rộng quy mô
và tính chất hoán vị.
Chương 10 cũng mô tả một thuật toán ICA quan trọng khác, được gọi là FastICA,
như tên của nó, thuật toán này tối đa hóa một hàm chính dựa trên khái niệm tiêu cực, cung
cấp một thước đo của
phi Gaussianity của một biến ngẫu nhiên. Tiếp tục với ICA, chương tiếp tục
để mô tả một thuật toán mới được gọi là ICA mạch lạc, sự phát triển của nó
dựa trên sự kết hợp của các nguyên tắc Infomax và Imax thông qua việc sử dụng copula; mạch lạc
ICA rất hữu ích để trích xuất các đường bao của hỗn hợp điều chế biên độ
các tín hiệu. Cuối cùng, Chương 10 giới thiệu một khái niệm khác bắt nguồn từ lý thuyết
thông tin của Shannon, đó là lý thuyết biến dạng tỷ lệ, được sử dụng để phát triển lỗi
cuối cùng trong chương: nút cổ chai thông tin. Với sự phân phối chung của một đầu vào
vectơ và một vectơ đầu ra (có liên quan), phương pháp được xây dựng dưới dạng một giới hạn
xvi Lời nói đầu
vấn đề tối ưu hóa theo cách tạo ra sự cân bằng giữa hai số tiền
thông tin, một liên quan đến thông tin chứa trong vector nút cổ chai
về đầu vào và phần khác liên quan đến thông tin chứa trong vector cổ chai về đầu ra.
để biểu diễn dữ liệu, sử dụng phương pháp nút cổ chai thông tin.
Phương pháp cuối cùng để học không giám sát được mô tả trong Chương 11, sử dụng
phương pháp ngẫu nhiên bắt nguồn từ cơ học thống kê; nghiên cứu thống kê
cơ học có quan hệ mật thiết với lý thuyết thông tin. Chương này bắt đầu bằng cách xem xét
các khái niệm cơ bản về năng lượng tự do Helmholtz và entropi (theo nghĩa cơ học theo
thống kê), tiếp theo là mô tả về chuỗi Markov. Sân khấu là
sau đó được thiết lập để mô tả thuật toán Metropolis để tạo chuỗi Markov,
xác suất chuyển đổi hội tụ thành một phân phối duy nhất và ổn định.
Việc thảo luận về các phương pháp ngẫu nhiên được hoàn thành bằng cách mô tả một giá trị
mô phỏng để tối ưu hóa toàn cục, tiếp theo là lấy mẫu Gibbs, có thể được sử dụng như
một dạng đặc biệt của thuật toán Metropolis. Với tất cả nền tảng này về thống kê
cơ học trong tầm tay, giai đoạn được thiết lập để mô tả máy Boltzmann,
trong bối cảnh lịch sử, là máy học nhiều lớp đầu tiên được thảo luận trong
văn chương. Thật không may, quá trình học tập trong máy Boltzmann rất
chậm, đặc biệt khi số lượng tế bào thần kinh ẩn lớn - do đó thiếu
quan tâm đến việc sử dụng thực tế của nó. Các phương pháp khác nhau đã được đề xuất trong tài liệu
Để khắc phục những hạn chế của cỗ máy Boltzmann. Phương pháp đổi mới thành công nhất cho
đến nay là mạng lưới niềm tin sâu sắc, tự phân biệt theo cách thông minh trong
mà hai chức năng sau đây được kết hợp thành một cỗ máy mạnh mẽ:
• mô hình tổng quát, kết quả từ việc học từ dưới lên trên từng lớp một
có cơ sở và không có sự giám sát;
• suy luận, kết quả từ việc học từ trên xuống.
Cuối cùng, Chương 10 mô tả quá trình ủ xác định để khắc phục tình trạng quá mức
yêu cầu tính toán của quá trình ủ mô phỏng; vấn đề duy nhất với việc ủ xác định là nó có
thể bị mắc kẹt ở mức tối thiểu cục bộ.
5. Cho đến thời điểm này, trọng tâm của sự chú ý trong cuốn sách là việc xây dựng các nhịp
điệu cho học tập có giám sát, học tập bán giám sát và học tập không giám sát. Chương 12,
tự nó cấu thành phần tiếp theo của cuốn sách, đề cập đến
học tăng cường, trong đó việc học diễn ra một cách trực tuyến như
kết quả của một tác nhân (ví dụ: rô bốt) tương tác với môi trường xung quanh của nó. Tuy
nhiên, trong thực tế, lập trình động nằm ở cốt lõi của việc học tăng cường.
Theo đó, phần đầu của Chương 15 được dành cho phần điều trị nhập môn
lập trình động của Bellman, sau đó được theo sau bằng cách cho thấy rằng hai
Các phương pháp học củng cố được sử dụng rộng rãi: Sự khác biệt về thời gian (TD) học
ing, và Q-learning có thể được suy ra như những trường hợp đặc biệt của lập trình động. Cả hai
TD-learning và Q-learning tương đối đơn giản, học tăng cường trực tuyến
các thuật toán không yêu cầu kiến thức về xác suất chuyển đổi. Tuy nhiên,
các ứng dụng thực tế của chúng được giới hạn trong các tình huống trong đó
của không gian trạng thái có kích thước vừa phải. Trong các hệ thống động quy mô lớn, lời nguyền
về kích thước trở thành một vấn đề nghiêm trọng, khiến không chỉ lập trình động,
Lời nói đầu xvii
mà còn là các dạng gần đúng của nó, TD-learning và Q-learning, có thể tính toán được. Để
khắc phục hạn chế nghiêm trọng này, hai phương pháp gián tiếp của lập trình động xấp xỉ
đối tác được mô tả: • phương pháp tuyến tính được gọi là thuật toán đánh giá chính sách
bình phương nhỏ nhất (LSPV) và • phương pháp phi tuyến sử dụng mạng nơron (ví dụ: perceptron
nhiều lớp) như một máy xấp xỉ vạn năng.
6. Phần cuối của cuốn sách, bao gồm các Chương 13, 14 và 15, được dành cho việc nghiên cứu các
hệ thống phản hồi phi tuyến, tập trung vào các mạng nơ-ron tuần hoàn:
(i) Chương 13 nghiên cứu động lực học thần kinh, đặc biệt chú ý đến vấn đề tính ổn định.
Trong bối cảnh này, phương pháp trực tiếp của Lyapunov được mô tả.
Phương pháp này thể hiện hai định lý, một định lý giải quyết sự ổn định của hệ thống
và một định lý giải quyết sự ổn định tiệm cận. Trọng tâm của phương pháp là một hàm
Lyapunov, trong đó một hàm năng lượng thường được coi là đầy đủ. Với lý thuyết nền
tảng này, hai loại bộ nhớ kết hợp được mô tả: • mô hình Hopfield, hoạt động của nó
chứng tỏ rằng một phức hợp
hệ thống có khả năng tạo ra hành vi phát sinh đơn giản; • mô hình
não-trạng-thái-trong-hộp, cung cấp cơ sở cho việc phân cụm.
Chương này cũng thảo luận về các thuộc tính của các quá trình hỗn loạn và một quy
trình được quy định hóa để tái tạo lại động của chúng.
(ii) Chương 14 được dành cho bộ lọc Bayes, cung cấp cơ sở thống nhất cho các thuật toán
ước lượng trạng thái tuần tự, ít nhất là theo nghĩa khái niệm. Các phát hiện của
chương được tóm tắt như sau:
• Bộ lọc Kalman cổ điển cho môi trường Gaussian tuyến tính được suy ra với việc sử
dụng tiêu chí sai số trung bình bình phương tối thiểu; trong một vấn đề ở cuối
chương, nó được chỉ ra rằng bộ lọc Kalman được dẫn xuất là một trường hợp đặc biệt
của bộ lọc Bayes; • phép lọc căn bậc hai được sử dụng để khắc phục hiện tượng phân
kỳ có thể phát sinh trong các ứng dụng thực tế của bộ lọc Kalman; • bộ lọc Kalman mở
rộng (EKF) được sử dụng để đối phó với các hệ thống động có độ phi tuyến tính ở
mức độ nhẹ; giả định Gaussian được duy trì;
• dạng gần đúng trực tiếp của bộ lọc Bayes được minh họa bằng một bộ lọc mới gọi là
bộ lọc Kalman hình khối (CKF); ở đây một lần nữa, Gaussian as sumption được duy trì;
• Các dạng gần đúng gián tiếp của bộ lọc Bayes được minh họa bằng bộ lọc ngang, việc
triển khai chúng có thể phù hợp với tính phi tuyến cũng như phi Gaussianity.
Với bản chất của bộ lọc Kalman là của một bộ dự đoán – sửa sai, Chương 14 tiếp tục mô
tả vai trò có thể có của “bộ lọc giống Kalman” trong một số bộ phận nhất định của não
người.
xviii Lời nói đầu
Chương cuối cùng của cuốn sách, Chương 15, nghiên cứu các mạng nơ-ron cho thuê định kỳ
được điều khiển động. Phần đầu của chương thảo luận về các cấu trúc khác nhau
(các mô hình) cho các mạng lặp lại và khả năng tính toán của chúng, theo sau là hai nhịp điệu
cho việc đào tạo các mạng lặp lại:
• lan truyền ngược lại theo thời gian, và

• học tập định kỳ trong thời gian thực.
Thật không may, cả hai quy trình này, đều dựa trên gradient, có khả năng bị
từ cái gọi là vấn đề gradient biến mất. Để giảm thiểu vấn đề, việc sử dụng
của các bộ ước lượng trạng thái tuần tự phi tuyến được mô tả ở độ dài nào đó cho việc đào tạo
siêu thị của các mạng lặp lại theo một cách khá mới lạ. Trong bối cảnh này,
ưu điểm và nhược điểm của bộ lọc Kalman mở rộng (đơn giản, nhưng phụ thuộc vào phái sinh) và
bộ lọc Kalman hình khối (miễn phí dẫn xuất, nhưng chuyên dụng hơn về mặt toán học) như là
công cụ ước lượng trạng thái tuần tự cho học có giám sát là
đã thảo luận. Sự xuất hiện của hành vi thích ứng, duy nhất cho các mạng lặp lại, và
lợi ích tiềm năng của việc sử dụng một nhà phê bình thích ứng để nâng cao hơn nữa khả năng
của mạng lặp lại cũng được thảo luận trong chương.
Một chủ đề quan trọng nổi bật trong các phần khác nhau của cuốn sách là học có giám sát và học
bán giám sát được áp dụng cho các bài toán quy mô lớn. Các
phần kết luận của cuốn sách khẳng định rằng chủ đề này đang trong giai đoạn phát triển ban đầu;
quan trọng nhất, một quy trình bốn giai đoạn được mô tả cho sự phát triển trong tương lai của nó.
Các tính năng khác biệt của cuốn sách
Hơn và trên phạm vi rộng và xử lý triệt để các chủ đề được tóm tắt theo
tổ chức của cuốn sách, các tính năng đặc biệt của văn bản bao gồm những điều sau đây:
1. Chương 1 đến Chương 7 và Chương 10 bao gồm các thí nghiệm máy tính liên quan đến
cấu hình hai mặt trăng để tạo dữ liệu cho mục đích của cation phân loại nhị phân.
đến những trường hợp khó của các mẫu không thể tách rời. Cấu hình hai mặt trăng, như một
chạy ví dụ, được sử dụng suốt từ Chương 1 đến Chương 7, tiếp theo là
Chương 10, do đó cung cấp một phương tiện thực nghiệm để nghiên cứu và so sánh các thuật toán
học tập được mô tả trong tám chương đó.
2. Thí nghiệm máy tính cũng có trong Chương 8 về PCA, Chương 9 về SOM
và kernel SOM, và Chương 14 về tái tạo động của Mackay-Glass
bộ thu hút sử dụng thuật toán EKF và CKF.
3. Một số nghiên cứu điển hình, sử dụng dữ liệu đời thực, được trình bày:
• Chương 7 thảo luận về dữ liệu của Bưu điện Hoa Kỳ (USPS) cho semisu
học tập chuyên sâu bằng cách sử dụng thuật toán Laplacian RLS;
• Chương 8 xem xét cách PCA được áp dụng cho dữ liệu kỹ thuật số viết tay và
ghi chép mã hóa và biến đổi hình ảnh;
• Chương 10 xử lý việc phân tích các hình ảnh tự nhiên bằng cách sử dụng mã hóa cảm giác thưa thớt
và ICA;
• Chương 13 trình bày sự tái tạo động được áp dụng cho bộ thu hút Lorenz bằng cách
sử dụng mạng RBF chính quy.
Lời nói đầu xix
Chương 15 cũng bao gồm một phần về hệ thống điều khiển thích ứng tham chiếu mô hình như một
nghiên cứu điển hình.
4. Mỗi chương kết thúc với các ghi chú và tài liệu tham khảo để nghiên cứu thêm, tiếp theo là các
vấn đề cuối chương được thiết kế để thách thức, và do đó mở rộng chuyên môn của người đọc.
Bảng thuật ngữ ở đầu sách đã được mở rộng để bao gồm các ghi chú giải thích về phương pháp
được sử dụng cho các vấn đề liên quan đến phân tích ma trận và lý thuyết xác suất.
5. Các tệp PowerPoint của tất cả các hình và bảng trong sách sẽ được cung cấp cho Giảng viên
và có thể tìm thấy tại www.prenhall.com/haykin.
6. Mã Matlab cho tất cả các thí nghiệm máy tính trong cuốn sách có sẵn trên Trang web của nhà xuất
bản cho tất cả những người đã mua bản sao của cuốn sách. Các mã này có sẵn cho sinh viên tại
www.pearsonhighering.com/haykin.
7. Cuốn sách được kèm theo một Hướng dẫn sử dụng bao gồm các giải pháp cho tất cả các
các bài toán của chương cũng như các thí nghiệm máy tính.
Sách hướng dẫn có sẵn từ nhà xuất bản, Prentice Hall, chỉ dành cho những người hướng dẫn sử dụng
sách làm bộ sách được khuyến nghị cho một khóa học, dựa trên tài liệu được đề cập trong sách.
Cuối cùng, nhưng không kém phần quan trọng, mọi nỗ lực đã được dành để tạo ra cuốn sách
không có lỗi và quan trọng nhất là có thể đọc được.
Simon Haykin
Ancaster, Ontario

Sự nhìn nhận
Tôi vô cùng biết ơn nhiều nhà chức trách nổi tiếng về mạng nơ-ron và máy học trên khắp thế
giới, những người đã đưa ra những nhận xét vô giá về các phần được chọn của cuốn sách:
Tiến sĩ Sun-Ichi Amari, Viện Khoa học Não bộ RIKEN, Thành phố Wako, Nhật Bản
Tiến sĩ Susanne Becker, Khoa Tâm lý, Khoa học Thần kinh & Hành vi, Đại học McMaster,
Hamilton, Ontario, Canada
Tiến sĩ Dimitri Bertsekas, MIT, Cambridge, Massachusetts
Tiến sĩ Leon Bottou, Phòng thí nghiệm NEC Hoa Kỳ, Princeton, New Jersey
Tiến sĩ Simon Godsill, Đại học Cambridge, Cambridge, Anh Tiến sĩ Geoffrey
Gordon, Đại học Carnegie-Mellon, Pittsburgh, Pennsylvania Dr. Peter Grünwald,
CWI, Amsterdam, Hà Lan Tiến sĩ Geoffrey Hinton, Khoa Khoa học Máy tính, Đại học
Toronto, Toronto, Ontario, Canada Tiến sĩ Timo Honkela, Đại học Công nghệ Helsinki,
Helsinki, Phần Lan Tiến sĩ Tom Hurd, Khoa Toán học và Thống kê, Đại học McMaster, Ontario,
Canada.
Tiến sĩ Eugene Izhikevich, Viện Khoa học Thần kinh, San Diego, California
Tiến sĩ Juha Karhunen, Đại học Công nghệ Helsinki, Helsinki, Phần Lan Tiến sĩ
Kwang In Kim, Max-Planck-Institut für Biologische Kybernetik, Tübingen, Đức Tiến sĩ
James Lo, Đại học của Maryland tại Baltimore County, Baltimore, Maryland Tiến sĩ Klaus
Müller, Đại học Potsdam và Viện Fraunhofer FIRST, Berlin, Đức Tiến sĩ Erkki Oja, Đại
học Công nghệ Helsinki, Helsinki, Phần Lan Tiến sĩ Bruno Olshausen, Trung tâm Khoa
học Thần kinh Lý thuyết, Đại học Redwood của California, Berkeley, California
Tiến sĩ Danil Prokhorov, Trung tâm Kỹ thuật Toyota, Ann Arbor, Michigan
Tiến sĩ Kenneth Rose, Kỹ thuật Điện và Máy tính, Đại học California, Santa Barbara,
California Tiến sĩ Bernhard Schölkopf, Max-Planck-Institut für Biologische Kybernetik,
Tübingen, Đức Dr. Vikas Sindhwani, Khoa Khoa học Máy tính, Đại học Chicago,
Chicago, Illinois
xxi
xxii Lời cảm ơn
Tiến sĩ Sergios Theodoridis, Khoa Tin học, Đại học Athens, Athens, Hy Lạp Tiến sĩ Naftali
Tishby, Đại học Hebrew, Jerusalem, Israel Tiến sĩ John Tsitsiklis, Viện Công nghệ Massachusetts,
Cambridge, Massachusetts Tiến sĩ Marc Van Hulle, Đại học Katholieke, Leuven, Bỉ Một số
hình ảnh và đồ thị đã được sao chép lại trong cuốn sách với sions permis do Nhà xuất bản
Đại học Oxford và
Tiến sĩ Anthony Bell, Trung tâm Khoa học Thần kinh Lý thuyết Redwood, Đại học
California, Berkeley, California
Tiến sĩ Leon Bottou, Phòng thí nghiệm NEC Hoa Kỳ, Princeton, New Jersey Tiến
sĩ Juha Karhunen, Đại học Công nghệ Helsinki, Helsinki, Phần Lan Tiến sĩ Bruno
Olshausen, Redwood Trung tâm Khoa học Thần kinh Lý thuyết, Đại học California, Berkeley,
California Tiến sĩ Vikas Sindhwani, Khoa Khoa học Máy tính, Đại học Chicago, Chicago, Illinois
Tiến sĩ Naftali Tishby, Đại học Hebrew, Jerusalem, Israel Tiến sĩ Marc Van Hulle,
Katholieke Universiteit, Leuven, Bỉ
Tôi cảm ơn tất cả họ một cách chân thành nhất.
Tôi biết ơn các sinh viên sau đại học của
tôi: 1. Yanbo Xue, vì nỗ lực to lớn của anh ấy dành cho việc thực hiện gần như tất cả các
thí nghiệm com puter được tạo ra trong cuốn sách, và cũng để đọc các bản kiểm chứng trang
thứ hai của cuốn sách.
2. Karl Wiklund, vì đã đọc lại toàn bộ cuốn sách và đưa ra những nhận xét có giá trị cho
cải thiện nó.
3. Haran Arasaratnam, vì đã làm việc trong thí nghiệm máy tính xử lý chất hấp dẫn Mackay –
Glass.
4. Andreas Wendel (Đại học công nghệ Graz, Áo) trong thời gian nghỉ phép
tại Đại học McMaster, 2008.
Tôi biết ơn Scott Disanno và Alice Dworkin của Prentice Hall vì họ đã đóng góp và làm
việc chăm chỉ trong quá trình sản xuất cuốn sách. Sự cho phép sử dụng màu sắc trong cuốn sách
của Marcia Horton thực sự được đánh giá cao; việc sử dụng màu sắc đã tạo ra sự khác biệt to lớn
cho hình thức của cuốn sách từ bìa này sang bìa khác.
Tôi biết ơn Jackie Henry của Aptara Corp. và các nhân viên của cô ấy, bao gồm cả Donald E.
Smith, Jr., người hiệu đính, cho việc sản xuất cuốn sách. Tôi cũng muốn cảm ơn Brian Baker và
người sao chép, Abigail Lin, tại Write With, Inc., đã nỗ lực trong việc sao chép và chỉnh sửa
bản thảo của cuốn sách.
Nỗ lực to lớn của Điều phối viên kỹ thuật của tôi, Lola Brooks, trong việc đánh máy các
phiên bản điện tử của các chương trong cuốn sách trong suốt 12 tháng gần như không ngừng nghỉ,
được ghi nhận một cách biết ơn.
Cuối cùng, nhưng không kém phần quan trọng, tôi cảm ơn vợ tôi, Nancy, đã cho tôi thời
gian và không gian mà tôi đã cần trong 12 tháng qua, gần như không ngừng nghỉ, để hoàn thành
cuốn sách một cách kịp thời.
Simon Haykin
Viết tắt và ký hiệu
CÁC TỪ VIẾT TẮT
AR tự phục hồi
BBTT lan truyền ngược thời gian

BM Máy Boltzmann
BP Lan truyền ngược
b / s bit trên giây
BSB não-trạng-trong-một-hộp
BSS Tách nguồn (tín hiệu) mù
cmm bộ nhớ ma trận tương quan

CV xác nhận chéo
DFA dữ liệu tự động trạng thái hữu hạn xác định
EKF bộ lọc Kalman mở rộng

EM Sự tối đa hóa kỳ vọng
CÂY THÔNG
phản ứng xung thời gian hữu hạn
FM điều chế tần số (tín hiệu)
GCV xác nhận chéo tổng quát

GHA thuật toán Hebbian tổng quát
GSLC trình hủy sidelobe tổng quát
Hz hertz
ICA phân tích các thành phần độc lập

Infomax thông tin lẫn nhau tối đa
Imax biến thể của Infomax

Imin một biến thể khác của Infomax
KSOM bản đồ tự tổ chức hạt nhân

KHA nhân thuật toán Hebbian
LMS bình phương nhỏ nhất

LR tỉ lệ giống nhau
xxiii
xxiv Viết tắt và Ký hiệu
LS Bình phương nhỏ nhất

LS-TD Bình phương ít nhất, chênh lệch thời gian
LTP tiềm lực dài hạn
LTD trầm cảm lâu dài
LR tỉ lệ giống nhau
LRT Kiểm tra tỷ lệ khả năng
BẢN ĐỒ Tối đa một posteriori

MCA phân tích thành phần phụ
MCMC Markov Chan Monte Carlo
MDL độ dài mô tả tối thiểu
MIMO nhiều đầu vào – nhiều đầu ra
ML khả năng tối đa
MLP perceptron nhiều lớp

MRC kiểm soát tham chiếu mô hình
Đường trung bình động tự động hồi quy phi tuyến NARMA
Lập tự động hồi quy phi tuyến tính với các đầu vào ngoại sinh
NDP trình động thần kinh NARX
NW Nadaraya – Watson (người ước tính)
NWKR Hồi quy kernal Nadaraya – Watson
OBD tổn thương não tối ưu

OBS bác sĩ phẫu thuật não tối ưu
OCR nhận dạng ký tự quang học
PAC có lẽ gần đúng

PCA Phân tích thành phần chính
PF Bộ lọc hạt
pdf hàm mật độ xác suất
pmf chức năng có thể xảy ra tập trung
QP lập trình bậc hai
RBF hàm cơ sở xuyên tâm

RLS bình phương nhỏ nhất đệ quy
RLS bình phương nhỏ nhất chính quy
RMLP perceptron nhiều lớp lặp lại
RTRL học tập định kỳ trong thời gian thực
SIMO một đầu vào – nhiều đầu ra

QUÝ NGÀI
lấy mẫu lại tầm quan trọng tuần tự
SIS lấy mẫu quan trọng tuần tự
SISO đầu vào duy nhất-đầu ra duy nhất
SNR tỷ lệ tín hiệu trên nhiễu
SOM bản đồ tự tổ chức
SRN mạng lặp lại đơn giản (còn được gọi là mạng định kỳ của Elman)
Viết tắt và ký hiệu xxv
SVD phân hủy giá trị số ít

SVM hỗ trợ máy vector
TD sự khác biệt về thời gian

TDNN mạng nơ-ron thời gian trễ
TLFN mạng chuyển tiếp cấp dữ liệu trễ thời gian
VC Vapnik – Chervononkis (thứ nguyên)

VLSI tích hợp quy mô rất lớn
XOR độc quyền HOẶC
CÁC BIỂU TƯỢNG QUAN TRỌNG
một hoạt động
aTb tích trong của vectơ a và b

abT tích ngoài của vectơ a và b
hệ số nhị thức
m b
một l
A ´ B sự hợp nhất của A và B
B nghịch đảo của nhiệt độ

bk thiên vị áp dụng cho nơron k
cos (a, b) côsin của góc giữa vectơ a và b
cu, v (u, v) hàm mật độ xác suất của copula
D độ sâu của bộ nhớ
Dfg Phân kỳ Kullback – Leibler giữa các
~ hàm mật độ xác suất f và g
D phụ thuộc toán tử D
E chức năng năng lượng
Ei năng lượng của trạng thái i trong cơ học thống kê
toán tử kỳ vọng thống kê

E năng lượng trung bình
exp số mũ
eav lỗi bình phương trung bình hoặc tổng các lỗi bình phương
e (n) giá trị tức thời của tổng sai số bình phương
etotal tổng số bình phương lỗi
F năng lượng miễn phí
f * tập hợp con (mạng) với rủi ro thực nghiệm tối thiểu
H Hessian (ma trận)
H-1 nghịch đảo của Hessian H
tôi
căn bậc hai của -1, cũng được ký hiệu là j
Tôi
ma trận đơn vị
Tôi Ma trận thông tin của Fisher
J lỗi bình phương trung bình
J Jacobian (ma trận)
xxvi Viết tắt và Ký hiệu
P1 / 2 căn bậc hai của ma trận P

PT / 2 chuyển căn bậc hai của ma trận P
Nhật ký ma trận hiệp phương sai trong lý thuyết bộ lọc Kalman
pn, n1 kB Hằng số Boltzmann
lôgarit
L (w) hàm log-khả năng của vectơ trọng lượng w
l (w) hàm log-khả năng của vectơ trọng lượng w dựa trên một ví dụ duy nhất
Mc ma trận kiểm soát
Mo ma trận khả năng quan sát

N gián đoạn thời gian
pi xác suất của trạng thái i trong cơ học thống kê
pij xác suất chuyển đổi từ trạng thái i sang trạng thái j
P ma trận ngẫu nhiên
P (e | c) xác suất có điều kiện của lỗi e cho rằng đầu vào được rút ra từ
lớp C
P xác suất rằng các tế bào thần kinh có thể nhìn thấy của máy Boltzmann nằm trong
tiểu bang
, với điều kiện là mạng đang ở trong tình trạng bị kẹp chặt (tức là,
giai đoạn tích cực)

P xác suất rằng các nơ-ron nhìn thấy được của máy Boltzmann ở trạng thái cho ,
rằng mạng đang ở trong tình trạng chạy tự do (tức là pha âm)
ˆ
rx (j, k; n)]
ˆ ước lượng hàm tự tương quan của xj (n) và xk (n)
rdx (k; n) ước lượng hàm tương quan chéo của d (n) và xk (n)
R ma trận tương quan của một vectơ đầu vào
t Thời gian liên tục
T nhiệt độ
_ tập huấn luyện (mẫu)
tr toán tử biểu thị dấu vết của toán tử phương
var sai ma trận
V (x) Hàm Lyapunov của vectơ trạng thái x
vj wo trường cục bộ gây ra hoặc tiềm năng kích hoạt của nơron j
wkj w giá trị tối ưu của vector trọng lượng khớp thần kinh
* trọng lượng của khớp thần kinh j thuộc nơron k

vector trọng lượng tối ưu
x giá trị cân bằng của vector trạng thái x
xj trung bình của trạng thái xj theo nghĩa "nhiệt"

xˆ ước lượng của x, được biểu thị bằng cách sử dụng dấu mũ (mũ)
x giá trị tuyệt đối (độ lớn) của x
x * liên hợp phức tạp của x, được biểu thị bằng dấu hoa thị dưới dạng chỉ số trên
x Định mức Euclide (chiều dài) của vectơ x
chuyển vị của vectơ x, được ký hiệu bằng ký tự trên T
xT z1 toán tử thời gian trễ đơn vị
Z chức năng phân vùng
δj (n) gradient cục bộ của nơron j tại thời điểm n

w thay đổi nhỏ áp dụng cho trọng lượng w
§ toán tử gradient
Viết tắt và ký hiệu xxvii
§2 Toán tử Laplacian
§WJ gradient của J đối với w
F sự phân kỳ của vectơ F
tham số tốc độ học tập
người tích lũy
chính sách
k ngưỡng áp dụng cho nơron k (tức là phủ định của bias bk)
tham số chính quy
k giá trị riêng thứ k của ma trận vuông
chức năng kích hoạt phi tuyến của nơron k
k ( )
biểu tượng cho "thuộc về"
´ biểu tượng cho "sự kết hợp của"
¨ biểu tượng cho "giao điểm của"

*
biểu tượng cho tích chập
ký hiệu siêu chỉ số cho nghịch đảo giả của ma trận
ký hiệu chỉ số trên cho ước tính cập nhật
Khoảng thời gian mở và đóng cửa
• Khoảng mở (a, b) của một biến x là dấu ax b.

• Khoảng đóng [a, b] của một biến x biểu thị rằng a x b.
• Khoảng đóng-mở [a, b) của một biến x biểu thị rằng ax b; tương tự như vậy cho
khoảng đóng mở (a, b], ax b.
Cực tiểu và Cực đại
• Biểu tượng arg minw f (w) biểu thị giá trị nhỏ nhất của hàm f (w) đối với
đối với vectơ đối số w.
• Biểu tượng arg tối đa f (w) biểu thị giá trị lớn nhất của hàm f (w) đối với
w
đối với vectơ đối số w.

BẢNG CHÚ GIẢI
LƯU Ý I: PHÂN TÍCH MATRIX
Vô hướng: Các ký hiệu chữ thường nghiêng được sử dụng cho các đại lượng vô hướng.
Vectơ: Các ký hiệu chữ thường in đậm được sử dụng cho vectơ.
Một vectơ được định nghĩa là một cột vô hướng. Do đó, tích bên trong của một cặp
vectơ m chiều, x và y, được viết là
y2
x Ty = [x1, x2, ..., xm] ≥ y1 ¥
o
ym
m
= a xi yi
i = 1
trong đó chỉ số trên T biểu thị sự chuyển vị của ma trận. Với sản phẩm bên trong là một đại lượng
vô hướng, do đó chúng ta có
yTx xTy
Ma trận: Các ký hiệu chữ hoa in đậm được sử dụng cho ma trận.
Phép nhân ma trận được thực hiện trên một hàng nhân với cơ sở cột .
Z XY
Cụ thể hơn, thành phần thứ i của ma trận Z có được bằng cách nhân hàng thứ i của ma
trận X với cột thứ j của ma trận Y, cả hai đều được tạo thành từ k vô hướng.
Tích ngoài của một cặp vectơ m chiều, x và y, được viết dưới dạng xyT, là một
ma trận m-by-m .
LƯU Ý II: LÝ THUYẾT VỀ KHẢ NĂNG
Biến ngẫu nhiên: Các ký hiệu chữ hoa nghiêng được sử dụng cho các biến ngẫu nhiên.
Giá trị mẫu (nghĩa là thực hiện một lần) của một biến ngẫu nhiên được biểu thị bằng
xxix
Nội dung xxx
ký hiệu chữ thường nghiêng. Ví dụ, chúng tôi viết X cho một biến ngẫu nhiên và x cho giá trị
mẫu của nó.
Vectơ ngẫu nhiên: Các ký hiệu in hoa đậm được sử dụng cho các vectơ ngẫu nhiên. Tương tự, giá
trị mẫu của một vectơ ngẫu nhiên được biểu thị bằng ký hiệu sym bol viết thường in đậm tương
ứng. Ví dụ, chúng tôi viết X cho một vectơ ngẫu nhiên và x cho giá trị mẫu của nó.
Do đó, hàm mật độ xác suất (pdf) của một biến ngẫu nhiên X được ký hiệu là pX (x), là
một hàm của giá trị mẫu x; chỉ số phụ X được bao gồm như một lời nhắc nhở rằng pdf liên quan
đến vectơ X ngẫu nhiên.
Giới thiệu
1 MẠNG NÔNG THÔN LÀ GÌ?
Công việc trên mạng nơ-ron nhân tạo, thường được gọi là “mạng nơ-ron”, đã được thúc đẩy ngay từ khi
mới thành lập bởi sự nhận biết rằng bộ não con người hoạt động theo một cách hoàn toàn khác với
máy tính kỹ thuật số thông thường. Bộ não là một máy tính phức tạp, phi tuyến tính và song song
(hệ thống xử lý thông tin). Nó có khả năng tổ chức các thành phần cấu trúc của nó, được gọi là tế
bào thần kinh, để thực hiện một số phép tính nhất định (ví dụ: nhận dạng mẫu, cảm nhận và động cơ
điều khiển) nhanh hơn nhiều lần so với máy tính kỹ thuật số nhanh nhất hiện nay. Ví dụ, hãy xem
xét tầm nhìn của con người, là một nhiệm vụ xử lý thông tin. Chức năng của hệ thống thị giác là
cung cấp sự thể hiện của môi trường xung quanh chúng ta và quan trọng hơn là cung cấp thông tin mà
chúng ta cần để tương tác với môi trường.
Cụ thể, não bộ thường xuyên hoàn thành các nhiệm vụ nhận dạng tri giác (ví dụ: nhận ra một khuôn
mặt quen thuộc được nhúng trong một cảnh không quen thuộc) trong khoảng 100–200 ms, trong khi các
tác vụ có độ phức tạp thấp hơn nhiều sẽ mất nhiều thời gian hơn trên một máy tính mạnh mẽ.
Ví dụ khác, hãy xem xét sonar của một con dơi. Sonar là một hệ thống định vị bằng tiếng vang
chủ động. Ngoài việc cung cấp thông tin về khoảng cách của mục tiêu (ví dụ như côn trùng bay),
sonar dơi còn truyền tải thông tin về vận tốc tương đối của mục tiêu, kích thước của mục tiêu,
kích thước của các đặc điểm khác nhau của mục tiêu và phương vị. và độ cao của mục tiêu. Các tính
toán thần kinh phức tạp cần thiết để trích xuất tất cả thông tin này từ tiếng vọng mục tiêu xảy ra
trong một bộ não có kích thước bằng quả mận. Thật vậy, một con dơi định vị bằng tiếng vang có thể
theo đuổi và bắt giữ mục tiêu của nó với một cơ sở và tỷ lệ thành công khiến một kỹ sư radar hoặc
sonar phải ghen tị.
Vậy thì, làm thế nào mà bộ não người hay bộ não của một con dơi làm được điều đó? Khi mới
sinh, một bộ não đã có cấu trúc đáng kể và khả năng xây dựng các quy tắc hành vi của riêng nó thông
qua cái mà chúng ta thường gọi là “trải nghiệm”. Thật vậy, kinh nghiệm được hình thành theo thời
gian, với phần lớn sự phát triển (tức là quá trình hoạt động của não người) diễn ra trong hai năm
đầu tiên kể từ khi sinh ra, nhưng sự phát triển vẫn tiếp tục sau giai đoạn đó.
Hệ thần kinh “đang phát triển” đồng nghĩa với bộ não dẻo: Độ dẻo giúp hệ thần kinh đang
phát triển thích nghi với môi trường xung quanh. Cũng giống như tính dẻo dường như là yếu tố cần
thiết đối với hoạt động của các tế bào thần kinh với tư cách là các đơn vị xử lý thông tin trong
não người, vì vậy nó là với các mạng lưới thần kinh được tạo thành từ các tế bào thần kinh nhân tạo. Trong
1
2 Giới thiệu
dạng tổng quát nhất của nó, mạng thần kinh là một cỗ máy được thiết kế để mô hình hóa cách thức mà
bộ não thực hiện một nhiệm vụ hoặc chức năng cụ thể được quan tâm; mạng được đồng minh usu thực hiện
bằng cách sử dụng các thành phần điện tử hoặc được mô phỏng trong phần mềm trên máy tính đào nghiêng.
Trong cuốn sách này, chúng tôi tập trung vào một lớp mạng nơ-ron quan trọng thực hiện các phép tính
hữu ích thông qua một quá trình học tập. Để đạt được hiệu quả tốt, mạng nơ-ron sử dụng một kết nối
khổng lồ của các tế bào tính toán đơn giản được gọi là “tế bào thần kinh” hoặc “đơn vị xử lý”. Do
đó, chúng tôi có thể đưa ra định nghĩa sau về mạng nơ-ron được xem như một máy thích ứng1 :
Mạng nơ-ron là một bộ xử lý phân tán song song khối lượng lớn được tạo thành từ các đơn vị
xử lý đơn giản có thiên hướng lưu trữ kiến thức kinh nghiệm và làm cho nó có sẵn để sử
dụng. Nó giống bộ não ở hai khía cạnh:
1. Kiến thức được mạng thu nhận từ môi trường của nó thông qua một quá trình học tập.
2. Cường độ kết nối interneuron, được gọi là trọng số của synap, được sử dụng để lưu
trữ kiến thức ac quy.
Thủ tục được sử dụng để thực hiện quá trình học được gọi là thuật toán học, chức năng của nó
là sửa đổi trọng số khớp thần kinh của mạng theo một cách có trật tự để đạt được mục tiêu thiết kế
mong muốn.
Việc sửa đổi trọng số khớp thần kinh cung cấp phương pháp truyền thống cho dấu hiệu của mạng
nơ-ron. Cách tiếp cận như vậy là cách tiếp cận gần nhất với lý thuyết bộ lọc thích ứng tuyến tính,
vốn đã được thiết lập và áp dụng thành công trong nhiều lĩnh vực đa dạng (Widrow và Stearns, 1985;
Haykin, 2002). Tuy nhiên, mạng nơ-ron cũng có thể sửa đổi cấu trúc liên kết của chính nó, được thúc
đẩy bởi thực tế là các nơ-ron trong não người có thể chết và các kết nối tiếp hợp mới có thể phát
triển.
Lợi ích của mạng thần kinh
Rõ ràng là mạng nơ-ron tạo ra sức mạnh tính toán của nó thông qua, thứ nhất, cấu trúc phân tán song
song khối lượng lớn của nó và thứ hai, khả năng học hỏi và do đó tổng quát hóa của nó. Tổng quát hóa
đề cập đến việc mạng nơ-ron tạo ra các đầu ra hợp lý cho các đầu vào không gặp phải trong quá trình
đào tạo (học tập). Hai khả năng xử lý thông tin này giúp mạng nơ-ron có thể tìm ra các giải pháp gần
đúng tốt cho các vấn đề phức tạp (quy mô lớn) khó giải quyết. Tuy nhiên, trong thực tế, mạng nơ-ron
không thể cung cấp giải pháp bằng cách làm việc riêng lẻ. Thay vào đó, chúng cần được tích hợp vào
một cách tiếp cận kỹ thuật hệ thống nhất quán. Cụ thể, một vấn đề phức tạp được quan tâm được phân
tách thành một số nhiệm vụ tương đối đơn giản và mạng nơ-ron được chỉ định một tập hợp con các nhiệm
vụ phù hợp với khả năng vốn có của chúng. Tuy nhiên, điều quan trọng là phải nhận ra rằng chúng ta
còn một chặng đường dài phía trước (nếu có) trước khi có thể xây dựng một kiến trúc máy tính bắt
chước bộ não con người.
Mạng nơron cung cấp các thuộc tính và khả năng hữu ích sau:
1. Tính phi tuyến. Một mạng nơron nhân tạo có thể là tuyến tính hoặc phi tuyến. Một mạng
nơron, được tạo thành từ sự kết nối với nhau của các nơron phi tuyến, bản thân nó là phi tuyến. Hơn
nữa, tính phi tuyến thuộc một loại đặc biệt theo nghĩa là nó được phân phối trong toàn bộ công việc
của mạng. Tính phi tuyến tính là một thuộc tính rất quan trọng, đặc biệt nếu vật lý cơ bản
Phần 1 Mạng Neural là gì? 3
cơ chế chịu trách nhiệm tạo ra tín hiệu đầu vào (ví dụ, tín hiệu lời nói) là phi tuyến tính.
2. Ánh xạ đầu vào - đầu ra. Một mô hình học tập phổ biến, được gọi là học với
giáo viên, hoặc học tập có giám sát, liên quan đến việc sửa đổi trọng số khớp thần kinh của mạng neur
al bằng cách áp dụng một tập hợp các ví dụ đào tạo được gắn nhãn hoặc ví dụ nhiệm vụ. Mỗi ví dụ
bao gồm một tín hiệu đầu vào duy nhất và một phản hồi (mục tiêu) mong muốn tương ứng .
được trình bày với một ví dụ được chọn ngẫu nhiên từ tập hợp và trọng số của khớp thần kinh
(các tham số miễn phí) của mạng được sửa đổi để giảm thiểu sự khác biệt giữa
phản hồi mong muốn và phản hồi thực tế của mạng được tạo ra bởi tín hiệu đầu vào trong
phù hợp với một tiêu chí thống kê thích hợp. Việc huấn luyện mạng được chờ đợi lại cho nhiều ví dụ
trong tập hợp, cho đến khi mạng đạt trạng thái ổn định ở đó
không có thay đổi đáng kể nào về trọng lượng khớp thần kinh. Các ví dụ về đào tạo đã áp dụng trước
đó có thể được áp dụng lại trong buổi đào tạo, nhưng theo một thứ tự khác.
mạng học hỏi từ các ví dụ bằng cách xây dựng ánh xạ đầu vào-đầu ra cho
vấn đề trong tầm tay. Cách tiếp cận như vậy gợi nhớ đến nghiên cứu thống kê phi tham số
suy luận, là một nhánh của thống kê liên quan đến ước tính không có mô hình, hoặc, theo quan điểm bi
oological, học tabula rasa (Geman và cộng sự, 1992); thuật ngữ “phi tham số”
được sử dụng ở đây để biểu thị thực tế là không có giả định trước nào được đưa ra trên một mô hình thống kê
cho dữ liệu đầu vào. Ví dụ, hãy xem xét một nhiệm vụ phân loại mẫu , trong đó yêu cầu lại là gán một
tín hiệu đầu vào đại diện cho một đối tượng hoặc sự kiện vật lý cho một trong các
một số danh mục (lớp) xác định trước. Trong cách tiếp cận phi tham số cho vấn đề này,
yêu cầu là "ước tính" các ranh giới quyết định tùy ý trong không gian tín hiệu đầu vào
đối với nhiệm vụ phân loại mẫu bằng cách sử dụng một tập hợp các ví dụ và để làm như vậy mà không cần gọi
một mô hình phân phối theo xác suất. Một quan điểm tương tự tiềm ẩn trong người được giám sát
mô hình học tập, gợi ý một sự tương đồng chặt chẽ giữa ánh xạ đầu vào - đầu ra mỗi được hình thành
bởi mạng nơron và suy luận thống kê phi tham số.
3. Tính thích nghi. Mạng nơron có khả năng tích hợp để điều chỉnh khớp thần kinh của chúng
trọng lượng đối với những thay đổi của môi trường xung quanh. Đặc biệt, một mạng nơ-ron
được đào tạo để hoạt động trong một môi trường cụ thể có thể dễ dàng đào tạo lại để đối phó với trẻ vị thành niên
thay đổi trong điều kiện môi trường hoạt động. Hơn nữa, khi nó đang hoạt động trong một
môi trường không cố định (tức là môi trường mà số liệu thống kê thay đổi theo thời gian), một công
trình mạng thần kinh có thể được thiết kế để thay đổi trọng lượng khớp thần kinh của nó trong thời
gian thực. Kiến trúc lưu trữ tự nhiên của mạng nơ-ron để phân loại mẫu, xử lý tín hiệu và điều khiển
các ứng dụng, cùng với khả năng thích ứng của mạng, làm cho nó trở thành một công cụ hữu ích
trong phân loại mẫu thích ứng, xử lý tín hiệu thích ứng và điều khiển thích ứng.
quy tắc chung, có thể nói rằng chúng ta tạo ra một hệ thống càng thích ứng, mọi lúc, với điều kiện
rằng hệ thống vẫn ổn định, thì hiệu suất của nó càng mạnh mẽ hơn
khi hệ thống được yêu cầu hoạt động trong môi trường không cố định. Nó nên được
tuy nhiên, nhấn mạnh rằng sự thích nghi không phải lúc nào cũng dẫn đến sự mạnh mẽ; thực sự, nó có thể
làm ngược lại. Ví dụ, một hệ thống thích ứng với các hằng số thời gian ngắn có thể
thay đổi nhanh chóng và do đó có xu hướng phản ứng với các nhiễu giả, gây ra sự suy giảm hiệu suất
của hệ thống.
nhiễu giả, nhưng đủ ngắn để đáp ứng với những thay đổi có ý nghĩa trong
4 Giới thiệu
Môi trường; vấn đề được mô tả ở đây được gọi là tình trạng tiến thoái lưỡng nan về độ ổn định - độ
dẻo (Grossberg, 1988).
4. Phản hồi bảo mật. Trong bối cảnh phân loại mẫu, mạng nơ-ron có thể được thiết kế để cung
cấp thông tin không chỉ về mẫu cụ thể nào cần chọn mà còn về độ tin cậy trong quyết định được đưa
ra. và do đó cải thiện hiệu suất phân loại của mạng.
5. Thông tin theo ngữ cảnh. Kiến thức được biểu thị bằng chính cấu trúc và trạng thái kích
hoạt của mạng nơ-ron. Mọi nơ-ron trong mạng đều có khả năng bị ảnh hưởng bởi hoạt động chung của
tất cả các nơ-ron khác trong mạng. Do đó, thông tin theo ngữ cảnh được xử lý một cách tự nhiên bởi
một mạng nơ-ron.
6. Khả năng chịu lỗi. Mạng nơ-ron, được triển khai dưới dạng phần cứng, có khả năng chịu lỗi
vốn có, hoặc có khả năng tính toán mạnh mẽ, theo nghĩa là hiệu suất của nó giảm đi một cách duyên
dáng trong các điều kiện hoạt động bất lợi.
Ví dụ, nếu một tế bào thần kinh hoặc các liên kết kết nối của nó bị hỏng, việc nhớ lại một con
nhạn biển được lưu trữ sẽ bị giảm chất lượng. Tuy nhiên, do tính chất phân tán của thông tin được
lưu trữ trong mạng, thiệt hại phải xảy ra trên diện rộng trước khi phản ứng tổng thể của mạng bị
suy giảm nghiêm trọng. Vì vậy, về nguyên tắc, mạng nơ-ron thể hiện sự suy giảm hiệu suất một cách
đáng kể hơn là thất bại thảm hại. Có một số bằng chứng thực nghiệm về tính toán mạnh mẽ, nhưng
thông thường nó không được kiểm soát. Để đảm bảo rằng mạng nơron trên thực tế là có khả năng chịu
lỗi, có thể cần thực hiện các biện pháp khắc phục trong việc thiết kế thuật toán được sử dụng để
huấn luyện mạng (Kerlirzin và Vallet, 1993).
7. Khả năng thực hiện VLSI : Tính chất song song của mạng nơ-ron khiến nó có khả năng nhanh
chóng cho việc tính toán các tác vụ nhất định. Tính năng tương tự này làm cho một mạng nơ-ron rất
phù hợp để triển khai bằng cách sử dụng khoa học công nghệ tích hợp (VLSI) quy mô rất lớn . Một ưu
điểm đặc biệt có lợi của VLSI là nó cung cấp một phương tiện để nắm bắt các hành vi thực sự phức
tạp theo kiểu phân cấp cao (Mead, 1989).
8. Tính đồng nhất của Phân tích và Thiết kế. Về cơ bản, mạng nơ-ron được sử dụng phổ biến
như bộ xử lý thông tin. Chúng tôi nói điều này theo nghĩa rằng cùng một ký hiệu được sử dụng trong
tất cả các lĩnh vực liên quan đến việc ứng dụng mạng nơ-ron. Tính năng này thể hiện theo những cách
khác nhau:
• Tế bào thần kinh, ở dạng này hay dạng khác, đại diện cho một thành phần chung cho tất cả các tế bào thần kinh
mạng lưới.
• Tính tương đồng này giúp bạn có thể chia sẻ các lý thuyết và thuật toán học tập trong
các ứng dụng khác nhau của mạng nơ-ron.
• Mạng mô-đun có thể được xây dựng thông qua sự tích hợp liền mạch của các mô-đun.
9. Tương tự sinh học thần kinh. Việc thiết kế mạng nơ-ron được thúc đẩy bởi sự tương tự với
bộ não, đó là bằng chứng sống cho thấy quá trình xử lý song song có khả năng chịu lỗi không chỉ khả
thi về mặt vật lý mà còn nhanh và mạnh mẽ. Các nhà sinh học thần kinh xem xét mạng lưới thần kinh
(nhân tạo) như một công cụ nghiên cứu để giải thích các hiện tượng ical sinh học thần kinh. Mặt
khác, các kỹ sư tìm đến sinh học thần kinh để tìm ra những ý tưởng mới nhằm giải quyết những vấn đề
phức tạp hơn những vấn đề dựa trên thiết kế có dây thông thường.
Phần 1 Mạng Neural là gì? 5
kỹ thuật. Hai quan điểm này được minh họa bằng hai ví dụ tương ứng sau:
• Trong Anastasio (1993), các mô hình hệ thống tuyến tính của phản xạ tiền đình-mắt (VOR) được
so sánh với các mô hình mạng thần kinh dựa trên mạng lặp lại, được mô tả trong Phần 6 và
được thảo luận chi tiết trong Chương 15. Phản xạ tiền đình-mắt là một phần của hệ thống vận
động cơ. tín hiệu quay từ các tế bào thần kinh cảm giác tiền đình và gửi kết quả đến các tế
bào thần kinh vận động cơ mắt. VOR rất thích hợp để lập mô hình vì đầu vào (xoay đầu) và
đầu ra (xoay mắt) có thể được chỉ định chính xác. Nó cũng là một phản xạ tương đối đơn giản,
và các mối liên hệ thích hợp về sinh lý thần kinh của các tế bào thần kinh cấu thành của nó
đã được mô tả rõ ràng. Trong số ba loại thần kinh, các tế bào thần kinh tiền đình (phản xạ
interneurons) trong nhân tiền đình là phức tạp nhất và do đó thú vị nhất. Những mô hình này
rất hữu ích trong việc giải thích một số đặc tính tổng thể của VOR, nhưng cung cấp cái nhìn
sâu sắc về các đặc tính của các nơ-ron cấu thành của nó. Tình trạng này đã được cải thiện
rất nhiều thông qua mô hình mạng nơ-ron. Các mô hình mạng lặp lại của VOR (được lập trình
bằng thuật toán gọi là học lặp lại thời gian thực, được mô tả trong Chương 15) có thể tái
tạo và giúp giải thích nhiều khía cạnh tĩnh, dy namic, phi tuyến và phân tán của quá trình
xử lý tín hiệu bởi các nơ-ron trung gian VOR , đặc biệt là các tế bào thần kinh nhân tiền
đình. • Võng mạc, hơn bất kỳ bộ phận nào khác của não, là nơi chúng ta bắt đầu tập hợp các
mối quan hệ giữa thế giới bên ngoài được thể hiện bằng cảm giác trực quan, hình ảnh vật lý
của nó được chiếu lên một loạt các thụ thể và các hình ảnh thần kinh đầu tiên. Võng mạc là
một tấm mỏng mô thần kinh nằm ở phía sau bán cầu của nhãn cầu. Nhiệm vụ của võng mạc là
chuyển đổi một hình ảnh quang học thành một hình ảnh thần kinh để truyền xuống dây thần
kinh thị giác đến vô số trung tâm để phân tích sâu hơn. Đây là một nhiệm vụ phức tạp, bằng
chứng là tổ chức tiếp hợp của võng mạc. Trong tất cả các võng mạc của động vật có xương sống,
sự chuyển đổi từ hình ảnh quang học sang hình ảnh thần kinh bao gồm ba giai đoạn (Sterling,
1990):
(i) sự truyền ảnh bởi một lớp tế bào thần kinh thụ cảm; (ii)
truyền các tín hiệu kết quả (được tạo ra khi phản ứng với ánh sáng) bằng chem
khớp thần kinh ical đến một lớp tế bào lưỡng cực;
(iii) truyền các tín hiệu này, cũng bằng các khớp thần kinh hóa học, để xuất ra các tế bào
thần kinh được gọi là tế bào hạch.
Ở cả hai giai đoạn tiếp hợp (tức là từ cơ quan thụ cảm đến tế bào lưỡng cực và từ tế bào
lưỡng cực đến tế bào hạch), có các tế bào thần kinh chuyên biệt được kết nối theo bên được
gọi là tế bào ngang và tế bào amacrine, tương ứng. Nhiệm vụ của các tế bào thần kinh này là
điều chỉnh sự truyền dẫn qua các lớp tiếp hợp. Ngoài ra còn có các phần tử ly tâm được gọi
là tế bào inter-plexiform; nhiệm vụ của chúng là truyền tín hiệu từ lớp tiếp hợp bên trong
trở lại lớp bên ngoài. Một số nhà nghiên cứu đã chế tạo chip điện tử mô phỏng cấu trúc của
võng mạc. Các chip điện tử này được gọi là các mạch điện tử nguyên sinh thần kinh , một
thuật ngữ được đặt ra bởi Mead (1989). Một cảm biến hình ảnh thần kinh
6 Giới thiệu
bao gồm một dãy các cơ quan thụ cảm quang kết hợp với mạch tương tự tại mỗi phần tử hình
ảnh (pixel). Nó mô phỏng võng mạc trong đó nó có thể thích ứng cục bộ với những thay đổi
về độ sáng, phát hiện các cạnh và phát hiện chuyển động. Tương tự sinh học thần kinh,
được ví dụ bởi các mạch tích hợp thần kinh đa hình, rất hữu ích trong một
cách: Nó cung cấp một hy vọng và niềm tin, và ở một mức độ nhất định là sự tồn tại của bằng chứng, rằng
sự hiểu biết vật lý về các cấu trúc sinh học thần kinh có thể có ảnh hưởng hiệu quả đến
nghệ thuật điện tử và công nghệ VLSI để thực hiện
mạng nơ-ron.
Với cảm hứng từ sinh học thần kinh trong tâm trí, có vẻ như chúng tôi thích hợp
cái nhìn ngắn gọn về bộ não con người và các cấp độ cấu trúc của tổ chức.
2 VÒNG TAY CON NGƯỜI
Hệ thống thần kinh của con người có thể được xem như một hệ thống ba giai đoạn, như được mô tả trong khối
sơ đồ hình 1 (Arbib, 1987). Trung tâm của hệ thống là bộ não, được biểu thị bằng nơron
mạng (dây thần kinh), liên tục nhận thông tin, nhận thức và điều chỉnh
các quyết định. Hai bộ mũi tên được thể hiện trong hình. Những đường chỉ tay từ trái sang phải
điều chỉnh việc truyền tải về phía trước các tín hiệu mang thông tin qua hệ thống. Các
các mũi tên chỉ từ phải sang trái (được hiển thị bằng màu đỏ) biểu thị sự hiện diện của phản hồi
trong tem hệ thống.
các xung điện truyền tải thông tin đến mạng lưới thần kinh (não) .
các xung điện do mạng thần kinh tạo ra thành các phản ứng có thể nhận biết được dưới dạng đầu ra của hệ thống.
Cuộc đấu tranh để hiểu về bộ não đã trở nên dễ dàng hơn nhờ công trình nghiên cứu của
Ramón y Cajál (1911), người đã đưa ra ý tưởng về các tế bào thần kinh như là thành phần cấu tạo
của bộ não. Thông thường, các tế bào thần kinh có kích thước từ 5 đến 6 bậc
chậm hơn cổng logic silicon; các sự kiện trong chip silicon xảy ra trong phạm vi nano giây,
trong khi các sự kiện thần kinh xảy ra trong phạm vi mili giây. Tuy nhiên, bộ não tạo nên
cho tốc độ hoạt động tương đối chậm của một tế bào thần kinh bằng cách có một số lượng tế bào
thần kinh (tế bào thần kinh) thực sự đáng kinh ngạc với các liên kết lớn giữa chúng. Nó được ước tính
rằng có khoảng 10 tỷ tế bào thần kinh trong vỏ não của con người, và 60 nghìn tỷ
khớp thần kinh hoặc kết nối (Shepherd và Koch, 1990). Kết quả ròng là bộ não
một cấu trúc cực kỳ hiệu quả. Cụ thể, hiệu suất năng lượng của não là khoảng 10-16 joules (J)
mỗi hoạt động mỗi giây, trong khi giá trị tương ứng
đối với máy tính tốt nhất là đơn đặt hàng có độ lớn lớn hơn.
Các khớp thần kinh, hay đầu dây thần kinh, là các đơn vị cấu trúc và chức năng cơ bản mà
tôi xác định được tương tác giữa các tế bào thần kinh.
synap, hoạt động như sau: Quá trình tiền synap giải phóng vị trí phụ dẫn truyền khuếch tán qua
điểm nối tiếp hợp giữa các tế bào thần kinh và sau đó hoạt động theo quá trình sau synap. Do đó,
khớp thần kinh chuyển đổi tín hiệu điện trước khớp thần kinh thành một chất hóa học
Thần kinh
Kích thích Receptor Hiệu ứng Phản ứng
mạng lưới
HÌNH 1 Biểu diễn sơ đồ khối của hệ thần kinh.

Phần 2 Bộ não con người 7
tín hiệu và sau đó trở lại thành tín hiệu điện sau synap (Shepherd và Koch, 1990). Trong thuật
ngữ điện, một phần tử như vậy được cho là một thiết bị hai cổng phi nguyên tử. Trong các mô tả
truyền thống về tổ chức thần kinh, người ta cho rằng khớp thần kinh là một cấu trúc liên kết đơn
giản có thể tạo ra kích thích hoặc ức chế, nhưng không phải cả hai đối với tế bào thần kinh tiếp nhận.
Trước đó chúng ta đã đề cập rằng tính dẻo cho phép hệ thần kinh phát triển thích nghi với
môi trường xung quanh (Eggermont, 1990; Churchland và Sejnowski, 1992). Trong não người lớn, tính
dẻo có thể được giải thích bởi hai cơ chế: tạo ra các kết nối khớp thần kinh mới giữa các tế bào
thần kinh và sửa đổi các khớp thần kinh hiện có.
Sợi trục, đường truyền và đuôi gai, vùng tiếp nhận, tạo thành hai loại sợi tế bào được phân biệt
trên cơ sở hình thái học; sợi trục có bề mặt nhẵn hơn, ít nhánh hơn và chiều dài lớn hơn, trong
khi sợi trục (được gọi như vậy vì giống cây) có bề mặt không đều và nhiều nhánh hơn (Freeman,
1975).
Tế bào thần kinh có nhiều hình dạng và kích thước khác nhau ở các phần khác nhau của não.
Hình 2 minh họa hình dạng của tế bào hình chóp, là một trong những loại tế bào thần kinh vỏ não
phổ biến nhất. Giống như nhiều loại tế bào thần kinh khác, nó nhận hầu hết các đầu vào thông qua
các gai đuôi gai; xem phân đoạn của dendrite trong phần chèn trong Hình 2 để biết chi tiết.
Tế bào hình chóp có thể nhận 10.000 tiếp điểm synap trở lên và nó có thể chiếu lên hàng nghìn tế
bào đích.
Phần lớn các tế bào thần kinh mã hóa đầu ra của chúng thành một chuỗi các xung điện áp ngắn.
3
Các xung này, thường được gọi là điện thế hoạt động, hoặc xung đột, bắt nguồn tại hoặc gần thân
tế bào của tế bào thần kinh và sau đó truyền qua các tế bào thần kinh riêng lẻ với vị trí và biên
độ không đổi. Lý do sử dụng các điện thế hoạt động để truyền thông tin giữa các nơron dựa trên
tính chất vật lý của các sợi trục. Sợi trục của nơron rất dài và mỏng, có đặc điểm là điện trở
cao và điện dung rất lớn. Cả hai yếu tố này đều được phân bố trên sợi trục. Do đó, sợi trục có
thể được mô hình hóa là đường truyền tải điện trở (RC), do đó, việc sử dụng phổ biến “cáp đồng
trục” làm thuật ngữ để mô tả sự truyền tín hiệu dọc theo sợi trục. một đầu của sợi trục, nó phân
rã theo cấp số nhân theo khoảng cách, giảm xuống mức không đáng kể vào thời điểm nó tiếp cận đầu
kia. Điện thế hoạt động cung cấp một cách để giải quyết vấn đề truyền dẫn này (Anderson, 1995).
Trong não có cả các tổ chức giải phẫu quy mô nhỏ và quy mô lớn, các chức năng khác nhau
diễn ra ở cấp độ thấp hơn và cao hơn. Hình 3 cho thấy một hệ thống phân cấp gồm nhiều cấp độ tổ
chức đã xuất hiện từ công trình nghiên cứu sâu rộng được thực hiện về phân tích các vùng cục bộ
trong não (Shepherd và Koch, 1990; Churchland và Sejnow ski, 1992). Các khớp thần kinh đại diện
cho mức cơ bản nhất, phụ thuộc vào các phân tử và ion cho hoạt động của chúng. Ở các cấp độ tiếp
theo, chúng ta có vi mạch thần kinh, cây đuôi gai và sau đó là tế bào thần kinh. Vi mạch thần
kinh đề cập đến một tập hợp các khớp thần kinh được tổ chức thành các mẫu kết nối để tạo ra một
hoạt động chức năng được quan tâm. Một microcir cuit thần kinh có thể được ví như một con chip
silicon được tạo thành từ một tập hợp các bóng bán dẫn. Kích thước nhỏ nhất của microcircuits
được đo bằng micromet (m) và tốc độ hoạt động nhanh nhất của chúng được đo bằng mili giây. Các
tiểu đơn vị đuôi gai bên trong các cây đuôi gai của các tế bào thần kinh riêng lẻ. Toàn bộ tế bào
thần kinh, kích thước khoảng 100 m, chứa một số tiểu đơn vị đuôi gai. Ở mức độ phức tạp tiếp theo,
chúng ta có các mạch cục bộ ( kích thước khoảng 1 mm) được tạo thành từ các tế bào thần kinh tương
tự hoặc các thuộc tính khác nhau; những thần kinh này
8 Giới thiệu
Gai
Đầu vào
synap
Đuôi
gai
Bộ phận
của dendrite
Cơ
thể tế bào
Đuôi
gai cơ bản
Axon
Thiết bị
đầu cuối synap
HÌNH 2 Tế bào hình chóp.
Các tập hợp thực hiện các hoạt động đặc trưng của một vùng cục bộ
trong não.
Bản đồ địa hình được tổ chức để phản hồi thông tin giác quan đến.
Những bản đồ này thường được sắp xếp trong các trang tính, như trong colliculus cao cấp, nơi trực quan,
Phần 2 Bộ não con người 9
HÌNH 3 Cấu trúc tổ

Hệ thống thần kinh trung ương
chức các cấp trong não.
Các mạch liên vùng
Mạch cục bộ
Tế bào thần kinh
Cây đuôi gai
Vi mạch thần kinh
Synapses
Phân tử
bản đồ thính giác và thính giác được xếp chồng lên nhau trong các lớp liền kề theo
cách mà các kích thích từ các điểm tương ứng trong không gian nằm trên hoặc dưới nhau.
Hình 4 trình bày bản đồ kiến trúc tế bào của vỏ não do Brodmann nghiên cứu (Brodal,
1981). Hình này cho thấy rõ ràng rằng các đầu vào cảm giác khác nhau (vận động, thị
giác, thị giác, thính giác, v.v.) được ánh xạ vào các vùng tương ứng của vỏ não theo
một cách có trật tự. Ở mức độ phức tạp cuối cùng, bản đồ địa hình và các mạch liên vùng
khác làm trung gian cho các loại hành vi cụ thể trong hệ thần kinh trung ương.
Điều quan trọng là phải nhận ra rằng các cấp độ cấu trúc của tổ chức được mô tả
ở đây là một đặc điểm riêng của não. Chúng không được tìm thấy trong máy tính digi tal
và chúng tôi cũng không thể tạo lại chúng bằng các công trình mạng thần kinh nhân tạo.
Tuy nhiên, chúng ta đang tiến dần tới một hệ thống phân cấp các cấp độ tính toán tương
tự như mô tả trong Hình 3. Các nơ-ron nhân tạo mà chúng tôi sử dụng để xây dựng mạng
lưới thần kinh của mình thực sự nguyên thủy so với các nơ-ron được tìm thấy trong não.
Các mạng lưới thần kinh mà chúng ta có thể thiết kế hiện nay chỉ là sơ khai so với các
mạch cục bộ và các mạch liên vùng trong não. Tuy nhiên, điều thực sự hài lòng là sự
tiến bộ vượt bậc mà chúng tôi đã đạt được trên rất nhiều mặt. Với sự tương tự sinh học
thần kinh là nguồn cảm hứng và sự phong phú của các công cụ lý thuyết và tính toán mà
chúng ta đang kết hợp với nhau, chắc chắn rằng sự hiểu biết của chúng ta về mạng thần
kinh nhân tạo và các ứng dụng của chúng sẽ tiếp tục phát triển theo chiều sâu cũng như
bề rộng, năm này qua năm khác .
10 Giới thiệu
4
6
2 1 3
số 8
5
7
19
10 40
39
18
45 44 43 41
42
47 22
17
11 21
38
18
37 19
20
HÌNH 4 Bản đồ kiến trúc tế bào của vỏ não. Các khu vực khác nhau được xác định bằng
độ dày của các lớp và loại tế bào bên trong chúng. Một số vùng cảm giác chính như sau:
Vỏ não vận động: dải vận động, vùng 4; khu tiền thân, khu 6; vùng trước mắt, vùng 8. Vỏ
não bộ cảm: vùng 3, 1 và 2. Vỏ não thị giác: vùng 17, 18 và 19. Vỏ thính giác: vùng 41
và 42. (Từ A. Brodal, 1981; với sự cho phép của Đại học Oxford Nhấn.)
3 MÔ HÌNH CỦA MỘT NEURON
Nơron là một đơn vị xử lý thông tin cơ bản cho hoạt động của mạng thần kinh. Sơ đồ khối của Hình 5 cho
thấy mô hình của một nơ-ron, là cơ sở để thiết kế một họ mạng nơ-ron lớn được nghiên cứu trong các
chương sau. Ở đây, chúng tôi xác định ba yếu tố cơ bản của mô hình thần kinh:
1. Một tập hợp các khớp thần kinh, hoặc các liên kết kết nối, mỗi liên kết được đặc trưng bởi trọng
lượng hoặc độ mạnh của riêng nó. Cụ thể, một tín hiệu xj ở đầu vào của khớp thần kinh j kết nối
với nơron k được nhân với trọng số của khớp thần kinh wkj. Điều quan trọng là phải ghi lại cách
thức mà các chỉ số phụ của wkj trọng lượng khớp thần kinh được viết. Chỉ số con đầu tiên trong
wkj đề cập đến tế bào thần kinh được đề cập và chỉ số con thứ hai đề cập đến đầu vào của khớp
thần kinh mà trọng số đề cập đến. Không giống như trọng lượng của khớp thần kinh trong não,
trọng lượng khớp thần kinh của một tế bào thần kinh nhân tạo có thể nằm trong một phạm vi bao
gồm các giá trị âm và dương.
2. Một bộ cộng để tổng hợp các tín hiệu đầu vào, được tính theo cường độ tiếp hợp tương ứng của tế
bào thần kinh; các hoạt động được mô tả ở đây tạo thành một bộ kết hợp tuyến tính.
3. Một chức năng kích hoạt để giới hạn biên độ đầu ra của một tế bào thần kinh. Chức năng điều
chỉnh ac còn được gọi là một chức năng bóp méo, trong đó nó bóp méo (giới hạn) phạm vi biên độ
cho phép của tín hiệu đầu ra đến một giá trị hữu hạn nào đó.
Phần 3 Các mô hình của Neuron 11
Bias HÌNH 5 Mô hình phi tuyến của
bk nơron, có nhãn là k.
x1 wk1
Chức năng
kích hoạt
x2 wk2
Σ yk Đầu ra
Tín
w ()
hiệu đầu vào
yk
• •
• •
• • Tổng hợp
đường giao nhau
xm wkm
Trọng số
synap
Thông thường, phạm vi biên độ chuẩn hóa của đầu ra nơ-ron được viết dưới
dạng khoảng đơn vị đóng [0,1], hoặc, cách khác, [-1,1].
Mô hình thần kinh của Hình 5 cũng bao gồm độ lệch được áp dụng bên ngoài, được ký
hiệu là bk. Bias bk có tác dụng làm tăng hoặc giảm đầu vào ròng của hàm kích hoạt,
tùy thuộc vào việc nó là tích cực hay tiêu cực, tương ứng.
Theo thuật ngữ toán học, chúng ta có thể mô tả nơ-ron k được mô tả trong Hình 5 bằng
cách viết cặp phương trình:
uk = a wkjxj (1)
j = 1
và
yk = (uk + bk)
(2) trong đó x1, x2, ..., xm là các tín hiệu đầu vào; wk1, wk2, ..., wkm là trọng số tiếp hợp
tương ứng của nơron k; uk (không được hiển thị trong Hình 5) là đầu ra của bộ kết hợp tuyến
tính do các tín hiệu đầu vào; bk là sự thiên vị; „(·) Là hàm kích hoạt; và yk là tín hiệu đầu
ra của nơron. Việc sử dụng bias bk có tác dụng áp dụng một phép biến đổi affine cho uk đầu ra
của bộ kết hợp tuyến tính trong mô hình của Hình 5, như được minh họa bởi
vk = uk + bk (3)
Đặc biệt, tùy thuộc vào độ lệch bk là tích cực hay tiêu cực, mối quan hệ giữa trường
cục bộ gây ra hoặc điện thế kích hoạt, vk của nơron k và đầu ra kết hợp tuyến tính uk
được sửa đổi theo cách được minh họa trong Hình 6; sau đây, hai thuật ngữ này được sử
dụng thay thế cho nhau. Lưu ý rằng do kết quả của phép biến đổi affine này, đồ thị
của vk so với uk không còn đi qua điểm gốc nữa.
Bias bk là một tham số bên ngoài của nơron k. Chúng tôi có thể tính đến sự
hiện diện của nó như trong Phương trình (2).
m
v k
= a wkjxj (4)
j = 0
12 Giới thiệu
HÌNH 6 Phép biến đổi Affine được tạo ra bởi sự hiện diện Trường
của một sai lệch; lưu ý rằng vk bk tại uk 0. cục bộ Bias bk 0
cảm ứng yk
bk 0
bk 0
Đầu ra bộ kết hợp
tuyến tính uk
và
yk = (vk) (5)
Trong Eq. (4), chúng tôi đã thêm một khớp thần kinh mới. Đầu vào của nó là
x0 = +1 (6)
và trọng lượng của nó là
wk0 = bk (7)
Do đó, chúng ta có thể định dạng lại mô hình của nơron k như trong Hình 7. Trong hình
này, ảnh hưởng của sai lệch được tính bằng cách thực hiện hai việc: (1) thêm tín hiệu
đầu vào mới được cố định ở 1 và (2) thêm một trọng lượng synap mới bằng bk thiên vị .
Mặc dù các mô hình của Figs. 5 và 7 khác nhau về ngoại hình, chúng tương đương về mặt toán học.
1 wk0 bk
Đầu vào cố định x0 wk0
x1 wk1
Chức năng
kích hoạt
x2 wk2
yk
Σ
Đầu ra
Đầu vào w ()
yk
• •
• •
• • Tổng hợp
đường giao nhau
xm wkm
Trọng số
synap
(bao gồm cả độ lệch)
HÌNH 7 Một mô hình phi tuyến khác của nơron; w k0 giải thích cho sự thiên vị bk .
Phần 3 Các mô hình của Neuron 13
Các loại chức năng kích hoạt
Hàm kích hoạt, ký hiệu là (v), xác định đầu ra của một nơ-ron
trường cục bộ cảm ứng v. Trong phần sau, chúng tôi xác định hai loại kích hoạt cơ bản
chức năng:
1. Chức năng Ngưỡng. Đối với loại chức năng kích hoạt này, được mô tả trong Hình 8a,
chúng ta có
(số 8)
0 nếu
(v) = e 1 nếu vv 60 0
Trong kỹ thuật, dạng hàm ngưỡng này thường được gọi là Heaviside
hàm số. Tương ứng, đầu ra của nơron k sử dụng hàm ngưỡng như vậy
được thể hiện như
yk (9)
= e 1
0 nếu vk 0
6 0
ở đâu v k là trường cục bộ cảm ứng của nơron; đó là,
v k
= a wkjxj + bk (10)
j = 1
HÌNH 8 (a) Hàm ngưỡng.

(b) Chức năng Sigmoid để thay đổi
tham số độ dốc a.
w (v)
2 1,5 1 0,5 0 0,5 1 1,5 2

v
(một)
w (v)
Tăng
một
10 8 6 4 2 024 8 6 10
v
(b)
14 Giới thiệu
Trong tính toán nơron, một nơron như vậy được gọi là mô hình McCulloch – Pitts,
để ghi nhận công trình tiên phong được thực hiện bởi McCulloch và Pitts (1943).
Trong mô hình này, đầu ra của một nơ-ron nhận giá trị 1 nếu trường cục bộ cảm ứng
của nơ-ron đó không âm và 0 nếu không .
2. Hàm Sigmoid.4 Hàm sigmoid, có đồ thị là hình chữ “S”, cho đến nay là
dạng hàm kích hoạt phổ biến nhất được sử dụng trong việc xây dựng các công trình
mạng nơ ron. Nó được định nghĩa là một hàm tăng nghiêm ngặt thể hiện sự cân bằng
duyên dáng giữa hành vi tuyến tính và phi tuyến tính. Một ví dụ về hàm sigmoid là hàm
5
logistic, Được định nghĩa bởi
1
(v) (11)
= 1 + exp (-av)
trong đó a là tham số độ dốc của hàm sigmoid. Bằng cách thay đổi tham số a, chúng
ta thu được các hàm sigmoid của các độ dốc khác nhau, như được minh họa trong Hình
8b. Trong thực tế, hệ số góc tại gốc tọa độ bằng a / 4. Trong giới hạn, khi tham
số độ dốc tiến đến vô cùng, hàm sig moid đơn giản trở thành một hàm ngưỡng. rằng
hàm sigmoid có thể phân biệt được, trong khi hàm ngưỡng thì không. (Tính khác biệt
là một đặc điểm quan trọng của lý thuyết mạng nơron, như được mô tả trong Chương
4).
Các chức năng kích hoạt được xác định trong Eqs. (8) và (11) nằm trong khoảng
từ 0 đến 1. Đôi khi mong muốn có phạm vi hàm kích hoạt từ -1 đến 1, trong trường
hợp đó, hàm kích hoạt là một hàm lẻ của trường cục bộ cảm ứng. Cụ thể, hàm ngưỡng
của Eq. (8) bây giờ được định nghĩa là
0 nếu v = 0 (12)
(v) = • -1 nếu vv 7
1 nếu 6 0
0
thường được gọi là hàm dấu hiệu. Đối với dạng tương ứng của một hàm sigmoid, chúng ta
có thể sử dụng hàm tiếp tuyến hyperbol, được xác định bởi
(v) = tanh (v) (13)
Cho phép một hàm kích hoạt của loại sigmoid giả định các giá trị âm như được ghi chép trước
bởi Eq. (13) có thể mang lại những lợi ích thiết thực so với chức năng logistic của Eq. (11).
Mô hình ngẫu nhiên của một Neuron
Mô hình thần kinh được mô tả trong Hình 7 là xác định ở chỗ hành vi đầu vào - đầu ra của nó
được xác định chính xác cho tất cả các đầu vào. Đối với một số ứng dụng của mạng nơron, việc
phân tích dựa trên mô hình thần kinh ngẫu nhiên là có thể thực hiện được. Trong một cách tiếp
cận có thể phân tích được, chức năng kích hoạt của mô hình McCulloch – Pitts được đưa ra một
cách diễn giải theo xác suất. Cụ thể, một tế bào thần kinh chỉ được phép cư trú ở một trong hai trạng thái:
Phần 4 Mạng nơron được xem dưới dạng đồ thị có hướng 15
hoặc -1, nói. Quyết định cho một tế bào thần kinh kích hoạt (tức là chuyển trạng thái của nó từ “tắt” sang “bật”) là
có tính xác suất. Gọi x biểu thị trạng thái của nơ-ron và P (v) biểu thị xác suất của
bắn, trong đó v là trường cục bộ cảm ứng của nơron. Sau đó chúng tôi có thể viết
(14)
x = e +1-1với
vớixác
xácsuất
suấtP 1(v)
- P (v)
Một lựa chọn tiêu chuẩn cho P (v) là hàm hình sigmoid
1
P (v) = (15)
1 + exp (-v T)
trong đó T là nhiệt độ giả được sử dụng để kiểm soát mức độ tiếng ồn và do đó không chắc chắn khi
bắn (Little, 1974). Tuy nhiên, điều quan trọng là phải nhận ra rằng T không phải là nhiệt độ vật lý
của mạng nơron, có thể là mạng sinh học hoặc mạng nơron nhân tạo.
Thay vào đó, như đã nêu, chúng ta nên nghĩ về T chỉ đơn thuần là một tham số điều khiển
dao động nhiệt đại diện cho ảnh hưởng của nhiễu tiếp hợp. Lưu ý rằng khi TS 0 ,các
tế bào thần kinh ngẫu nhiên được mô tả bởi Eqs. (14) và (15) giảm xuống dạng không ồn ào (tức là
định nghĩa xác định), cụ thể là, mô hình McCulloch – Pitts.
4 MẠNG NÔNG THÔN ĐƯỢC XEM LÀ GRAPHS ĐƯỢC CHỈ ĐẠO
Sơ đồ khối của Hình 5 hoặc của Hình 7 cung cấp mô tả chức năng của các phần tử var ious cấu thành
mô hình của một nơ-ron nhân tạo. hy sinh bất kỳ
các chi tiết chức năng của mô hình. Biểu đồ luồng tín hiệu, với một bộ quy tắc được xác định rõ ràng,
ban đầu được phát triển bởi Mason (1953, 1956) cho các mạng tuyến tính. Sự hiện diện của
tính phi tuyến tính trong mô hình nơ-ron giới hạn phạm vi ứng dụng của chúng đối với các công trình
mạng nơ-ron. Tuy nhiên, biểu đồ luồng tín hiệu cung cấp một phương pháp gọn gàng để mô tả
luồng tín hiệu trong mạng nơ-ron mà chúng tôi theo đuổi trong phần này.
Biểu đồ luồng tín hiệu là một mạng lưới các liên kết có hướng (nhánh) được kết nối với nhau
tại các điểm nhất định được gọi là các nút. Một nút j điển hình có một tín hiệu nút liên kết xj .
Một liên kết có hướng điển hình bắt nguồn từ nút j và kết thúc trên nút k; nó có một chức năng
truyền ở mức độ kết hợp, hoặc chức năng truyền, chỉ định cách thức mà tín hiệu yk
tại nút k phụ thuộc vào tín hiệu xj tại nút j. Luồng tín hiệu trong các phần khác nhau của
biểu đồ được quy định bởi ba quy tắc cơ bản:
Quy tắc 1. Một tín hiệu chỉ chảy dọc theo một liên kết theo hướng được xác định bởi mũi tên trên
liên kết.
Hai loại liên kết khác nhau có thể được phân biệt:
• Các liên kết synap, có hành vi được điều chỉnh bởi quan hệ đầu vào - đầu ra tuyến tính . Nếu
một cách cụ thể, tín hiệu nút
j x được nhân với trọng số của khớp thần kinh để
kj tạo ra
tín hiệu nút yk, như minh họa trong Hình 9a.
• Các liên kết kích hoạt, có hành vi nói chung được điều chỉnh bởi một đầu ra phi tuyến tính
quan hệ. Dạng quan hệ này được minh họa trong Hình 9b, trong đó (·) là hàm kích hoạt phi
tuyến tính.
16 Giới thiệu
HÌNH 9 mô tả các quy tắc cơ bản để wkj

xây dựng đồ thị luồng tín hiệu. xj yk wkjxj
(một)
w ()
xj yk w (xj )
(b)
yi
yk yi yj
yj
(c)
xj
xj
xj
(d)
Quy tắc 2. Một tín hiệu nút bằng tổng đại số của tất cả các tín hiệu đi vào
nút thông qua các liên kết đến.
Quy tắc thứ hai này được minh họa trong Hình 9c cho trường hợp hội tụ synap, hoặc hình quạt.
Quy tắc 3. Tín hiệu tại một nút được truyền đến mỗi liên kết đi xuất phát từ nút đó, với
việc truyền hoàn toàn độc lập với các chức năng truyền của các liên kết đi.
Quy tắc thứ ba này được minh họa trong Hình 9d cho trường hợp phân kỳ synap, hoặc hình quạt ra.
Ví dụ, bằng cách sử dụng các quy tắc này, chúng ta có thể xây dựng biểu đồ luồng tín hiệu của Hình
10 như mô hình của một nơ-ron, tương ứng với sơ đồ khối của Hình 7. Biểu diễn trong Hình 10 rõ ràng là đơn
giản hơn thế của Hình 7, nhưng nó chứa tất cả các chi tiết chức năng được mô tả trong sơ đồ sau. Lưu ý
rằng trong cả hai hình, đầu vào x0 1 và trọng số tiếp hợp liên quan wk0 bk, trong đó bk là độ lệch áp dụng
cho nơron k.
Thật vậy, dựa trên biểu đồ luồng tín hiệu của Hình 10 như là mô hình của một nơ-ron, chúng ta có thể
bây giờ đưa ra định nghĩa toán học sau về mạng nơron:
Mạng nơron là một đồ thị có hướng bao gồm các nút với các liên kết kích hoạt và tiếp hợp
liên kết với nhau và được đặc trưng bởi bốn thuộc tính:
1. Mỗi tế bào thần kinh được biểu diễn bằng một tập hợp các liên kết tiếp hợp tuyến
tính, một thiên vị được áp dụng bên ngoài và một liên kết kích hoạt có thể là phi
tuyến tính .
2. Các liên kết synap của một tế bào thần kinh cân các tín hiệu đầu vào tương ứng của chúng.
Phần 4 Mạng nơron được xem dưới dạng đồ thị có hướng 17
1 HÌNH 10 Đồ thị luồng tín hiệu của một nơron.

x0
x1 wk0 bk
wk1
wk2 vk w () Đầu ra
x2
• yk
•
•
•
•
• wkm
xm
3. Tổng trọng số của các tín hiệu đầu vào xác định trường cục bộ cảm ứng của nơron trong
câu hỏi.
4. Liên kết kích hoạt cắt đứt trường cục bộ cảm ứng của nơ-ron để tạo ra đầu ra.
Một biểu đồ có hướng, được định nghĩa theo cách này hoàn chỉnh theo nghĩa là nó không
chỉ mô tả luồng tín hiệu từ nơ-ron đến nơ-ron mà còn cả dòng tín hiệu bên trong mỗi nơ ron.
neuron to neu ron, chúng ta có thể sử dụng dạng rút gọn của biểu đồ này bằng cách bỏ qua các
chi tiết của luồng tín hiệu bên trong các neuron riêng lẻ. Một đồ thị có hướng như vậy được
cho là đã hoàn thành một phần. Nó được thực hiện như sau:
1. Các nút nguồn cung cấp tín hiệu đầu vào cho đồ thị.
2. Mỗi nơron được biểu diễn bởi một nút duy nhất được gọi là nút tính toán.
3. Các liên kết giao tiếp kết nối các nút nguồn và nút tính toán của biểu đồ không có
trọng số; chúng chỉ đơn thuần cung cấp hướng của luồng tín hiệu trong biểu đồ.
Một đồ thị có hướng hoàn chỉnh một phần được xác định theo cách này được gọi là đồ thị kiến
trúc, mô tả cách bố trí của mạng nơ-ron. Nó được minh họa trong Hình 11 cho trường hợp đơn
giản của một nơ-ron đơn với m nút nguồn và một nút duy nhất được cố định ở 1 cho độ lệch.
Lưu ý rằng nút tính toán đại diện cho nơ-ron được hiển thị bóng mờ và nút nguồn được hiển
thị dưới dạng hình vuông nhỏ. Quy ước này được tuân theo trong suốt cuốn sách.
Các ví dụ phức tạp hơn về bố cục kiến trúc sẽ được trình bày sau trong Phần 6.
1 HÌNH 11 Đồ thị kiến trúc của nơron.

x0
x1
Đầu ra
x2
yk
•
•
•
xm
18 Giới thiệu
Tóm lại, chúng ta có ba biểu diễn đồ họa của mạng nơ-ron:
• sơ đồ khối, cung cấp mô tả chức năng của mạng; • đồ thị kiến trúc,
mô tả cách bố trí mạng; • biểu đồ luồng tín hiệu, cung cấp mô tả đầy
đủ về luồng tín hiệu trong mạng.
5 PHẢN HỒI
Phản hồi được cho là tồn tại trong một hệ thống động bất cứ khi nào đầu ra của một phần
tử trong hệ thống ảnh hưởng một phần đến đầu vào được áp dụng cho phần tử cụ thể đó, do
đó làm phát sinh một hoặc nhiều đường dẫn khép kín để truyền tín hiệu xung quanh hệ thống.
Thật vậy, phản hồi xảy ra ở hầu hết các bộ phận của hệ thần kinh của mọi loài động vật
(Freeman, 1975). Hơn nữa, nó đóng một vai trò quan trọng trong việc nghiên cứu một lớp
mạng nơ ron đặc biệt được gọi là mạng tái phát. Hình 12 cho thấy đồ thị luồng tín hiệu
j xhiệu
của một hệ thống phản hồi vòng đơn, trong đó tín hiệu đầu vào xj (n), tín (n) bên
và tín
trong
hiệu đầu ra yk (n) là các hàm của biến thời gian rời rạc n. Hệ thống được giả định là
tuyến tính, bao gồm một đường chuyển tiếp và một đường phản hồi được đặc trưng bởi các
“toán tử” A và B, tương ứng. Đặc biệt, đầu ra của kênh chuyển tiếp quyết định một phần
đầu ra của chính nó thông qua kênh phản hồi. Từ Hình 12, chúng tôi dễ dàng ghi nhận các
mối quan hệ đầu vào - đầu ra
yk (n) = A [x¿j (n)] (16)

và
xj ¿(n) = xj (n) + B [yk (n)] (17)
trong đó dấu ngoặc vuông được bao gồm để nhấn mạnh rằng A và B hoạt động như các toán tử.
Loại bỏ xj (n) giữa các phương trình. (16) và (17), chúng tôi nhận được
Một
yk (n) = [xj (n)] (18)

1 - AB
Chúng tôi gọi A / (1 - AB) là toán tử vòng kín của hệ thống và AB là toán tử vòng mở. Nói
chung, toán tử vòng mở không mang tính chất tự nhiên trong BA Z AB đó Ví dụ, Hãy xem xét
hệ thống phản
. hồi vòng đơn được hiển thị trong Hình 13a, mà đầu ra của nó bị trễ với
A là trọng số cố định w và B là toán tử độ trễ đơn vị z-1 đối ,

với đầu vào theo một đơn vị thời gian. Sau đó, chúng tôi có thể thể hiện nhà điều hành vòng kín
của hệ thống là
Một w
=
1 - AB 1 - wz-1
= w (1 - wz-1 ) -1
HÌNH 12 Đồ thị luồng tín hiệu của xj (n) Một
hệ thống phản hồi một vòng. xj (n) yk (n)
B
Phần 5 Phản hồi 19
xj (n) w
xj (n) yk (n)
z1
(một)
1
z1 xj (n 1) z z 1
xj (n)
. . .
w w2 wN2 wN1
w
. . . yk (n)
(b)
HÌNH 13 (a) Đồ thị luồng tín hiệu của bộ lọc đáp ứng xung thời gian vô hạn (IIR) bậc nhất.
(b) Tính gần đúng tăng dần của phần (a) của hình, thu được bằng cách cắt bớt phương trình. (20).
-1
Sử dụng khai triển nhị thức cho (1 - wz-1 ) của ,chúng tôi có thể viết lại toán tử vòng kín
hệ thống như
Một q
= wa wl zl (19)
1 - AB
l = 0
Do đó, thay thế Eq. (19) thành (18), chúng tôi nhận được
yk (n) = wa wl zl [xj (n)] (20)

l = 0
trong đó một lần nữa chúng tôi đưa vào dấu ngoặc vuông để nhấn mạnh thực tế rằng z-1 là một op
erator. Đặc biệt, theo định nghĩa của z-1 ,chúng ta có
zl [xj (n)] = xj (n - l) (21)
trong đó xj (n - l) là một mẫu tín hiệu đầu vào bị trễ l đơn vị thời gian. Theo đó, chúng ta có
thể biểu thị tín hiệu đầu ra yk (n) dưới dạng tổng có trọng số vô hạn của các mẫu hiện tại và
quá khứ của tín hiệu đầu vào xj (n), như được hiển thị bằng
q
yk (n) = a wl + 1 xj (n - l) (22)
l = 0
Bây giờ chúng ta thấy rõ rằng hành vi động của một hệ thống phản hồi được biểu diễn bằng đồ
thị luồng tín hiệu trong Hình 13 được điều khiển bởi trọng số w. Đặc biệt, chúng tôi có thể đề
phòng hai trường hợp cụ thể:
1. w 6 1 , mà tín hiệu đầu ra yk (n) là hội tụ theo cấp số nhân; đó là,

hệ thống ổn định. Trường hợp này được minh họa trong Hình 14a cho một w
2. dương . ,wmà1 tín hiệu đầu ra yk (n) là phân kỳ; tức là hệ thống không ổn định.
Nếu w = 1 thì phân kỳ là tuyến tính, như trong Hình 14b, và nếu w 7 1 thì phân kỳ là hàm
mũ, như trong Hình 14c.

20 Giới thiệu
HÌNH 14 Đáp ứng thời gian của yk (n)

Hình 13 cho ba giá trị khác nhau
w 1
của trọng lượng tiếp liệuw.
(a) Ổn
định. (b) Phân kỳ tuyến tính. (c) wxj (0)
Phân kỳ theo cấp số nhân.
N
01234
(một)
yk (n)
w 1
wxj (0)
N
01234
(b)
yk (n)
w 1
wxj (0)
N
01234
(c)
Vấn đề ổn định là đặc điểm nổi bật trong nghiên cứu hệ thống phản hồi vòng kín.
Trường hợp w 6 1 tương ứng với một hệ thống có bộ nhớ vô hạn theo nghĩa là đầu ra
của hệ thống phụ thuộc vào các mẫu của đầu vào kéo dài đến quá khứ vô hạn. Hơn nữa, bộ
nhớ đang mờ dần ở chỗ ảnh hưởng của một mẫu trong quá khứ giảm theo cấp số nhân với
thời gian n. Giả sử rằng, đối với một số công suất N, đủ nhỏ wso với sự thống nhất sao
cho wN là không đáng kể cho tất cả các mục đích thực tế. Trong tình huống như vậy,
chúng ta có thể ước tính đầu ra yk bằng tổng hữu hạn
N-1
yk (n) L a wl + 1 xj (n - l)
l = 0
= wxj (n) + w2 xj (n - 1) + w3 xj (n - 2) + ... + wNxj (n - N + 1)
Theo một cách tương ứng, chúng ta có thể sử dụng đồ thị luồng tín hiệu nạp tiếp của
Hình 13b làm xấp xỉ cho đồ thị luồng tín hiệu phản hồi của Hình 13a. Khi tạo ra sự
gần gũi này, chúng tôi nói về sự “mở ra” của một hệ thống phản hồi. Tuy nhiên, lưu ý
rằng hoạt động mở chỉ có giá trị thực tế khi hệ thống phản hồi ổn định.
Phần 6 Kiến trúc mạng 21
Rất tiếc, việc phân tích hành vi động của mạng nơ-ron liên quan đến việc áp
dụng phản hồi rất phức tạp bởi thực tế là các đơn vị xử lý được sử dụng để xây dựng
mạng thường là phi tuyến. Việc xem xét thêm vấn đề quan trọng này được chuyển sang
phần sau của cuốn sách.
6 KIẾN TRÚC MẠNG
Cách thức mà các nơ-ron của mạng nơ-ron được cấu trúc được liên kết mật thiết với
thuật toán học tập được sử dụng để đào tạo mạng . Việc phân loại các thuật toán học
được xem xét trong Phần 8. Trong phần này, chúng tôi tập trung chú ý vào các kiến
trúc mạng (cấu trúc).
Nói chung, chúng ta có thể xác định ba lớp kiến trúc mạng khác nhau về cơ bản:
(i) Mạng chuyển tiếp nguồn cấp dữ liệu một lớp
Trong mạng nơron phân lớp , các nơron được tổ chức dưới dạng các lớp. Ở dạng sim
plest của mạng phân lớp, chúng ta có một lớp đầu vào gồm các nút nguồn chiếu trực
tiếp lên lớp đầu ra của các nơ-ron (các nút tính toán), nhưng không phải ngược
lại. Nói cách khác, mạng này hoàn toàn thuộc loại truyền tải dữ liệu. Nó được minh
họa trong Hình 15 cho trường hợp bốn nút ở cả hai lớp đầu vào và đầu ra. Mạng như
vậy được gọi là mạng một lớp, với ký hiệu “lớp đơn” đề cập đến lớp đầu ra của các
nút tính toán (nơ-ron). Chúng tôi không tính lớp đầu vào của các nút nguồn vì không
có tính toán nào được thực hiện ở đó.
HÌNH 15 Mạng chuyển tiếp với một lớp
nơron duy nhất.
Lớp đầu vào Lớp đầu ra của

của các nút tế bào thần kinh
nguồn
22 Giới thiệu
(ii) Mạng chuyển tiếp nguồn cấp dữ liệu nhiều lớp
Lớp thứ hai của mạng nơ-ron truyền tiếp tự phân biệt bằng sự hiện diện của một hoặc nhiều lớp ẩn,
mà các nút tính toán của chúng được gọi tương ứng là các nơ-ron ẩn hoặc đơn vị ẩn; thuật ngữ "ẩn"
đề cập đến thực tế là phần này của mạng nơ-ron không được nhìn thấy trực tiếp từ đầu vào hoặc đầu
ra của mạng. Nhiệm vụ của các nơ-ron ẩn là can thiệp giữa đầu vào bên ngoài và mạng đầu ra theo một
cách hữu ích nào đó. Bằng cách thêm một hoặc nhiều lớp ẩn, mạng được phép trích xuất các thống kê
bậc cao hơn từ đầu vào của nó. Theo một nghĩa khá lỏng lẻo, mạng ac quy định viễn cảnh toàn cầu
mặc dù kết nối cục bộ của nó, do có thêm tập hợp các kết nối synap tic và chiều kích bổ sung của
các tương tác thần kinh (Churchland và Sejnowski, 1992).
Các nút nguồn trong lớp đầu vào của mạng cung cấp các phần tử tương ứng của mẫu kích hoạt
(vectơ đầu vào), tạo thành tín hiệu đầu vào được áp dụng cho các nơ-ron (các nút tính toán) trong
lớp thứ hai (tức là lớp ẩn đầu tiên). Các tín hiệu đầu ra của lớp thứ hai được sử dụng làm đầu vào
cho lớp thứ ba, v.v. cho phần còn lại của mạng. Thông thường, các nơ-ron trong mỗi lớp của mạng chỉ
có đầu vào là tín hiệu đầu ra của lớp trước. Tập hợp các tín hiệu đầu ra của các nơ-ron trong lớp
đầu ra (cuối cùng) của mạng tạo thành phản ứng tổng thể của công việc mạng đối với mẫu kích hoạt
được cung cấp bởi các nút nguồn trong lớp đầu vào (đầu tiên). minh họa cách bố trí công việc mạng
nơ ron truyền thẳng nhiều lớp đối với trường hợp chỉ có một lớp ẩn. Để ngắn gọn, mạng trong Hình
16 được gọi là mạng 10–4–2 vì nó có 10 nút nguồn, 4 nơron ẩn và 2 nơron đầu ra. Một ví dụ khác, một
mạng chuyển tiếp với m nút nguồn, h1 nơ-ron ở lớp ẩn đầu tiên, h2 nơ-ron ở lớp ẩn thứ hai và q nơ-
ron ở lớp đầu ra được gọi là mạng m – h1 – h2 – q .
HÌNH 16 Mạng chuyển tiếp được

kết nối đầy đủ với một
lớp ẩn và một lớp đầu ra.
Lớp đầu vào Lớp ẩn Lớp đầu

của các nút ra
nguồn tế bào thần kinh tế bào thần kinh
Phần 6 Kiến trúc mạng 23
Mạng nơ-ron trong Hình 16 được cho là được kết nối đầy đủ theo nghĩa là mọi nút
trong mỗi lớp của mạng được kết nối với mọi nút khác trong lớp phường liền kề. Tuy nhiên,
nếu một số liên kết giao tiếp (kết nối synap) bị thiếu trong mạng, chúng tôi nói rằng
mạng đã được kết nối một phần.
(iii) Mạng định kỳ
Mạng nơ-ron tuần hoàn tự phân biệt với mạng nơ-ron truyền tiếp ở chỗ nó có ít nhất một
vòng phản hồi . Ví dụ, một mạng lặp lại có thể bao gồm một lớp nơ-ron hình sin với mỗi
nơ-ron cung cấp tín hiệu đầu ra của nó trở lại đầu vào của tất cả các nơ-ron khác, như
được minh họa trong đồ thị kiến trúc trong Hình 17. Trong cấu trúc de picted trong này
hình, không có vòng lặp tự phản hồi trong mạng; tự phản hồi đề cập đến một tình huống
trong đó đầu ra của một tế bào thần kinh được đưa trở lại đầu vào của chính nó. Mạng lặp
lại được minh họa trong Hình 17 cũng không có tế bào thần kinh ẩn.
Trong hình 18, chúng tôi minh họa một lớp mạng lặp lại khác với các nơ-ron ẩn.
Các kết nối phản hồi được thể hiện trong Hình 18 bắt nguồn từ các nơ-ron ẩn cũng như từ
các nơ-ron đầu ra.
Sự hiện diện của các vòng phản hồi, có thể là trong cấu trúc lặp lại của Hình 17
hoặc trong Hình 18, có tác động sâu sắc đến khả năng học tập của mạng và trên mỗi hình
thức của nó. Hơn nữa, các vòng phản hồi liên quan đến việc sử dụng các nhánh cụ thể com
đặt ra của các phần tử trễ đơn vị thời gian (ký hiệu là z-1 ), dẫn đến hành vi động phi
tuyến, giả sử rằng mạng nơron chứa các đơn vị phi tuyến.
HÌNH 17 Mạng tuần hoàn không có
vòng lặp tự phản hồi và không có

tế bào thần kinh ẩn.
Toán tử thời
gian trễ đơn vị z1 z1 z1 z1
24 Giới thiệu
z1
Kết quả đầu ra
z1
z1
z1
Toán tử độ trễ đơn
vị thời gian
Đầu vào
HÌNH 18 Mạng tuần hoàn với các nơron ẩn.
7 ĐẠI DIỆN KIẾN THỨC
Trong Phần 1, chúng tôi đã sử dụng thuật ngữ "kiến thức" trong định nghĩa về mạng nơ-
ron với mô tả rõ ràng về ý nghĩa của chúng tôi về nó. Bây giờ chúng tôi giải quyết vấn
đề này bằng cách đưa ra định nghĩa chung sau (Fischler và Firschein, 1987):
Tri thức đề cập đến thông tin được lưu trữ hoặc mô hình được sử dụng bởi một người hoặc máy móc để
diễn giải, dự đoán và phản ứng thích hợp với thế giới bên ngoài.
Các đặc điểm cơ bản của biểu diễn tri thức gồm hai phần: (1) thông tin nào thực sự được
trình bày rõ ràng; và (2) thông tin được mã hóa vật lý như thế nào để sử dụng tuần tự
phụ. Do đó, về bản chất của nó, việc biểu diễn tri thức là mục tiêu hướng tới.
Trong các ứng dụng thực tế của máy “thông minh”, có thể nói rằng một giải pháp tốt phụ
thuộc vào sự thể hiện tốt của kiến thức (Woods, 1986). Với mạng nơ-ron cũng vậy. Tuy
nhiên, thông thường, chúng tôi thấy rằng các hình thức biểu diễn có thể có từ đầu vào
đến các tham số mạng nội bộ rất đa dạng, điều này có xu hướng làm cho việc phát triển
một giải pháp thỏa đáng bằng mạng nơron trở thành một thách thức thiết kế thực sự.
Một nhiệm vụ chính đối với mạng nơ-ron là tìm hiểu mô hình của thế giới (môi
trường) mà nó được nhúng vào và duy trì mô hình đủ nhất quán với thế giới thực để đạt
được các mục tiêu cụ thể của ứng dụng quan tâm. Kiến thức về thế giới bao gồm hai loại
thông tin:
1. Trạng thái thế giới đã biết, được thể hiện bằng các dữ kiện về những gì đã và đang tồn tại
đã biết; dạng kiến thức này được coi là thông tin trước.
2. Các quan sát (đo lường) thế giới, thu được bằng các cảm biến được thiết kế để thăm
dò môi trường, trong đó mạng nơ-ron được cho là hoạt động.
Phần 7 Biểu diễn kiến thức 25
Thông thường, những quan sát này vốn bị nhiễu, có thể bị sai số do
nhiễu cảm biến và sự không hoàn hảo của hệ thống. Trong mọi trường hợp, các quan sát thu được
cung cấp nguồn thông tin, từ đó các ví dụ được sử dụng để đào tạo
mạng được vẽ.
Các ví dụ có thể được gắn nhãn hoặc không được gắn nhãn. Trong các ví dụ được gắn nhãn, mỗi
đại diện ví dụ gửi lại tín hiệu đầu vào được ghép nối với một phản hồi mong muốn tương ứng (tức là
đặt mục tiêu ra ngoài). Mặt khác, các ví dụ không được gắn nhãn bao gồm các nhận thức khác nhau của đầu vào
báo hiệu tất cả của chính nó. Trong bất kỳ trường hợp nào, một tập hợp các ví dụ, được gắn nhãn hoặc
cách khác, đại diện cho bí quyết về môi trường quan tâm mà mạng nơ-ron có thể học được thông qua đào tạo.
Tuy nhiên, lưu ý rằng các ví dụ được gắn nhãn có thể tốn kém để thu thập, vì chúng yêu cầu
sự sẵn có của một “giáo viên” để cung cấp phản hồi mong muốn cho mỗi ví dụ được dán nhãn. Trong
con trast, các ví dụ không được gắn nhãn thường rất nhiều vì không cần phải giám sát.
Một tập hợp các cặp đầu vào - đầu ra, với mỗi cặp bao gồm tín hiệu đầu vào và phản hồi mong
muốn của cor đáp ứng, được gọi là tập dữ liệu huấn luyện, hoặc đơn giản là huấn luyện sam ple .
hãy xem xét, ví dụ, chữ số viết tay
vấn đề nhận dạng. Trong sự cố này, tín hiệu đầu vào bao gồm một hình ảnh có màu đen hoặc
pixel màu trắng, với mỗi hình ảnh đại diện cho một trong 10 chữ số được phân tách rõ ràng khỏi
nền. Phản hồi mong muốn được xác định bởi "danh tính" của chữ số cụ thể có
hình ảnh được trình bày cho mạng dưới dạng tín hiệu đầu vào. Thông thường, mẫu đào tạo bao gồm
gồm nhiều chữ số viết tay đại diện cho một tình huống trong thế giới thực.
Với một tập hợp các ví dụ như vậy, việc thiết kế mạng nơ-ron có thể tiến hành như sau:
• Một kiến trúc thích hợp được chọn cho mạng nơ-ron, với một lớp đầu vào
bao gồm các nút nguồn có số lượng bằng pixel của hình ảnh đầu vào và
lớp đầu ra bao gồm 10 tế bào thần kinh (một cho mỗi chữ số). Một tập hợp con các ví dụ là
sau đó được sử dụng để đào tạo mạng bằng một thuật toán phù hợp.
thiết kế mạng được gọi là học.
• Hiệu suất nhận dạng của mạng được đào tạo được kiểm tra với dữ liệu không được nhìn thấy
trước. Cụ thể, một hình ảnh đầu vào được hiển thị cho mạng, nhưng lần này tác phẩm mạng
không được cho biết danh tính của chữ số mà hình ảnh cụ thể đó đại diện.
hiệu suất của mạng sau đó được đánh giá bằng cách so sánh nhận dạng chữ số
được mạng báo cáo với danh tính thực của chữ số được đề cập. Giai đoạn thứ hai này của hoạt
động mạng được gọi là thử nghiệm và hiệu suất thành công trên
các mẫu thử nghiệm được gọi là khái quát hóa, một thuật ngữ vay mượn từ tâm lý học.
Ở đây có sự khác biệt cơ bản giữa thiết kế của mạng nơ-ron và

của đối tác xử lý thông tin cổ điển của nó: bộ phân loại mẫu. Trong trường hợp vĩ mô, chúng tôi
thường tiến hành trước tiên bằng cách xây dựng mô hình toán học về các quan sát môi trường, xác
thực mô hình với dữ liệu thực, sau đó xây dựng thiết kế trên
cơ sở của mô hình. Ngược lại, thiết kế của mạng nơ-ron dựa trực tiếp vào dữ liệu đời thực, với tập
dữ liệu được phép tự nói.
chỉ cung cấp mô hình ngầm định của môi trường mà nó được nhúng, mà còn
thực hiện chức năng xử lý thông tin quan tâm.
Các ví dụ được sử dụng để đào tạo một mạng nơron có thể bao gồm cả tích cực và
ví dụ tiêu cực . Ví dụ, trong vấn đề phát hiện sonar thụ động, các ví dụ tích cực
liên quan đến dữ liệu đào tạo đầu vào có chứa mục tiêu quan tâm (ví dụ: tàu ngầm). Hiện nay,
26 Giới thiệu
trong môi trường sonar thụ động, sự hiện diện có thể có của sinh vật biển trong dữ liệu thử nghiệm
được biết là nguyên nhân thỉnh thoảng gây ra báo động giả. Để giảm bớt vấn đề này, các ví dụ tiêu
cực (ví dụ như tiếng vọng từ sinh vật biển) được đưa vào dữ liệu huấn luyện một cách có chủ đích để
dạy nghề lưới không nhầm lẫn sinh vật biển với mục tiêu.
Trong một mạng nơron có kiến trúc cụ thể, biểu diễn tri thức của môi trường
làm tròn sur được xác định bởi các giá trị được thực hiện bởi các tham số tự do
(tức là trọng số và độ lệch synap tic) của mạng. mạng nơ-ron, và do đó giữ chìa
khóa cho hiệu suất của nó.
Vai trò của trình bày tri thức

Tuy nhiên, chủ đề về cách thức mà tri thức thực sự được biểu diễn bên trong một mạng
nhân tạo là rất phức tạp. Tuy nhiên, có bốn quy tắc để kiểm tra lại kiến thức có tính
chất chung chung, như được mô tả tiếp theo.
Quy tắc 1. Các đầu vào tương tự (tức là các mẫu được vẽ) từ các lớp tương tự
thường tạo ra các biểu diễn tương tự bên trong mạng và do đó nên được
phân loại là thuộc cùng một lớp.
Có rất nhiều biện pháp để xác định sự giống nhau giữa các đầu vào. Một thước đo độ
giống nhau thường được sử dụng dựa trên khái niệm về khoảng cách Euclidian. Nói một cách
cụ thể, hãy đặt xi biểu thị một vectơ m-x-1
T
xi = [xi1, xi2, ..., xim]
tất cả các phần tử của chúng là có thật; chỉ số trên T biểu thị sự chuyển vị của ma trận .
Vec tor xi xác định một điểm trong không gian m chiều được gọi là không gian Euclide và được
ký hiệu là m. Như minh họa trong Hình 19, khoảng cách Euclid giữa một cặp vectơ m-x-1 xi
và xj được xác định bởi
d (xi , xj) = 7 xi - xj7

m 1 2
(23)
= c ka= 1 (xik - xjk) 2 ngày
trong đó xik và xjk lần lượt là phần tử thứ k của vectơ đầu vào xi và xj .
Tương ứng, sự giống nhau giữa các đầu vào được biểu diễn bởi các vectơ xi và
xj được coi là khoảng cách Euclid d (xi , xj ). Các phần tử riêng lẻ của các
vectơ đầu vào xi và xj càng gần nhau thì khoảng cách Euclide d (xi , xj ) càng
nhỏ và do đó độ tương đồng giữa các vectơ xi và xj sẽ càng lớn. Quy tắc 1 nói
rằng nếu các vectơ xi và xj tương tự nhau, chúng nên được gán cho cùng một lớp.
Một phép đo khác về độ tương tự dựa trên ý tưởng về tích chấm, hay sản phẩm bên
trong, cũng được mượn từ đại số ma trận. Cho một cặp vectơ xi và xj có cùng thứ nguyên,
tích trong của chúng là xi Txj , được định nghĩa
xj ,
lànhư
hình
minh
chiếu
họa của
trong
vectơ
Hình
xi19.
lênDo
vectơ
đó,
chúng ta viết xi Txj (xi , xj) =
m
(24)
= a xikxjk
k = 1
xi HÌNH 19 Minh họa mối quan

hệ giữa sản phẩm bên trong và
khoảng cách Euclide như các thước
-xj
xi
đo về độ giống nhau giữa các mẫu.
0 xj
xi Txj
Tích trong (xi , xj ) chia cho tích 7 x i 7 7 xj 7 là cosin của góc phụ có xu hướng giữa các vectơ
xi và xj .
Hai thước đo độ tương tự được xác định ở đây thực sự có liên quan mật thiết với nhau, như
được minh họa trong Hình 19. Hình này cho thấy rõ ràng rằng khoảng cách Euclide 7 x xi và xj càng
nhỏ thì càng lớn và do đó các vectơ càng giống nhau
- xj7 ,
tôi
sản phẩm bên trong xi Txj sẽ được.

Để đặt mối quan hệ này trên cơ sở chính thức, trước tiên chúng ta chuẩn hóa các vectơ xi và
xj để có độ dài đơn vị, nghĩa là,
7 xi 7 = 7 xj7 = 1
Sau đó, chúng tôi có thể sử dụng Eq. (23) để viết
d2 (xi , xj) = (xi - xj) T (xi - xj)

(25)
= 2 - 2xT i xj
Công thức (25) chỉ ra rằng cực tiểu khoảng cách Euclide d (xi , xi ) tương ứng với cực đại của tích
bên trong (xi , xj ) và do đó, sự giống nhau giữa và xj . vectơ xi , Khoảng cách Euclide và tích bên
thể, giả sử rằng
trongsựđược
khácmôbiệt
tả ởgiữa
đây hai
đượcquần
xác thể
địnhnày
theo
chỉthuật
nằm ởngữ
vectơ
tổngtrung
hợp xác
bìnhđịnh
của .chúng.
Nói một
Hãycách
biểucụ
thị các giá trị trung bình j của các vectơ xi và xj , tương ứng. Đó là, = [xi ]
và
tôi
tôi
(26)
đâu là toán tử kỳ vọng thống kê trên tập hợp các vectơ dữ liệu xi . Được định nghĩa tương tự. Để đo
Mahalanobis, đượcj khoảng
biểu thị
cách
bằng
giữa
dij.
haiGiá
vectơ
trị trung
bình phương
bình pop
củanày,
khoảng
chúng
cách
ta này
có thể
từ xi
sử đến
dụngxjkhoảng
được xác
cách
định bởi dij = (xi -
2
i ) TC-1 (xj - j) (27)
trong đó C1 là nghịch đảo của ma trận hiệp phương sai C. Người ta giả thiết rằng ma trận hiệp
phương sai là giống nhau cho cả hai tập hợp, như được chỉ ra bởi
C = [(xi - i ) (xi - = i ) T]
(28)
[(xj - j) (xj - j) T]
28 Giới thiệu
Khi đó, đối với một C quy định, khoảng cách dij càng nhỏ thì các vectơ xi và xj càng giống nhau .
Đối với trường hợp đặc biệt khi xj xi và C I, trong

j
tôi
, I là ma trận nhận dạng, khoảng cách
đó
Mahalanobis giảm thành khoảng cách Euclide giữa véc tơ sam ple xi và véc tơ trung bình.
Bất kể vectơ dữ liệu xi và xj là xác định hay ngẫu nhiên, Quy tắc 1 giải quyết vấn đề làm
thế nào hai vectơ này có tương quan với nhau.
Tương quan đóng một vai trò quan trọng không chỉ trong não người mà còn trong quá trình xử lý tín hiệu của
nhiều loại khác nhau (Chen và cộng sự, 2007).
Quy tắc 2. Các mục được phân loại thành các lớp riêng biệt nên có các biểu diễn
khác nhau rộng rãi trong mạng.
Theo Quy tắc 1, các mẫu được vẽ từ một lớp cụ thể có độ lớn đại số chắc chắn (ví dụ, khoảng
cách Euclide) nhỏ. Mặt khác, các mẫu được vẽ từ các lớp khác nhau có độ đo đại số lớn. Do đó,
chúng ta có thể nói rằng Quy tắc 2 là đối ngẫu của Quy tắc 1.
Quy tắc 3. Nếu một tính năng cụ thể là quan trọng, thì cần có một số lượng lớn
các nơ-ron tham gia vào việc biểu diễn mục đó trong mạng.
Ví dụ, hãy xem xét một ứng dụng radar liên quan đến việc phát hiện mục tiêu (ví dụ: máy bay)
trong điều kiện lộn xộn (ví dụ, phản xạ radar từ các mục tiêu không mong muốn như các tòa nhà, cây
cối và hình thái thời tiết). hệ thống được đo lường theo hai xác suất:
• xác suất phát hiện, được định nghĩa là xác suất mà hệ thống quyết định rằng một
mục tiêu là hiện tại khi nó là;
• xác suất báo động sai, được định nghĩa là xác suất mà hệ thống quyết định rằng
mục tiêu có khi không.
Theo tiêu chí Neyman-Pearson, xác suất phát hiện là tối đa, phụ thuộc vào giới hạn rằng xác suất
báo động sai không vượt quá một giá trị quy định (Van Trees, 1968). Trong một ứng dụng như vậy, sự
hiện diện thực tế của mục tiêu trong tín hiệu nhận được thể hiện một đặc điểm quan trọng của đầu
vào. Quy tắc 3, trên thực tế, nói rằng cần có một số lượng lớn các tế bào thần kinh tham gia vào
việc đưa ra quyết định rằng mục tiêu có xuất hiện khi nó thực sự tồn tại hay không. Tương tự, cần
có một số lượng rất lớn các tế bào thần kinh trong việc đưa ra quyết định rằng đầu vào chỉ bao gồm
lộn xộn khi nó thực sự xảy ra. Trong cả hai tình huống, số lượng lớn tế bào thần kinh đảm bảo mức
độ chính xác cao trong việc ra quyết định và khả năng chịu đựng đối với các tế bào thần kinh bị lỗi.
Quy tắc 4. Thông tin trước và các bất biến nên được tích hợp vào thiết kế mạng
nơ-ron bất cứ khi nào chúng có sẵn, để đơn giản hóa việc thiết kế mạng
mà không cần phải học chúng.
Quy tắc 4 đặc biệt quan trọng vì tuân thủ đúng quy tắc sẽ dẫn đến
mạng có cấu trúc chuyên biệt. Điều này rất đáng mong đợi vì một số lý do:
1. Mạng lưới thính giác và thị giác sinh học được biết là rất chuyên biệt.
Phần 7 Biểu diễn tri thức 29
2. Mạng nơron có cấu trúc chuyên biệt thường có số lượng tham số tự do có sẵn để
điều chỉnh ít hơn so với mạng được kết nối đầy đủ. Do đó, mạng chuyên biệt yêu
cầu một tập dữ liệu nhỏ hơn để đào tạo, học nhanh hơn và thường tổng quát hóa
tốt hơn.
3. Tốc độ truyền thông tin qua mạng chuyên biệt (tức là thông lượng công việc
ròng) được tăng tốc.
4. Chi phí xây dựng một mạng chuyên biệt giảm vì kích thước nhỏ hơn,
so với đối tác được kết nối đầy đủ của nó.
Tuy nhiên, lưu ý rằng việc kết hợp kiến thức trước đây vào thiết kế mạng nơ-ron hạn
chế việc áp dụng mạng vào vấn đề cụ thể đang được giải quyết bằng kiến thức quan tâm.
Cách xây dựng thông tin trước vào thiết kế mạng thần kinh
Tất nhiên, một vấn đề quan trọng phải được giải quyết là làm thế nào để phát triển một cấu trúc
chuyên biệt bằng cách xây dựng thông tin trước vào thiết kế của nó. Thật không may, không có
quy tắc được xác định rõ ràng nào để thực hiện việc này; thay vào đó, chúng tôi có một số thủ
tục đặc biệt được biết là mang lại kết quả hữu ích. Đặc biệt, chúng tôi có thể sử dụng kết hợp
hai kỹ thuật:
1. hạn chế kiến trúc mạng, đạt được thông qua việc sử dụng các kết nối cục bộ
được gọi là các trường tiếp nhận6 ; 2. hạn chế sự lựa chọn của trọng số
synap, được thực hiện thông qua việc sử dụng
chia sẻ trọng lượng.7
Hai kỹ thuật này, đặc biệt là kỹ thuật thứ hai, có một lợi ích phụ: Số lượng các tham
số miễn phí trong mạng có thể giảm đáng kể.
Để cụ thể hơn, hãy xem xét mạng chuyển tiếp được kết nối một phần của Hình 20.
Mạng này có kiến trúc hạn chế do xây dựng. Sáu nút nguồn hàng đầu tạo thành
x1 HÌNH 20 Minh họa việc sử

1
dụng kết hợp trường tiếp nhận và
x2 chia sẻ trọng số. Tất cả bốn tế bào
thần kinh ẩn có cùng một tập hợp
x3
trọng số chính xác cho sáu kết nối
2 1
synap của chúng.
x4
y1
x5
3 2
x6
y2
x7
x8 4
x9
x10
Lớp đầu vào Lớp ẩn Lớp đầu

của các nút ra
nguồn tế bào thần kinh tế bào thần kinh
30 Giới thiệu
trường tiếp nhận cho nơ-ron ẩn 1, v.v. đối với các nơ-ron ẩn khác trong mạng. Trường tiếp nhận
của một tế bào thần kinh được định nghĩa là vùng của trường đầu vào mà trên đó các kích thích đến
có thể ảnh hưởng đến tín hiệu đầu ra do tế bào thần kinh tạo ra. đầu ra.
Để đáp ứng ràng buộc chia sẻ trọng số, chúng ta chỉ cần sử dụng cùng một bộ trọng số khớp
thần kinh cho từng nơ-ron trong lớp ẩn của mạng. Sau đó, với ví dụ được hiển thị trong Hình 20
với sáu kết nối cục bộ trên mỗi nơ-ron ẩn và tổng cộng bốn nơ-ron ẩn, chúng ta có thể biểu diễn
trường cục bộ cảm ứng của nơ-ron ẩn j như
vj = a wixi + j-1,
j = 1, 2, 3, 4 (29)
i = 1
trong đó {wi } 16 tạo thành cùng một tập trọng số được chia sẻ bởi cả bốn nơ-ron ẩn, và xk là tín
tôi
hiệu nhận được từ nút nguồn kij - 1. Phương trình (29) ở dạng tổng chập. Chính vì lý do này mà
một mạng chuyển tiếp sử dụng các tions kết nối cục bộ và chia sẻ trọng số theo cách được mô tả ở
đây được gọi là mạng phức hợp (LeCun và Bengio, 2003).
Vấn đề xây dựng thông tin trước khi thiết kế mạng nơ-ron liên quan đến một phần của Quy tắc
4; phần còn lại của quy tắc liên quan đến vấn đề bất biến, sẽ được thảo luận tiếp theo.
Làm thế nào để xây dựng các bất biến trong thiết kế mạng thần kinh
Hãy xem xét các hiện tượng vật lý sau:
• Khi một đối tượng quan tâm quay, hình ảnh của đối tượng đó như được cảm nhận bởi một ob
máy chủ thường thay đổi theo cách tương ứng.
• Trong một radar nhất quán cung cấp thông tin về biên độ cũng như pha về môi trường xung
quanh của nó, tiếng vọng từ một mục tiêu đang chuyển động sẽ bị thay đổi tần số, do hiệu
ứng Doppler phát sinh từ chuyển động xuyên tâm của mục tiêu trong tương quan với radar.
• Lời nói của một người có thể được nói bằng giọng nhẹ nhàng hoặc lớn tiếng, chậm hoặc nhanh.
Để xây dựng một hệ thống nhận dạng đối tượng, một hệ thống nhận dạng mục tiêu radar và một hệ
thống nhận dạng giọng nói để đối phó với những hiện tượng này, hệ thống phải có khả năng đối phó
với một loạt các biến đổi của tín hiệu quan sát.
Theo đó, yêu cầu chính của nhận dạng mẫu là thiết kế một bộ phân loại bất biến đối với các phép
biến đổi như vậy. Nói cách khác, ước lượng lớp được đại diện bởi đầu ra của bộ phân loại không
được ảnh hưởng bởi các phép biến đổi của tín hiệu quan sát được áp dụng cho đầu vào của bộ phân
loại.
Có ít nhất ba kỹ thuật để hiển thị mạng nơron kiểu bộ phân loại
bất biến đối với các phép biến đổi (Barnard và Casasent, 1991):
1. Bất biến theo cấu trúc. Sự bất biến có thể được áp dụng cho một mạng trung lập bằng cách
cấu trúc thiết kế của nó một cách thích hợp. Cụ thể, các kết nối khớp thần kinh giữa
tế bào thần kinh của mạng được tạo ra để các phiên bản đã biến đổi của cùng một đầu vào là
buộc phải sản xuất cùng một sản lượng. Ví dụ, hãy xem xét việc phân loại đầu vào
hình ảnh bởi một mạng nơ-ron được yêu cầu độc lập với các phép quay trong mặt phẳng của
hình ảnh về trung tâm của nó. Chúng ta có thể áp đặt tính bất biến quay đối với cấu trúc mạng như
sau: Gọi wji là trọng số tiếp hợp của nơron j được kết nối với pixel i trong
hình ảnh đầu vào. Nếu điều kiện wji wjk được thực thi cho tất cả các pixel i và k nằm ngang nhau
khoảng cách từ trung tâm của hình ảnh, khi đó mạng nơ-ron là bất biến trong mặt phẳng
các phép quay. Tuy nhiên, để duy trì sự bất biến quay, wji trọng số synap có
được sao chép cho mọi pixel của hình ảnh đầu vào ở cùng một khoảng cách bán kính từ
nguồn gốc. Điều này chỉ ra một khuyết điểm của sự bất biến theo cấu trúc: Số lượng khớp thần kinh
các kết nối trong mạng nơ-ron trở nên quá lớn ngay cả đối với hình ảnh của
kích thước vừa phải.
2. Bất biến theo Đào tạo. Mạng nơ-ron có khả năng tự nhiên trong việc phân loại nhóm mẫu. Khả
năng này có thể được khai thác trực tiếp để có được sự bất biến của phép biến đổi như
sau: Mạng được đào tạo bằng cách trình bày nó với một số ví dụ khác nhau về
cùng một đối tượng, với các ví dụ được chọn để tương ứng với các biến đổi khác nhau (nghĩa là các
góc nhìn khác nhau) của đối tượng. Với điều kiện là số lượng bài kiểm tra đủ lớn và nếu mạng được
đào tạo để học cách phân biệt giữa
các chế độ xem khía cạnh khác nhau của đối tượng, sau đó chúng tôi có thể mong đợi mạng tổng quát hóa
một cách chính xác đến các phép biến đổi khác với các phép biến đổi được hiển thị cho nó. Tuy nhiên,
từ góc độ kỹ sư, sự bất biến do đào tạo có hai nhược điểm. Đầu tiên, khi một công trình mạng thần
kinh đã được đào tạo để nhận ra một đối tượng theo kiểu bất biến đối với
các phép biến đổi đã biết, không hiển nhiên là khóa đào tạo này cũng sẽ cho phép mạng
để nhận ra các đối tượng khác của các lớp khác nhau một cách bất biến. Thứ hai, quy định về tính
toán áp đặt lên mạng có thể quá nghiêm trọng để đối phó, đặc biệt nếu tính đa dạng của không gian
tính năng cao.
3. Không gian Tính năng Bất biến. Kỹ thuật thứ ba để tạo ra một mạng nơron kiểu bộ phân loại
bất biến được minh họa trong Hình 21. Nó dựa trên tiền đề rằng nó có thể có khả năng trích xuất các
tính năng đặc trưng cho nội dung thông tin thiết yếu của đầu vào.
tập dữ liệu và bất biến đối với các phép biến đổi của đầu vào. Nếu các tính năng như vậy được sử dụng,
thì mạng với tư cách là bộ phân loại được giảm bớt gánh nặng khi phải phân định
phạm vi biến đổi của một đối tượng có ranh giới quyết định phức tạp. Thật,
sự khác biệt duy nhất có thể phát sinh giữa các trường hợp khác nhau của cùng một đối tượng
là do các yếu tố không thể tránh khỏi như tiếng ồn và khớp cắn. Việc sử dụng không gian đặc trưng
bất biến mang lại ba lợi thế khác biệt. Đầu tiên, số lượng tính năng được áp dụng cho
mạng có thể được giảm xuống mức thực tế. Thứ hai, các yêu cầu đối với
thiết kế mạng được nới lỏng. Thứ ba, bất biến đối với tất cả các đối tượng liên quan đến
sự biến đổi được đảm bảo.
Phân loại HÌNH 21 Sơ đồ khối của một

Bất biến
Lớp bất biến-đặc điểm-không gian kiểu của
loại hình
Đầu vào tính năng
thần kinh ước tính hệ thống.
người vắt
mạng
32 Giới thiệu
VÍ DỤ 1: Mô hình tự động phục hồi

Để minh họa ý tưởng về không gian đặc trưng bất biến, hãy xem xét ví dụ về một hệ thống radar nhất quán
được sử dụng để giám sát trên không, trong đó các mục tiêu quan tâm bao gồm máy bay, hệ thống thời tiết,
đàn chim di cư và các vật thể trên mặt đất. Tiếng vọng của radar từ những mục tiêu này có các đặc điểm
kỹ thuật khác nhau. Hơn nữa, các nghiên cứu thực nghiệm đã chỉ ra rằng những tín hiệu radar như vậy có
thể được mô hình hóa khá chặt chẽ như một quá trình tự động phản hồi (AR) ở mức độ vừa phải (Haykin và
Deng, 1991). Mô hình AR là một dạng mô hình hồi quy đặc biệt được xác định cho dữ liệu có giá trị phức
M
x (n) = a a * ix (n - i) + e (n) (30)
i = 1
trong đó {ai } M i 1 là các hệ số AR, M là bậc mô hình, x (n) là đầu vào và e (n) là lỗi được mô tả
dưới dạng nhiễu trắng. Về cơ bản, mô hình AR của Eq. (30) được biểu diễn bằng bộ lọc dòng trễ có chạm
như minh họa trong Hình 22a cho M 2. Tương tự, nó có thể được biểu diễn bằng bộ lọc mạng như trong Hình
22b, các hệ số trong đó được gọi là hệ số phản xạ . là sự tương ứng 1-1 giữa các hệ số AR của mô hình
trong Hình 22a và hệ số phản xạ của mô hình trong Hình 22b. Hai mô hình được mô tả ở đây giả định rằng
đầu vào x (n) là giá trị phức tạp, như trong trường hợp radar kết hợp, trong trường hợp này, các hệ số
AR và hệ số phản xạ đều có giá trị phức tạp. Dấu hoa thị trong Eq. (30) và Hình 22 biểu thị sự liên hợp
phức tạp.
Hiện tại, đủ để nói rằng dữ liệu radar nhất quán có thể được mô tả bằng một tập hợp các hệ số
tự động hồi phục, hoặc bởi một tập hợp các hệ số phản xạ tương ứng. Tập hợp các hệ số sau có
x (n 1) x (n 2)
x (n) z1 z1
w *
w *
1 2
Σ xˆ (n)
(một)
Σ Σ e (n) x (n) xˆ (n)
1 2
x (n)
* 1 * 2
z1 Σ z1 Σ
(b)
HÌNH 22 Mô hình tự động hồi quy bậc 2: (a) mô hình dòng trễ có chạm; (b) mô hình lưới
lọc. (Dấu hoa thị biểu thị sự liên hợp phức tạp.)
Được gắn nhãn Phi cơ

Tính năng Thần kinh
các lớp học Chim
Dữ liệu rađa người vắt mạng Một loại ngôn ngữ lập trình
Thời tiết
(bộ xử lý trước) người phân loại
Đất
Thông tin Doppler
HÌNH 23 Bộ phân loại Doppler-shift-bất biến của tín hiệu radar.
một lợi thế tính toán trong đó các thuật toán hiệu quả tồn tại cho việc tính toán của chúng trực tiếp từ
dữ liệu đầu vào. Tuy nhiên, vấn đề trích xuất đối tượng địa lý rất phức tạp do việc di chuyển
các vật thể tạo ra các tần số Doppler khác nhau phụ thuộc vào vận tốc xuyên tâm của chúng được đo bằng
đối với radar và điều đó có xu hướng che khuất nội dung quang phổ của các hệ số phản xạ như
Để khắc phục khó khăn này, chúng ta phải xây dựng sự bất biến Doppler vào trong việc đặt các hệ số phản xạ
vào com.
bằng tần số Doppler của tín hiệu radar. Theo đó, tần số Doppler
chuẩn hóa được áp dụng cho tất cả các hệ số để loại bỏ dịch chuyển Doppler trung bình. Xong rồi
bằng cách xác định một tập hợp hệ số phản xạ mới {κ m} liên quan đến tập hợp hệ số phản xạ thông thường { m}
được tính κ
từ dữ liệu đầu vào như sau:
m = me-jm cho m = 1, 2, ..., M (31)
đâu là góc pha của hệ số phản xạ đầu tiên. Hoạt động được mô tả trong Eq. (31) là
được gọi là hiện tượng nhiễu loạn Một tập hợp các tính năng của radar bất biến Doppler được biểu thị bằng các
hệ số phản xạ cũng không sai lệch κ 1, κ2, ..., κM , với κ 1 là hệ số có giá trị thực duy nhất trong tập hợp.
Như đã đề cập trước đây, các loại mục tiêu radar quan tâm trong giám sát đường không là
thời tiết, chim, máy bay và mặt đất. Ba mục tiêu đầu tiên đang di chuyển, trong khi mục tiêu cuối cùng thì không.
Các thông số quang phổ không đồng nhất của tiếng vọng radar từ mặt đất có tiếng vọng tương tự như tiếng vang
từ máy bay.
Sự thay đổi Doppler nhỏ của nó Theo đó, bộ phân loại radar bao gồm một bộ xử lý hậu kỳ như trong Hình 23,
hoạt động dựa trên các kết quả đã phân loại (nhãn được mã hóa) nhằm mục đích xác định mặt bằng
giai cấp (Haykin và Deng, 1991). Do đó, bộ tiền xử lý trong Hình 23 đảm nhiệm việc trích xuất đặc tính bất
biến dịch chuyển Doppler ở đầu vào bộ phân loại, trong khi bộ xử lý hậu sử dụng Doppler được lưu trữ
chữ ký để phân biệt giữa máy bay và mặt đất trở về. ■
VÍ DỤ 2: Dơi định vị lại

Một ví dụ hấp dẫn hơn nhiều về biểu diễn tri thức trong mạng nơron được tìm thấy trong
hệ thống sonar sinh học của dơi định vị bằng tiếng vang. Hầu hết các con dơi đều sử dụng điều chế tần số (FM, hoặc
"Chirp") tín hiệu cho mục đích hình ảnh âm thanh; trong tín hiệu FM, tần số tức thời
của tín hiệu thay đổi theo thời gian. Cụ thể, con dơi dùng miệng để phát sóng FM thời lượng ngắn
tín hiệu sonar và sử dụng hệ thống thính giác của nó làm bộ thu sóng sonar. Tiếng vọng từ các mục tiêu quan tâm
được thể hiện trong hệ thống thính giác bởi hoạt động của các tế bào thần kinh có chọn lọc với các xu hướng
khác nhau của các thông số âm thanh. Có ba kích thước thần kinh chính của biểu diễn thử thính giác của dơi
(Simmons và cộng sự, 1992):
• Tần số tiếng vọng, được mã hóa bởi "địa điểm" có nguồn gốc trong bản đồ tần số của ốc tai;
nó được bảo tồn trong toàn bộ con đường thính giác như một sự sắp xếp có trật tự giữa các tế bào thần
kinh cer tain được điều chỉnh theo các tần số khác nhau.
34 Giới thiệu
• Biên độ tiếng vọng, được mã hóa bởi các tế bào thần kinh khác với các dải động khác nhau; nó là
được biểu hiện dưới dạng điều chỉnh biên độ và số lần phóng điện trên mỗi lần kích thích.
• Độ trễ tiếng vọng, được mã hóa thông qua tính toán thần kinh (dựa trên tương quan chéo)
tạo ra các phản ứng có chọn lọc chậm trễ; nó được biểu thị dưới dạng điều chỉnh phạm vi mục tiêu.
Hai đặc điểm chính của tiếng vọng đích cho mục đích tạo hình ảnh là quang phổ
đối với hình dạng mục tiêu và độ trễ đối với phạm vi mục tiêu. Dơi nhận biết "hình dạng" về thời gian đến
tiếng vọng từ các bề mặt phản xạ khác nhau (tia sáng) bên trong mục tiêu. Để điều này xảy ra, tần suất
thông tin trong phổ tiếng vang được chuyển đổi thành các ước tính về cấu trúc thời gian của mục tiêu.
Các thí nghiệm được thực hiện bởi Simmons và đồng nghiệp trên con dơi nâu lớn, Eptesicus fuscus, xác định
một cách chính xác quá trình chuyển đổi này là bao gồm các phép biến đổi miền thời gian và miền tần số
thành miền thời gian song song mà các đầu ra hội tụ tạo ra độ trễ chung của trục phạm vi của một
hình ảnh cảm nhận của mục tiêu. Có vẻ như sự thống nhất trong nhận thức của con dơi là do
các thuộc tính của bản thân các biến đổi, mặc dù các cách riêng biệt trong đó thời gian thính giác
biểu diễn độ trễ tiếng vọng và biểu diễn tần số của phổ tiếng vang ban đầu là
đã thực hiện. Hơn nữa, các bất biến của đối tượng được tích hợp vào quá trình hình thành hình ảnh sonar để
làm cho nó về cơ bản độc lập với chuyển động của mục tiêu và chuyển động của chính con dơi. ■
Một số nhận xét cuối cùng
Vấn đề biểu diễn tri thức trong mạng nơ-ron liên quan trực tiếp đến vấn đề
kiến trúc mạng. Thật không may, không có lý thuyết phát triển tốt để tối ưu hóa
kiến trúc của mạng nơ-ron cần thiết để tương tác với môi trường liên kết, hoặc để đánh giá
cách thức mà những thay đổi trong kiến trúc mạng ảnh hưởng đến việc gửi lại kiến thức bên
trong mạng. Thật vậy, câu trả lời thỏa đáng cho những vấn đề này
thường được tìm thấy thông qua một nghiên cứu thử nghiệm toàn diện cho một ứng dụng cụ thể của
quan tâm, với việc người thiết kế mạng nơ-ron trở thành một phần thiết yếu của vòng lặp học
tập struc tural.
8 TIẾN TRÌNH BÀI HỌC
Cũng như có những cách khác nhau mà bản thân chúng ta học hỏi từ chính những người xung quanh
môi trường, vì vậy nó là với mạng nơ-ron. Theo nghĩa rộng, chúng tôi có thể phân loại các
quá trình học tập mà qua đó mạng nơron hoạt động như sau: học với giáo viên
và học mà không có giáo viên. Đồng thời, hình thức học tập thứ hai có thể được phân loại
thành hình thức học tập không có giám sát và học tập củng cố.
của việc học được thực hiện trên mạng nơ-ron song song với quá trình học tập của con người.
Học với giáo viên
Học với giáo viên còn được gọi là học có giám sát. Hình 24 cho thấy một khối
sơ đồ minh họa hình thức học tập này. Về mặt khái niệm, chúng ta có thể nghĩ về
giáo viên là người có kiến thức về môi trường, với kiến thức đó được gửi lại bởi một tập hợp
các ví dụ đầu vào - đầu ra .
mạng nơ ron. Giả sử bây giờ giáo viên và mạng nơ-ron đều được tiếp xúc
đến một vectơ huấn luyện (ví dụ, chẳng hạn) được vẽ từ cùng một môi trường. Nhờ tích hợp sẵn
Phần 8 Quá trình học tập 35
Véc tơ mô tả trạng HÌNH 24 Sơ đồ khối của việc học

thái của môi với giáo viên; phần của hình được in
trường màu đỏ tạo thành một vòng phản hồi.
Môi trường Giáo viên
Mong muốn
phản ứng
Thật sự
phản ứng
Σ
Hệ thống
học tập
Tín hiệu lỗi
kiến thức, giáo viên có thể cung cấp cho mạng nơ-ron một phản hồi mong muốn cho vectơ
đào tạo đó. Thật vậy, phản hồi mong muốn thể hiện mức ac "tối ưu" được thực hiện bởi
mạng nơron. Các tham số mạng được điều chỉnh dưới ảnh hưởng tổng hợp của véc tơ huấn
luyện và tín hiệu lỗi. Tín hiệu lỗi được định nghĩa là sự khác biệt giữa phản hồi
mong muốn và phản hồi thực tế của mạng. Việc điều chỉnh này được thực hiện lặp đi lặp
lại theo kiểu từng bước với mục đích cuối cùng làm cho mạng nơ-ron mô phỏng giáo viên;
giả lập được cho là tối ưu theo một số ý nghĩa thống kê. Bằng cách này, kiến thức về
môi trường có sẵn cho giáo viên được chuyển đến mạng lưới thần kinh thông qua đào tạo
và được lưu trữ dưới dạng trọng số tiếp hợp “cố định”, gửi lại bộ nhớ dài hạn. Khi
đạt được điều kiện này, chúng tôi có thể phân phối với giáo viên và để mạng nơ-ron tự
xử lý hoàn toàn với môi trường.
Hình thức học có giám sát mà chúng tôi vừa mô tả là cơ sở của học sửa lỗi. Từ
Hình 24, chúng ta thấy rằng quá trình học tập có giám sát ngăn chặn một hệ thống phản
hồi vòng kín, nhưng môi trường không xác định nằm ngoài vòng lặp. Là một thước đo
hiệu suất cho hệ thống, chúng tôi có thể nghĩ về sai số bình phương trung bình , hoặc
tổng sai số bình phương trên mẫu huấn luyện, được định nghĩa như một hàm của các tham
số tự do (tức là trọng số tiếp hợp) của hệ thống. Hàm này có thể được hình dung dưới
dạng bề mặt hiệu suất lỗi đa chiều, hoặc đơn giản là bề mặt lỗi, với các tham số tự
do là tọa độ. Bề mặt lỗi thực sự được tính trung bình trên tất cả các ví dụ đầu vào-
đầu ra có thể có. Bất kỳ hoạt động nhất định nào của hệ thống dưới sự giám sát của
giáo viên được biểu diễn dưới dạng một điểm trên bề mặt lỗi. Để hệ thống cải thiện
hiệu suất theo thời gian và do đó học hỏi từ giáo viên, điểm vận hành phải di chuyển
xuống liên tiếp về phía điểm tối thiểu của bề mặt lỗi; điểm tối thiểu có thể là điểm
tối thiểu cục bộ hoặc điểm tối thiểu toàn cầu. Hệ thống học tập có giám sát có thể
thực hiện điều này với thông tin hữu ích mà nó có về độ dốc của bề mặt lỗi tương ứng
với hành vi hiện tại của hệ thống.
36 Giới thiệu
của bề mặt lỗi tại bất kỳ điểm nào là một vectơ hướng theo hướng dốc nhất. Trên thực
tế, trong trường hợp học có giám sát từ các ví dụ, hệ thống có thể sử dụng ước tính
tức thời của vectơ gradient, với các chỉ số ví dụ được cho là của thời gian. Việc sử
dụng một ước tính như vậy dẫn đến chuyển động của điểm vận hành trên bề mặt lỗi thường
ở dạng “bước đi ngẫu nhiên”. Tuy nhiên, với một thuật toán được thiết kế để giảm
thiểu hàm chi phí, một tập hợp đầy đủ các ví dụ đầu vào - đầu ra và đủ thời gian để
thực hiện đào tạo, hệ thống học tập có giám sát thường có thể ước lượng một cách hợp
lý một ánh xạ đầu vào - đầu ra chưa biết.
Học mà không có giáo viên
Trong học tập có giám sát, quá trình học tập diễn ra dưới sự hướng dẫn của giáo viên.
Tuy nhiên, trong mô hình được gọi là học mà không có giáo viên, như tên của nó, không
có giáo viên để giám sát quá trình học, có nghĩa là, không có mẫu thử nào được dán
nhãn của hàm được mạng học. Theo mô hình thứ hai này, hai danh mục phụ được xác định:
1. Học củng cố Trong học củng
cố, việc học ánh xạ đầu vào - đầu ra được thực hiện thông qua tương tác liên tục với
môi trường để giảm thiểu chỉ số vô hướng của mỗi dạng. Hình 25 cho thấy sơ đồ khối
của một dạng hệ thống học tăng cường được xây dựng xung quanh một nhà phê bình để
chuyển tín hiệu tăng cường chính nhận được từ môi trường thành tín hiệu củng cố chất
lượng cao hơn được gọi là tín hiệu tăng cường heuristic, cả hai đều là đầu vào vô
hướng (Barto và cộng sự . , 1983) .
HÌNH 25 Sơ đồ khối học củng cố; cả Tín hiệu

hệ thống học tập và môi trường đều nằm tăng cường chính
trong vòng phản hồi. Trạng thái (đầu vào)
vectơ
Môi trường Phê bình
Tín hiệu
tăng cường
Hành động Heuristic
Hệ thống
học tập
Phần 8 Quá trình học tập 37
Mục tiêu của việc học củng cố là giảm thiểu một hàm chi phí thực hiện , được định nghĩa là
kỳ vọng về chi phí tích lũy của các hành động được thực hiện qua một chuỗi các bước thay vì chỉ
tính theo chi phí tức thời. Nó có thể chỉ ra rằng một số hành động được thực hiện trước đó trong
chuỗi các bước thời gian đó trên thực tế là yếu tố quyết định tốt nhất đối với hành vi tổng thể của
hệ thống. Chức năng của hệ thống học tập là khám phá những hành động này và đưa chúng trở lại môi trường.
Việc học tăng cường trì hoãn khó thực hiện vì hai lý do cơ bản:
• Không có giáo viên để cung cấp phản hồi mong muốn ở mỗi bước của quá trình học
quá trình.
• Sự chậm trễ phát sinh trong quá trình tạo ra tín hiệu tăng cường sơ cấp ngụ ý rằng máy học
phải giải quyết vấn đề phân bổ tín chỉ tạm thời. Bởi điều này, chúng tôi muốn nói rằng máy
học phải có khả năng gán tín dụng và đổ lỗi riêng cho từng hành động theo trình tự các bước
thời gian dẫn đến kết quả cuối cùng, trong khi phần củng cố chính chỉ có thể đánh giá kết
quả.
Bất chấp những khó khăn này, việc học tăng cường trì hoãn vẫn hấp dẫn. Nó cung cấp cơ sở để hệ
thống học tập tương tác với môi trường của nó, do đó phát triển khả năng học tập để thực hiện một
nhiệm vụ được chỉ định chỉ dựa trên kết quả của trải nghiệm là kết quả của sự tương tác.
2. Học tập không giám sát Trong
học tập không có giám sát, hoặc tự tổ chức, không có giáo viên hoặc nhà phê bình bên ngoài giám sát
quá trình học tập, như được chỉ ra trong Hình 26. Thay vào đó, cung cấp được thực hiện cho một biện
pháp độc lập với nhiệm vụ về chất lượng đại diện rằng mạng được yêu cầu để học và các tham số miễn
phí của mạng được tối ưu hóa đối với sự chắc chắn ít ỏi đó. Đối với một biện pháp độc lập với nhiệm
vụ cụ thể, một khi mạng đã được điều chỉnh theo các quy định thống kê của dữ liệu đầu vào, mạng sẽ
phát triển khả năng hình thành các biểu diễn cuối cùng để mã hóa các tính năng của đầu vào và do
đó tạo ra các lớp mới một cách tự động (Becker, 1991 ).
Để thực hiện học tập không giám sát, chúng tôi có thể sử dụng quy tắc học tập cạnh tranh. Ví
dụ: chúng tôi có thể sử dụng mạng nơ-ron bao gồm hai lớp — lớp đầu vào và lớp cạnh tranh. Lớp đầu
vào nhận dữ liệu có sẵn. Lớp cạnh tranh bao gồm các tế bào thần kinh cạnh tranh với nhau (theo quy
tắc học tập) để có “cơ hội” đáp ứng các tính năng có trong dữ liệu đầu vào. Ở dạng đơn giản nhất,
mạng lưới hoạt động theo chiến lược “người chiến thắng là người có tất cả”. Trong một chiến lược
như vậy, nơ-ron có tổng đầu vào lớn nhất sẽ “thắng” đối thủ và bật lên; tất cả các nơ-ron khác trong
mạng sau đó sẽ tắt.
Véc tơ mô tả trạng HÌNH 26 Sơ đồ khối của học

thái của môi tập không giám sát.
trường
Hệ thống
Môi trường
học tập
38 Giới thiệu
9 NHIỆM VỤ HỌC TẬP
Trong phần trước, chúng ta đã thảo luận về các mô hình học tập khác nhau. Trong phần này,
chúng ta sẽ ghi chép lại một số nhiệm vụ học tập cơ bản.
của mạng nơ-ron.
Hiệp hội hoa văn
Bộ nhớ liên kết là bộ nhớ phân tán giống như não bộ, học theo sự liên kết. Vì xã hội đã
được biết đến là một đặc điểm nổi bật của trí nhớ con người từ thời
của Aristotle và tất cả các mô hình liên kết sử dụng nhận thức dưới dạng này hay dạng khác như
hoạt động cơ bản (Anderson, 1995).
Liên kết có một trong hai hình thức: liên kết tự động và liên kết khác. Trong au
toassociation, một mạng nơ ron được yêu cầu để lưu trữ một tập hợp các mẫu (vectơ) bằng
cách trình bày lại chúng một cách sẵn sàng cho mạng. Mạng sau đó được trình bày
với mô tả một phần hoặc phiên bản bị bóp méo (nhiễu) của mẫu gốc được lưu trữ trong
nó, và nhiệm vụ là truy xuất (gọi lại) mẫu cụ thể đó. Liên kết khác biệt khác với tự liên
kết ở chỗ một tập hợp các mẫu đầu vào tùy ý được ghép nối với một tập các mẫu đầu ra tùy ý
khác. Tự liên kết liên quan đến việc sử dụng
học tập không có giám sát, trong khi kiểu học tập liên quan đến liên kết khác giới là
được giám sát.
Gọi xk biểu thị một mẫu khóa (vectơ) được áp dụng cho bộ nhớ kết hợp và yk biểu thị
một mẫu đã ghi nhớ (vectơ). Liên kết mẫu được thực hiện bởi mạng
được mô tả bởi
xk S yk, k = 1, 2, ..., q (32)
trong đó q là số lượng mẫu được lưu trữ trong mạng .
giữ chìa khóa để truy xuất nó.

Trong bộ nhớ tự động, yk xk, do đó, các không gian đầu vào và đầu ra (dữ liệu) của
mạng có cùng chiều. Trong một trí nhớ khác biệt, yk Z xk ; kể từ đây,
số chiều của không gian đầu ra trong trường hợp thứ hai này có thể bằng hoặc không bằng
kích thước của không gian đầu vào.
Có hai giai đoạn liên quan đến hoạt động của một bộ nhớ liên kết:
• giai đoạn lưu trữ, đề cập đến việc đào tạo mạng phù hợp với Eq.
(32);
• giai đoạn nhớ lại, bao gồm việc lấy lại một mẫu đã ghi nhớ để phản hồi
đến việc trình bày phiên bản nhiễu hoặc méo mó của mẫu chính đối với công việc mạng.
Hãy để kích thích (đầu vào) x đại diện cho một phiên bản nhiễu hoặc méo mó của mẫu khóa xj .
kích thích tạo ra phản hồi (đầu ra) y, như được chỉ ra trong Hình 27. Để thu hồi hoàn hảo, chúng tôi
nên tìm rằng y yj , trong đó yj là mẫu đã ghi nhớ được liên kết với mẫu khóa
y Zx yxjj
xj .Khi cho ,bộ nhớ liên kết được cho là đã mắc lỗi khi thu hồi.
Phần 9 Nhiệm vụ Học tập 39
Vectơ Véc tơ HÌNH 27 Quan hệ đầu vào - đầu ra của

Công cụ
đầu vào đầu ra bộ kết hợp mẫu.
kết hợp mẫu
x y
Số lượng mẫu q được lưu trữ trong bộ nhớ kết hợp cung cấp một thước đo trực tiếp về
dung lượng lưu trữ của mạng. Trong việc thiết kế một bộ nhớ liên kết, thách thức là làm cho
dung lượng lưu trữ q (được biểu thị bằng phần trăm của tổng số N tế bào thần kinh được sử
dụng để xây dựng mạng) càng lớn càng tốt, nhưng vẫn nhấn mạnh rằng một phần lớn các mẫu đã
ghi nhớ được nhớ lại. một cách chính xác.
Nhận dạng mẫu
Con người rất giỏi trong việc nhận dạng khuôn mẫu. Chúng ta nhận dữ liệu từ thế giới xung
quanh thông qua các giác quan và có thể nhận ra nguồn dữ liệu. Chúng tôi thường có thể làm
như vậy gần như ngay lập tức và thực tế không cần nỗ lực. Ví dụ: chúng ta có thể nhận dạng
khuôn mặt quen thuộc của một người ngay cả khi người đó đã già đi kể từ lần tiếp cận gần
đây nhất của chúng ta, xác định một người quen thuộc bằng giọng nói của họ trên điện thoại
bất chấp kết nối kém và phân biệt quả trứng luộc còn ngon từ một cái xấu bằng cách ngửi nó.
Con người thực hiện nhận dạng khuôn mẫu thông qua một quá trình học tập; vì vậy nó là với
mạng nơ-ron.
Nhận dạng mẫu được định nghĩa chính thức là quá trình theo đó một dấu hiệu / dấu
hiệu nhận được được gán cho một trong số các lớp quy định. Mạng nơ-ron trên mỗi biểu mẫu
nhận dạng mẫu bằng cách trải qua một phiên huấn luyện đầu tiên trong đó mạng được trình
bày lặp đi lặp lại với một tập hợp các mẫu đầu vào cùng với danh mục mà mỗi mẫu cụ thể
thuộc về. Sau đó, mạng được trình bày với một mô hình mới chưa từng thấy trước đây, nhưng
thuộc về cùng một quần thể chim nhạn biển được sử dụng để huấn luyện mạng. Mạng có thể xác
định lớp của mẫu mắt nhỏ đó nhờ thông tin mà nó đã trích xuất từ dữ liệu huấn luyện.
Nhận dạng mẫu được thực hiện bởi mạng nơ-ron có bản chất là thống kê, với các mẫu được biểu
diễn bằng các điểm trong không gian quyết định đa chiều. Không gian deci sion được chia
thành các vùng, mỗi vùng được liên kết với một lớp. Các ranh giới quyết định được xác định
bởi quá trình đào tạo. Việc xây dựng các ranh giới này được thực hiện thống kê bởi sự biến
đổi vốn có tồn tại trong và giữa các lớp.
Theo thuật ngữ chung, máy nhận dạng mẫu sử dụng mạng nơ-ron có thể mất
một trong hai hình thức:
• Máy được chia thành hai phần, một mạng không giám sát để khai thác tính năng và một
mạng có giám sát để phân loại, như thể hiện trong hệ thống lai ghép của Hình 28a.
Phương pháp như vậy tuân theo cách tiếp cận truyền thống để nhận dạng mẫu thống kê
(Fukunaga, 1990; Duda và cộng sự, 2001; Theodoridis và Koutroumbas, 2003). Theo thuật
ngữ khái niệm, một mẫu được biểu diễn bởi một tập hợp m có thể quan sát, có thể được
xem như một điểm x trong không gian (dữ liệu) quan sát m chiều .
40 Giới thiệu
Tính năng
vectơ 1
Mạng không được
Mẫu y Mạng được 2
giám sát để
đầu vào giám sát để •
•
Kết quả đầu ra
trích xuất
x
tính năng
phân loại •
r
(một)
Phân loại
Khai
thác tính năng
x y
m-chiều không gian đặc r-chiều
không gian quan sát trưng q-chiều không gian quyết định
(b)
HÌNH 28 Minh họa cách tiếp cận cổ điển để phân loại mẫu.
Khai thác đối tượng được mô tả bằng phép biến đổi ánh xạ điểm x thành điểm trung
gian y trong không gian đối tượng q chiều với q < m, như được chỉ ra trong Hình
28b. Sự chuyển đổi này có thể được coi là một trong những phương pháp giảm kích
thước (tức là nén dữ liệu), việc sử dụng nó là hợp lý với lý do nó đơn giản hóa
nhiệm vụ phân loại. Bản thân sự phân loại được mô tả như một phép biến đổi ánh xạ
điểm trung gian y thành một trong các lớp trong không gian quyết định r chiều,
trong đó r là số lớp được loại bỏ.
• Máy được thiết kế như một mạng chuyển tiếp sử dụng phương pháp học có giám sát.
Trong cách tiếp cận thứ hai này, nhiệm vụ khai thác tính năng được thực hiện bởi
các đơn vị tính toán trong (các) lớp ẩn của mạng.
Xấp xỉ hàm
Nhiệm vụ học tập thứ ba được quan tâm là tính gần đúng hàm. Hãy xem xét một ánh xạ đầu
vào - đầu ra phi tuyến tính được mô tả bởi mối quan hệ chức năng
d = f (x) (33)
trong đó vectơ x là đầu vào và vectơ d là đầu ra. Hàm có giá trị vectơ f (·) được cho
là chưa biết. Để bù đắp cho sự thiếu kiến thức về hàm f (·), chúng tôi đưa ra một tập
hợp các ví dụ có nhãn:
i = 1 t = {(xi , di )} N (34)
Yêu cầu là thiết kế một mạng nơron gần đúng với hàm chưa biết f (·) sao cho hàm F (·)
mô tả ánh xạ đầu vào - đầu ra được mạng thực sự nhận ra, đủ gần với f (·) theo nghĩa
Euclide hơn tất cả các đầu vào, như được hiển thị bởi
7F (x) - f (x) 7 6 với mọi x (35)
ở đâu là một số dương nhỏ. Với điều kiện kích thước N của mẫu huấn luyện đủ lớn vàt
mạng được trang bị đủ số lượng tham số tự do, thì sai số xấp xỉ có thể được tạo ra đủ
nhỏ cho nguyên công.
Bài toán xấp xỉ được mô tả ở đây là một ứng cử viên hoàn hảo cho việc học có
giám sát, với xi đóng vai trò vectơ đầu vào và di đóng vai trò tài trợ lại mong muốn.
Chúng tôi có thể giải quyết vấn đề này và xem việc học có giám sát là một vấn đề gần
đúng.
Khả năng của mạng nơ-ron để ước lượng một ánh xạ đầu vào-đầu ra chưa biết có thể
được khai thác theo hai cách quan trọng:
(i) Nhận dạng hệ thống. Hãy lập phương trình. (33) mô tả quan hệ đầu vào - đầu ra của một hệ thống
nhiều đầu vào - nhiều đầu ra (MIMO) không có bộ nhớ chưa biết; bởi một hệ thống "memo ryless",
chúng tôi muốn nói đến một hệ thống bất biến về thời gian. Sau đó, chúng tôi có thể sử dụng tập
hợp các ví dụ được gắn nhãn trong Eq. (34) để đào tạo một mạng nơ-ron như một mô hình của hệ thống.
Gọi vectơ yi biểu thị đầu ra thực tế của mạng nơ-ron được tạo ra để bảo trợ cho
một vectơ đầu vào xi . Đến lượt nó, tín hiệu lỗi này được sử dụng để điều chỉnh
các tham số tự do của mạng nhằm giảm thiểu sự khác biệt
đầubình
ra của
phương
hệ thống
giữa các
chưa
biết và mạng nơron theo nghĩa thống kê, và được tính toán trên toàn bộ mẫu huấn
luyện t.
(ii) Mô hình hóa nghịch đảo. Giả sử tiếp theo chúng ta được cung cấp một hệ thống MIMO
không bộ nhớ đã biết có quan hệ đầu vào - đầu ra được mô tả bằng phương trình Eq.
(33). Yêu cầu trong trường hợp này là xây dựng một mô hình nghịch đảo tạo ra vectơ x
tương ứng với vectơ d. Do đó, hệ thống nghịch đảo có thể được mô tả bằng
x = f -1 (d) (36)
HÌNH 29 Sơ đồ khối nhận dạng hệ

di
Hệ thống thống: Mạng nơron, thực hiện việc
không xác định nhận dạng, là một phần của vòng phản
hồi.
Vectơ ei
đầu vào
Σ
xi
Mạng
nơron
người mẫu yi
42 Giới thiệu
Lỗi
ei
Hệ thống Sản lượng
đầu ra mô hình
Vectơ không xác định di yi xi
Σ
Mô hình
đầu vào
f ( )
nghịch đảo
xi
HÌNH 30 Sơ đồ khối của mô hình hệ thống nghịch đảo. Mạng nơron, hoạt động như mô hình nghịch đảo,
là một phần của vòng phản hồi.
trong đó hàm có giá trị vectơ f -1

(·) Biểu thị nghịch đảo của f (·). Lưu ý, tuy
đó f -1
nhiên, (·) không phải là nghịch đảo của f (·); thay vào đó, việc sử dụng chỉ số
trên -1 chỉ là một lá cờ để chỉ ra một nghịch đảo. Trong nhiều tình huống gặp phải trong
thực tế, hàm có giá trị vectơ f (·) quá phức tạp và hạn chế công thức đơn giản của hàm
nghịch đảo f -1
(·). Đưa ra tập hợp các ví dụ được gắn nhãn trong
-1
Phương trình (34), chúng ta có thể xây dựng một mạng nơ-ron gần đúng (·) bằng cách sử dụng
của lược đồ f được thể hiện trong Hình 30. Trong tình huống được mô tả ở đây, vai trò
của xi và di được hoán đổi cho nhau: Vectơ di được sử dụng làm đầu vào và xi được coi
là câu trả lời mong muốn. Gọi vectơ tín hiệu lỗi ei biểu thị sự khác biệt giữa xi và
đầu ra thực tế yi của mạng nơ-ron được tạo ra để đáp ứng với di . để giảm thiểu sự khác
biệt bình phương giữa các đầu ra của hệ thống nghịch đảo chưa biết và mạng nơron theo
nghĩa thống kê, và được tính toán trên toàn bộ tập huấn luyện. Thông thường, inverse
mod eling là một nhiệm vụ học tập khó khăn hơn so với xác định hệ thống, vì có thể không
có giải pháp duy nhất cho nó. t
Điều khiển
Việc điều khiển một nhà máy là một nhiệm vụ học tập khác rất phù hợp với mạng nơ-ron; bởi một
"nhà máy", chúng tôi có nghĩa là một quá trình hoặc một phần quan trọng của hệ thống được duy
trì trong một điều kiện khó khăn. Sự liên quan của việc học cách kiểm soát sẽ không có gì đáng
ngạc nhiên bởi vì suy cho cùng, bộ não con người là một máy tính (tức là bộ xử lý thông tin),
đầu ra của toàn bộ hệ thống là các hành động. Trong bối cảnh điều khiển, bộ não là bằng chứng
sống cho thấy có thể xây dựng một bộ điều khiển tổng quát tận dụng tối đa phần cứng phân tán
song song, có thể điều khiển song song hàng nghìn bộ truyền động (sợi cơ), có thể xử lý phi
tuyến tính và nhiễu, và có thể tối ưu hóa trên một đường chân trời lập kế hoạch dài hạn
(Werbos, 1992).
Hãy xem xét hệ thống điều khiển phản hồi được thể hiện trong Hình 31. Hệ thống liên quan
đến việc sử dụng phản hồi thống nhất xung quanh một nhà máy được kiểm soát; nghĩa là, đầu ra
của nhà máy được trả lại trực tiếp cho đầu vào. Do đó, sản lượng y của nhà máy được trừ cho
tín hiệu tham chiếu d được cung cấp từ nguồn bên ngoài. Tín hiệu lỗi e được tạo ra được áp
dụng cho bộ điều khiển thần kinh nhằm mục đích điều chỉnh các tham số tự do của nó. Mục tiêu
chính của bộ điều khiển là cung cấp đầu vào thích hợp cho nhà máy để làm cho đầu ra y theo dõi
Lỗi Thực vật
dấu hiệu đầu vào

Tín hiệu e u Thực vật
tham Σ Bộ điều khiển Thực vật đầu ra y

chiếu d
Phản hồi thống nhất
HÌNH 31 Sơ đồ khối của hệ thống điều khiển phản hồi.
tín hiệu tham chiếu d. Nói cách khác, bộ điều khiển phải đảo ngược hành vi đầu vào - đầu ra
của nhà máy.
Chúng ta lưu ý rằng trong Hình 31, tín hiệu lỗi e phải truyền qua bộ biến đổi
thần kinh trước khi đến cây. Do đó, để thực hiện các điều chỉnh trên các thước đo pa
tự do của cây phù hợp với thuật toán sửa lỗi học, chúng ta cần biết Jacobian, được
tạo thành từ ma trận các đạo hàm riêng như được minh họa bởi
(37)
J = e 0yk
0uj f j, k
trong đó yk là phần tử của đầu ra nhà máy y và uj là phần tử của đầu vào nhà máy u.
Thật không may, các đạo hàm riêng cho các
0ujk của
và jcây
khác
và nhau
do đóphụ thuộc
không vàobiết
được điểmđến.
xuấtChúng
phát ta
0yk
có thể sử dụng một trong hai cách tiếp cận để giải thích chúng:
(i) Học tập gián tiếp. Sử dụng các phép đo đầu vào - đầu ra thực tế trên nhà máy,
trước tiên chúng tôi xây dựng một mô hình thần kinh để tạo ra một bản sao của nó.
Đến lượt nó, mô hình này được sử dụng để cung cấp ước tính của Jacobian J. Các đạo
hàm riêng cấu thành cobian Ja này sau đó được sử dụng trong thuật toán học sửa lỗi
để com đưa các điều chỉnh cho các tham số tự do của bộ điều khiển thần kinh (Nguyễn
và Widrow, 1989; Suykens và cộng sự, 1996; Widrow và Walach, 1996).
(ii) Học tập trực tiếp. Các dấu hiệu của các đạo hàm riêng
là 0ykthường
0uj vàđược biếtkhông
thường đến
đổi trong phạm vi động của cây. Điều này cho thấy rằng chúng ta có thể tính
gần đúng các đạo hàm riêng này bằng các dấu hiệu riêng lẻ của chúng.
Bộ điều khiển thần kinh do đó được kích hoạt để học các điều chỉnh đối với thước đo pa
miễn phí của nó trực tiếp từ nhà máy.
Beamforming
Beamforming được sử dụng để phân biệt giữa các đặc tính không gian của tín hiệu mục
tiêu và nhiễu nền. Thiết bị được sử dụng để tạo dầm được gọi là máy tạo chùm.
Nhiệm vụ của định dạng chùm tương thích, ví dụ, với việc lập bản đồ đặc điểm trong các
lớp vỏ não của hệ thống thính giác của dơi định vị bằng tiếng vang (Suga, 1990a; Simmons et al.,
44 Giới thiệu
1992). Dơi định vị bằng tiếng vang chiếu sáng môi trường xung quanh bằng cách phát tín hiệu sóng
siêu âm được điều biến tần số (FM) trong thời gian ngắn và sau đó sử dụng hệ thống thính giác của
nó (bằng cách chạm vào một đôi tai) để tập trung sự chú ý vào con mồi của nó (ví dụ: côn trùng bay).
tai cung cấp cho dơi một khả năng định dạng chùm tia được khai thác bởi hệ thống thính giác để tạo
ra khả năng chọn lọc có chủ ý.
Beamforming thường được sử dụng trong các hệ thống radar và sonar, trong đó nhiệm vụ
chính là phát hiện và theo dõi mục tiêu quan tâm khi có sự hiện diện kết hợp của tiếng ồn máy
thu và các tín hiệu gây nhiễu (ví dụ: thiết bị gây nhiễu). Nhiệm vụ này phức tạp bởi hai yếu tố:
• tín hiệu mục tiêu bắt nguồn từ một hướng không xác định, và •
không có thông tin trước về các tín hiệu gây nhiễu.
Một cách để đối phó với những tình huống kiểu này là sử dụng bộ hủy sidelobe tổng quát (GSLC),
sơ đồ khối của nó được thể hiện trong Hình 32. ): • Một mảng các phần tử ăng-ten, cung cấp
phương tiện lấy mẫu tín hiệu không gian quan sát tại các điểm rời rạc trong không gian. • Một
bộ kết hợp tuyến tính được xác định bởi một tập hợp các trọng số cố định {wi } i = 1 m
, đầu ra của nó
thực hiện vai trò của một phản hồi mong muốn. Bộ kết hợp tuyến tính này hoạt động
giống như một “bộ lọc tial spa”, được đặc trưng bởi một mẫu bức xạ (tức là, đồ thị cực
của độ khuếch đại của đầu ra ăng-ten so với góc tới của tín hiệu đến).
Hình tròn chính của mẫu bức xạ này được hướng theo một hướng quy định, mà GSLC bị hạn
chế để tạo ra phản ứng không bị biến dạng. Đầu ra của bộ kết hợp tuyến tính, ký hiệu là
d (n), cung cấp phản hồi mong muốn cho bộ định dạng chùm.
• Ma trận chặn tín hiệu Ca, chức năng của nó là loại bỏ nhiễu rò rỉ qua các đường phụ của
mẫu bức xạ của bộ lọc không gian đại diện cho bộ kết hợp tuyến tính.
Bộ kết hợp tuyến tính
u1 (n) w1
Mong muốn
phản hồi
u2 (n) w2
Σ
d (n)
Đầu vào
• •
• • Tín
• •
hiệu
um (n) wm
Σ
lỗi e (n)
Chặn
x (n)
Mạng
• tín hiệu
• ma trận nơron
• Đầu ra
Ca y (n)
HÌNH 32 Sơ đồ khối của bộ hủy sidelobe tổng quát.

Phần 10 Kết luận 45
• Mạng nơ-ron với các tham số có thể điều chỉnh được, được thiết kế để phù hợp với
các biến thể thống kê trong các tín hiệu gây nhiễu.
Các điều chỉnh đối với các tham số tự do của mạng nơ-ron được thực hiện bởi một
thuật toán học sửa lỗi hoạt động trên tín hiệu lỗi e (n), được định nghĩa là
sự khác biệt giữa đầu ra bộ kết hợp tuyến tính d (n) và đầu ra thực tế y (n) của
mạng nơ-ron. Do đó GSLC hoạt động dưới sự giám sát của bộ kết hợp tuyến tính
đảm nhận vai trò của một “giáo viên”. Như với việc học có giám sát thông thường, hãy lưu ý rằng
bộ kết hợp tuyến tính nằm ngoài vòng phản hồi hoạt động trên mạng nơ-ron. Một chùm trước đây
sử dụng mạng nơ-ron để học được gọi là bộ định dạng chùm thần kinh.
máy học được đặt dưới tiêu đề chung là máy tính thần kinh chú ý
(Hecht-Nielsen, 1990).
10 NHẬN XÉT KẾT LUẬN
Trong tài liệu được đề cập trong chương giới thiệu này, chúng tôi đã tập trung chú ý vào mạng lưới
neur al, nghiên cứu về mạng lưới này được thúc đẩy bởi bộ não con người. Một trong những quan trọng
thuộc tính của mạng nơ-ron nổi bật là tính năng học tập, được phân loại là
sau:
(i) học tập có giám sát, đòi hỏi sự sẵn có của một mục tiêu hoặc phản hồi mong muốn
để thực hiện một ánh xạ đầu vào - đầu ra cụ thể bằng cách giảm thiểu chi phí quan tâm;
(ii) học tập không giám sát, việc thực hiện dựa trên việc cung cấp một
thước đo độc lập với nhiệm vụ về chất lượng đại diện mà mạng được yêu cầu để học theo
cách tự tổ chức;
(iii) học tập củng cố, trong đó ánh xạ đầu vào - đầu ra được thực hiện thông qua
sự tương tác liên tục của một hệ thống học tập với môi trường của nó để giảm thiểu
một chỉ số vô hướng về hiệu suất.
Việc học tập có giám sát phụ thuộc vào sự sẵn có của một mẫu đào tạo có gắn nhãn
ví dụ, với mỗi ví dụ bao gồm một tín hiệu đầu vào (kích thích) và phản hồi mong muốn (mục
tiêu) tương ứng. Trong thực tế, chúng tôi thấy rằng tập hợp các
ví dụ là một công việc tốn thời gian và tốn kém, đặc biệt là khi chúng tôi đang xử lý
vấn đề học tập quy mô lớn; thông thường, do đó, chúng tôi thấy rằng các ví dụ được gắn nhãn nằm trong
nguồn cung thiếu hụt. Mặt khác, việc học tập không có giám sát chỉ dựa vào các mẫu thử không
được gắn nhãn, chỉ bao gồm một tập hợp các tín hiệu đầu vào hoặc các kích thích, mà thường có
nguồn cung dồi dào. Dựa trên những thực tế này, có rất nhiều sự quan tâm đến một thể loại học
tập khác của mèo : học tập bán giám sát, sử dụng một mẫu đào tạo bao gồm
Thách thức trong học tập bán giám sát, được đề cập trong chương tiếp theo, là thiết kế một hệ
thống học tập có quy mô hợp lý
để việc triển khai nó trở nên khả thi trên thực tế khi giải quyết các vấn đề phân loại mẫu
quy mô lớn.
Học tập củng cố nằm giữa học tập có giám sát và không giám sát
học tập. Nó hoạt động thông qua các tương tác liên tục giữa một hệ thống học tập
(tác nhân) và môi trường. Hệ thống học tập thực hiện một hành động và học hỏi từ
46 Giới thiệu
phản ứng của môi trường đối với hành động đó. Trên thực tế, vai trò của giáo viên trong việc học có
giám sát được thay thế bằng một nhà phê bình, ví dụ, vai trò này được tích hợp vào máy học.
LƯU Ý VÀ TÀI LIỆU THAM KHẢO
1. Định nghĩa về mạng nơ-ron này được phỏng theo Aleksander và Morton (1990).
2. Để có tài khoản dễ đọc về các khía cạnh tính toán của não, xem Churchland và Sejnowski (1992).
Để biết mô tả chi tiết hơn, hãy xem Kandel et al. (1991), Shepherd (1990), Kuffler và cộng sự.
(1984), và Freeman (1975).
3. Để biết cách điều trị chi tiết về gai và tế bào thần kinh tăng đột biến, hãy xem Rieke et al.
(1997). Để biết quan điểm lý sinh về khả năng tính toán và xử lý thông tin của các tế bào thần
kinh đơn lẻ, xem Koch (1999).
4. Để có tài khoản kỹ lưỡng về các chức năng sigmoid và các vấn đề liên quan, hãy xem Mennon et al.
(1996).
5. Hàm logistic, hay chính xác hơn là hàm phân phối logistic, lấy tên gọi của nó từ một “quy luật
tăng trưởng logistic” siêu việt có một tài liệu rất lớn. Được đo bằng các đơn vị thích hợp, tất
cả các quá trình tăng trưởng phải được thể hiện bằng chức năng phân phối hậu cần
1
F (t) = t-
1 + e
trong đó t đại diện cho thời gian và và là các hằng số.
6. Theo Kuffler và cộng sự. (1984), thuật ngữ “trường tiếp nhận” được đặt ra ban đầu bởi Sherrington
(1906) và được giới thiệu lại bởi Hartline (1940). Trong bối cảnh của một hệ thống thị giác,
trường tiếp nhận của một tế bào thần kinh đề cập đến vùng giới hạn trên bề mặt võng mạc, ảnh
hưởng đến sự phóng điện của tế bào thần kinh đó do ánh sáng.
7. Kỹ thuật chia sẻ trọng lượng ban đầu được mô tả trong Rumelhart et al. (1986b).
CHƯƠNG 1
Perceptron của Rosenblatt
TỔ CHỨC CHƯƠNG
Perceptron chiếm một vị trí đặc biệt trong lịch sử phát triển của các công trình mạng nơ-ron:
Nó là mạng nơ-ron được mô tả theo thuật toán đầu tiên. Phát minh của nó bởi Rosenblatt, một nhà
tâm lý học, đã truyền cảm hứng cho các kỹ sư, nhà vật lý và toán học giống nhau cống hiến nỗ
lực nghiên cứu của họ cho các khía cạnh khác nhau của mạng nơ-ron trong những năm 1960 và 1970.
Hơn nữa, thật sự đáng chú ý khi phát hiện ra rằng perceptron (ở dạng cơ bản của nó như được mô
tả trong chương này) vẫn có giá trị như ngày nay giống như vào năm 1958 khi bài báo của
Rosenblatt về perceptron được xuất bản lần đầu tiên.
Chương trình được tổ chức như sau:
1. Phần 1.1 mở rộng về những năm hình thành của mạng nơ-ron, quay trở lại
công trình tiên phong của McCulloch và Pitts năm 1943.
2. Phần 1.2 mô tả perceptron của Rosenblatt ở dạng cơ bản nhất của nó. Tiếp theo là
Phần 1.3 về định lý hội tụ perceptron. Định lý này chứng minh cường độ hội tụ của
perceptron như một bộ phân loại mẫu có thể phân tách tuyến tính trong một số hữu hạn
bước thời gian.
3. Phần 1.4 thiết lập mối quan hệ giữa perceptron và bộ định nghĩa clas Bayes cho môi trường
Gaussian.
4. Thí nghiệm được trình bày trong Phần 1.5 chứng minh sự phân loại kiểu mẫu
khả năng của perceptron.
5. Phần 1.6 tổng quát cuộc thảo luận bằng cách giới thiệu hàm chi phí perceptron, mở đường cho
việc lấy ra phiên bản hàng loạt của thuật toán hội tụ perceptron.
Phần 1.7 cung cấp một bản tóm tắt và thảo luận kết thúc chương.
1.1 GIỚI THIỆU
Trong những năm hình thành của mạng nơ-ron (1943–1958), một số nhà nghiên cứu nổi bật
với những đóng góp tiên phong của họ:
• McCulloch và Pitts (1943) vì đã giới thiệu ý tưởng về mạng nơ-ron như máy đặt com.
47
48 chương 1 Rosenblatt's Perceptron
• Hebb (1949) vì công nhận quy tắc đầu tiên cho việc học tập tự tổ chức.
• Rosenblatt (1958) vì đã đề xuất perceptron làm mô hình đầu tiên cho việc học
với một giáo viên (tức là học có giám sát).
Ý tưởng về việc học tiếng Hebbian sẽ được thảo luận ở một số độ dài trong Chương 8. Trong này
chương, chúng ta thảo luận về perceptron của Rosenblatt .
Perceptron là dạng đơn giản nhất của mạng nơ-ron được sử dụng để phân loại cation của các mẫu
được cho là có thể phân tách tuyến tính (tức là các mẫu nằm đối diện
các mặt của một siêu phẳng). Về cơ bản, nó bao gồm một nơ-ron duy nhất với trọng lượng và độ lệch khớp
thần kinh có thể điều chỉnh được. Thuật toán được sử dụng để điều chỉnh các tham số tự do của nơ-ron này
mạng lần đầu tiên xuất hiện trong một quy trình học tập được phát triển bởi Rosenblatt (1958, 1962)
cho mô hình não perceptron của mình.1 Thật vậy, Rosenblatt đã chứng minh rằng nếu các mẫu (vec tors)
được sử dụng để huấn luyện perceptron được rút ra từ hai lớp phân tách tuyến tính,
sau đó thuật toán perceptron hội tụ và định vị bề mặt quyết định trong
dạng siêu phẳng giữa hai lớp. Chứng minh hội tụ của al gorithm được gọi là định lý hội tụ perceptron.
Perceptron được xây dựng xung quanh một neuron duy nhất được giới hạn trong việc biểu diễn mẫu
phân loại chỉ với hai lớp (giả thuyết). Bằng cách mở rộng lớp đầu ra (tổng hợp) của perceptron để bao
gồm nhiều hơn một neuron, chúng ta có thể thực hiện phân loại một cách ngẫu nhiên với nhiều hơn hai
lớp. Tuy nhiên, các lớp
phải được phân tách tuyến tính để perceptron hoạt động bình thường. Điều quan trọng
điểm là trong chừng mực lý thuyết cơ bản về perceptron như một bộ phân loại mẫu đã được xác nhận, chúng
ta chỉ cần xem xét trường hợp của một neuron duy nhất.
1.2 PERCEPTRON
Perceptron của Rosenblatt được xây dựng xung quanh một neuron phi tuyến, cụ thể là McCulloch – Pitts
mô hình của một tế bào thần kinh. Từ chương giới thiệu, chúng ta nhớ lại rằng mô hình thần kinh
bao gồm một bộ kết hợp tuyến tính theo sau là một bộ giới hạn cứng (thực hiện chức năng dấu hiệu), như
được mô tả trong Hình 1.1. Nút tổng hợp của mô hình thần kinh tính toán sự kết hợp giữa các đầu vào
được áp dụng cho các khớp thần kinh của nó, cũng như kết hợp bên ngoài
thiên vị đã áp dụng. Tổng kết quả, nghĩa là, trường cục bộ gây ra, được áp dụng cho một
HÌNH 1.1 Luồng tín hiệu

x1 Thiên vị b
đồ thị của perceptron.
w1
x2
vw () Đầu ra
Đầu vào
• w2
y
• Cứng
• wm người giới hạn
xm
Phần 1.3 Định lý hội tụ Perceptron 49
người giới hạn. Theo đó, nơ-ron tạo ra đầu ra bằng 1 nếu đầu vào của bộ giới hạn
cứng là dương và -1 nếu là âm.
Trong mô hình đồ thị luồng tín hiệu của Hình 1.1, trọng số synap của perceptron
được ký hiệu là w1, w2, ..., wm. Tương ứng, các đầu vào được áp dụng cho perceptron được
ký hiệu là x1, x2, ..., xm. Độ chệch áp dụng bên ngoài được ký hiệu là b. Từ mô hình,
chúng tôi thấy rằng đầu vào giới hạn cứng, hoặc trường cục bộ cảm ứng, của nơron là
m
v = a wi xi + b (1.1)
i = 1
Mục tiêu của perceptron là phân loại chính xác tập hợp các kích thích được áp dụng bên ngoài
x1, x2, ..., xm thành một trong hai lớp, c1 hoặc c2. Quy tắc quyết định cho phân loại là ký
hiệu điểm được biểu diễn bởi các đầu vào x1, x2, ..., xm cho lớp c1 nếu đầu ra perceptron y
là +1 và cho lớp c2 nếu nó là -1.
Để phát triển cái nhìn sâu sắc về hoạt động của bộ phân loại mẫu, thông thường, vẽ
một bản đồ của các vùng quyết định trong không gian tín hiệu m chiều được bao trùm bởi m
biến đầu vào x1, x2, ..., xm. Ở dạng đơn giản nhất của perceptron, có hai ý nghĩa quyết
định được phân tách bằng một siêu phẳng, được định nghĩa bởi
m
a wi xi + b = 0 (1.2)
i = 1
Điều này được minh họa trong Hình 1.2 cho trường hợp của hai biến đầu vào x1 và
x2, mà ranh giới quyết định có dạng một đường thẳng. Một điểm (x1, x2) nằm trên
đường biên được gán cho lớp c1 và một điểm (x1, x2) nằm dưới đường biên được gán
cho lớp c2. Cũng lưu ý rằng tác động của sai lệch b chỉ là để dịch chuyển ranh
giới deci sion ra khỏi gốc.
Trọng lượng tiếp hợp w1, w2, ..., wm của perceptron có thể được điều chỉnh trên cơ
sở lặp đi lặp lại. Để điều chỉnh, chúng tôi có thể sử dụng quy tắc sửa lỗi được gọi là
thuật toán hội tụ perceptron, sẽ được thảo luận tiếp theo.
x2 HÌNH 1.2 Minh họa về
siêu phẳng (trong ví dụ này

là một đường thẳng) làm ranh
giới quyết định cho bài toán
phân loại mẫu hai chiều, hai lớp.
Lớp 1
Lớp 2
0 x1
Ranh giới quyết định

w1x1 w2x2 b 0
1.3 LÝ THUYẾT CHUYỂN ĐỔI PERCEPTRON
Để rút ra thuật toán học sửa lỗi cho perceptron, chúng tôi thấy thuận tiện hơn khi làm việc
với mô hình đồ thị luồng tín hiệu đã sửa đổi trong Hình 1.3. Trong mô hình thứ hai này, tương
đương với trong Hình 1.1, độ lệch b (n) được coi là trọng số khớp thần kinh được điều khiển
bởi một đầu vào cố định bằng 1. Do đó, chúng ta có thể xác định đầu vào (m 1) -by-1 vectơ x
(n) = [+1, x1 (n), x2 (n), ..., xm (n)] T
trong đó n biểu thị bước thời gian áp dụng thuật toán. Tương ứng, chúng tôi xác định vectơ
trọng số (m + 1) -by-1 là w (n) = [b, w1 (n), w2 (n), ..., wm (n)] T
Theo đó, đầu ra bộ kết hợp tuyến tính được viết dưới dạng thu gọn
v (n) = a wi (n) xi (n)

i = 0 (1.3)
= wT (n) x (n)
trong đó, ở dòng đầu tiên, w0 (n), tương ứng với i 0, đại diện cho độ lệch b. Đối với n cố
định, phương trình wTx = 0, được vẽ trong không gian m chiều (và đối với một số độ lệch quy
định) với tọa độ x1, x2, ..., xm, xác định một siêu phẳng là bề mặt quyết định giữa hai lớp
đầu vào khác nhau.
Để perceptron hoạt động bình thường, hai lớp c1 và c2 phải được phân tách tuyến tính.
được minh họa trong Hình 1.4 cho trường hợp của một perceptron hai chiều. Trong hình 1.4a,
hai lớp c1 và c2 đủ cách xa nhau để chúng ta vẽ một siêu phẳng (trong trường hợp này là một
đường thẳng) làm ranh giới quyết định. Tuy nhiên, nếu hai lớp c1 và c2 được phép di chuyển
quá gần nhau, như trong Hình 1.4b, chúng có thể phân tách phi tuyến tính, một tình huống vượt
quá khả năng tính toán của perceptron.
Giả sử khi đó các biến đầu vào của perceptron bắt nguồn từ hai lớp có thể phân tách
sớm lin. Gọi h1 là không gian con của các vectơ huấn luyện x1 (1), x1 (2), ... dài đến lớp
c1 và gọi h2 là không gian con của các vectơ huấn luyện x2 (1), x2 (2), ... thuộc về lớp c2.
Hợp của h1 và h2 là không gian hoàn chỉnh ký hiệu là h. Đưa ra các bộ
HÌNH 1.3 Đồ thị luồng tín hiệu tương đương của Đầu vào 1
x0
perceptron; sự phụ thuộc vào thời gian đã được cố định
w0 b
bỏ qua cho rõ ràng.
x1
v
w1 w () Đầu ra y
x2
Đầu vào
• w2 Bộ
• giới hạn cứng

•
wm
xm Bộ kết
hợp tuyến tính

Quyết định
Ranh giới
Lớp 1 Lớp 1
Lớp Lớp 2
2
(một) (b)
HÌNH 1.4 (a) Một cặp mẫu có thể phân tách tuyến tính. (b) Một cặp phân tách không tuyến tính
các mẫu.
của vectơ h1 và h2 để đào tạo bộ phân loại, quá trình đào tạo bao gồm việc điều chỉnh
của vectơ trọng lượng w sao cho hai lớp c1 và c2 phân tách tuyến tính, nghĩa là tồn tại một vectơ
trọng lượng w sao cho chúng ta có thể phát biểu
wTx 7 0 cho mọi vectơ đầu vào x thuộc lớp c1

(1.4)
wTx 0 cho mọi vectơ đầu vào x thuộc lớp c2
Trong dòng thứ hai của phương trình (1.4), chúng tôi đã tùy ý chọn để nói rằng vectơ đầu vào x
thuộc về lớp c2 nếu wTx 0. Cho tập con của các vectơ huấn luyện h1 và h2, bài toán huấn luyện cho
perceptron sau đó là tìm một vectơ trọng lượng w sao cho hai vectơ này bằng nhau trong Eq. (1.4)
hài lòng.
Thuật toán điều chỉnh vectơ trọng lượng của perceptron cơ bản có thể
bây giờ được xây dựng như sau:
1. Nếu thành viên thứ n của tập huấn luyện, x (n), được phân loại chính xác theo trọng số
vectơ w (n) được tính ở lần lặp thứ n của thuật toán, không có hiệu chỉnh nào được thực hiện đối với
vectơ trọng lượng của perceptron theo quy tắc:
w (n + 1) = w (n) nếu wT (n) x (n) 7 0 và x (n) thuộc lớp c1

(1.5)
w (n + 1) = w (n) nếu wT (n) x (n) 0 và x (n) thuộc lớp c2
2. Nếu không, vectơ trọng lượng của perceptron được cập nhật theo
quy tắc
w (n + 1) = w (n) - (n) x (n) nếu wT (n) x (n) 7 0 và x (n) thuộc loại c2

(1.6)
w (n + 1) = w (n) + (n) x (n) nếu wT (n) x (n) 0 và x (n) thuộc lớp c1
trong đó tham số tốc độ học η (n) kiểm soát sự điều chỉnh được áp dụng cho trọng lượng vec tor ở
lần lặp n.
Nếu (n) > 0, trong đó là một hằng số độc lập với số lần lặp n, thì
chúng ta có quy tắc thích ứng tăng dần cố định cho perceptron.
Trong phần tiếp theo, trước tiên chúng tôi chứng minh sự hội tụ của quy tắc thích ứng tăng dần cố định
mà η 1. Rõ ràng, giá trị của η là không quan trọng, miễn là nó dương. Một giá trị
của Z 1 chỉ đơn thuần chia tỷ lệ các vectơ mẫu mà không ảnh hưởng đến khả năng phân tách của chúng. Trường
hợp của một biến η (n) được xem xét sau.
Chứng minh thuật toán hội tụ perceptron 2 được trình bày với điều kiện ban đầu w (0) 0. Giả sử rằng
wT (n) x (n) <0 với n 1, 2, ... và vectơ đầu vào x (n) thuộc vào tập con h1.loại
Nghĩa
sailà,
cácperceptron
vectơ x (1),
phânx
(2), ..., kể từ điều kiện đầu tiên của Eq. (1.4) bị vi phạm Vì vậy, với hằng số (n) 1, chúng ta có thể sử
dụng dòng thứ hai của phương trình. (1.6) để viết
w (n + 1) = w (n) + x (n) cho x (n) thuộc lớp c1 (1.7)
Với điều kiện ban đầu w (0) = 0, chúng ta có thể giải phương trình này lặp đi lặp lại cho w (n
+ 1), thu được kết quả
w (n + 1) = x (1) + x (2) + p + x (n) (1.8)
Vì các lớp và được giảc1

định là c2
có thể phân tách tuyến tính, tồn tại một nghiệm wo mà wTx (n) > 0 cho các
vectơ x (1), ..., x (n) thuộc tập con h1. Đối với một giải pháp cố định , chúng tôi có thể xác định một số
dương là
= tối thiểu owTx (n) x

(1,9)
(n) h1
Do đó, nhân cả hai vế của Eq. (1.8) bởi vectơ hàng wT wT ow (n + 1) = wT o x o, chúng tôi nhận được
(1) + wT o x (2) + p + wT o x (n)
Theo đó, dựa trên định nghĩa được đưa ra trong phương trình. (1.9), chúng tôi có
wT ow (n + 1) n (1.10)
Tiếp theo, chúng ta sử dụng một bất đẳng thức được gọi là bất đẳng thức Cauchy – Schwarz.
Cho hai vectơ w0 và w (n + 1), bất đẳng thức Cauchy – Schwarz phát biểu rằng
@ @wo @ @ 2 @ @ w (n + 1) @ @ 2 [wo Tw (n + 1)] 2 (1.11) trong đó @ @ @ @
biểu thị chuẩn

Bây
@wo
[wT
giờ
Euclide
@ow@chúng
(n
2 @+ của
@w
tôi
1)](n
vectơ
ghi
2 +. 1)
nhận
Dođối
@đó,
@từ
số
2nó
phương
kèm
. theo
Từtheo
phương
trình
sauvàrằng
tích
trình
(1.10)
@ bên
@wo
(1.11),
rằng
trong
@ @[wT
2chúng
wT
@ow@w
ow(n
tôi
(n
(n1)]
++
lưu
1)
1)
2 ýbằng
@là
rằng
@ một
2hoặc
n2
nó
đại
2bằng
lớn
lượng
hơn
hoặc
vô
n2lớn
hướng.
2 @hơn
hoặc, tương đương,
n2 2 @
@ @w (n + 1) @ @ 2 (1.12)
@wo @ @ 2
Tiếp theo, chúng tôi đi theo một lộ trình phát triển khác, cụ thể là chúng tôi viết lại phương trình (1.7) dưới dạng
w (k + 1) = w (k) + x (k) cho k = 1, ..., n và x (k) h1 (1.13)
Bằng cách lấy tiêu chuẩn Euclid bình phương của cả hai mặt của phương trình. (1.13), chúng tôi có được
2
@ @w (k + 1) @ @ = @ @w (k) @ @ 2 + @ @x (k) @ @ 2 + 2wT (k) x (k) (1.14)
Nhưng, wT (k) x (k) 0. Do đó chúng tôi suy ra từ phương trình. (1.14) rằng
@ @w (k + 1) @ @ 2 @ @w (k) @ @ 2 + @ @x (k) @ @ 2
@ @w (k + 1) @ @ 2 - @ @w (k) @ @ 2 @ @x (k) @ @ 2 , k = 1, ..., N (1.15)
Thêm các bất đẳng thức này cho k = 1, ..., n và gọi điều kiện ban đầu giả định
w (0) = 0, chúng ta nhận được bất đẳng thức
N
@ @w (n + 1) @ @ 2 a @ @x (k) @ @ 2 (1.16)
k = 1
N
đâu là một số dương được xác định bởi

= tối đa (1.17)
@ @x (k) @ @ 2
x (k) h1
Phương trình (1.16) nói rằng định mức Euclid bình phương của vectơ trọng lượng w (n 1)
phát triển tuyến tính nhiều nhất với số lần lặp n.
Kết quả thứ hai của Eq. (1.16) rõ ràng là mâu thuẫn với kết quả trước đó của
Phương trình (1.12) với các giá trị n đủ lớn. Thật vậy, chúng ta có thể phát biểu rằng n không thể lớn hơn
hơn một giá trị nào đó nmax mà tại đó các phương trình. (1.12) và (1.16) đều thỏa mãn với đẳng thức
nghĩa là nmax là nghiệm của phương trình
2
n2tối đa =
nmax
@ @wo @ @ 2
Giải cho nmax, cho trước một véc tơ nghiệm wo, chúng ta thấy rằng
@ @wo @ @ 2
=
nmax (1.18)
2
Do đó, chúng tôi đã chứng minh rằng với η (n) = 1 với mọi n và w (0) = 0, và cho rằng một nghiệm
vectơ wo tồn tại, quy tắc để điều chỉnh trọng lượng tiếp hợp của perceptron phải kết thúc pha
trộn sau nhiều nhất nmax tương tác . Đáng ngạc nhiên là tuyên bố này, được chứng minh cho giả
thuyết sis h1, cũng đúng cho giả thuyết h2. Tuy nhiên, lưu ý,
Bây giờ chúng ta có thể phát biểu định lý độ che phủ tăng dần cố định cho perceptron như
sau (Rosenblatt, 1962):
Để các tập con của các vectơ huấn luyện h1 và h2 có thể phân tách tuyến tính. Hãy để các đầu vào được trình bày
đến perceptron bắt nguồn từ hai tập con này. Perceptron hội tụ sau một số
không lặp lại, theo nghĩa là
w (no) = w (no + 1) = w (no + 2) = p
là một vectơ nghiệm cho n0 nmax.
Tiếp theo, hãy xem xét quy trình sửa lỗi tuyệt đối cho sự thích ứng của một
perceptron lớp đơn, mà (n) là biến. Cụ thể, đặt (n) là số nguyên nhỏ nhất
điều kiện nào
(n) xT (n) x (n) 7 @wT (n) x (n) @

Với quy trình này, chúng ta thấy rằng nếu tích bên trong wT (n) x (n) ở lần lặp n có dấu
sai, thì wT (n + 1) x (n) ở lần lặp n + 1 sẽ có dấu đúng. Điều này cho thấy rằng nếu wT
(n) x (n) có một dấu sai, ở lần lặp n, chúng ta có thể sửa đổi trình tự huấn luyện ở lần
lặp n + 1 bằng cách đặt x (n + 1) = x (n). Nói cách khác, mỗi mẫu được trình bày lặp đi
lặp lại với perceptron cho đến khi mẫu đó được phân loại chính xác.
Cũng lưu ý rằng việc sử dụng giá trị ban đầu w (0) khác với điều kiện rỗng
chỉ dẫn đến giảm hoặc tăng số lần lặp cần thiết để hội tụ, tùy thuộc vào cách w
(0) liên quan đến giải pháp wo. Bất kể giá trị được gán cho w (0), perceptron được
đảm bảo về sự hội tụ.
Trong Bảng 1.1, chúng tôi trình bày tóm tắt về thuật toán hội tụ perceptron
(Lippmann, 1987). Ký hiệu sgn (?), Được sử dụng trong bước 3 của bảng để tính toán
phản hồi thực tế của perceptron, là viết tắt của hàm signum:
(1.19)
-1 nếu
sgn (v) = e +1 nếu vv 76 00
Do đó, chúng ta có thể biểu thị phản ứng lượng tử hóa y (n) của perceptron ở dạng thu gọn
y (n) = sgn [wT (n) x (n)] (1,20)
Lưu ý rằng vectơ đầu vào x (n) là một vectơ (m + 1) -by-1 có phần tử đầu tiên được cố định
ở +1 trong suốt quá trình tính toán. Tương ứng, vectơ trọng lượng w (n) là một
BẢNG 1.1 Tóm tắt thuật toán hội tụ Perceptron
Biến và Tham số:
x (n) = (m + 1) -by-1 vectơ đầu vào =
[+1, x1 (n), x2 (n), ..., xm (n)]
T w (n) = (m + 1 ) -by-1 vectơ trọng số
= [b, w1 (n), w2 (n), ..., wm (n)] T

b = thiên vị
y (n) = phản hồi thực tế (lượng tử hóa)

d (n) = phản hồi mong muốn = tham số
tốc độ học, một hằng số dương nhỏ hơn thống nhất
1. Khởi tạo. Đặt w (0) = 0. Sau đó thực hiện các phép tính sau cho bước thời gian n = 1, 2, ....
2. Kích hoạt. Tại bước thời gian n, kích hoạt perceptron bằng cách áp dụng vectơ đầu vào có giá trị liên tục x (n) và mong muốn
phản ứng d (n).
3. Tính toán phản hồi thực tế. Tính phản hồi thực tế của perceptron dưới dạng y (n) = sgn [wT
(n) x (n)]
trong đó sgn (·) là hàm dấu hiệu.
4. Sự thích nghi của Vectơ Trọng lượng. Cập nhật vectơ trọng lượng của perceptron để lấy
w (n + 1) = w (n) + [d (n) - y (n)] x (n)
ở đâu
d (n) = e +1
-1nếu
nếux x(n)
(n)thuộc
thuộclớp
lớpc1
c2
5. Sự tiếp tục. Tăng thời gian lên từng bước một và quay lại bước 2.
Phần 1.4 Mối quan hệ giữa Perceptron và Bayes Classifier 55
(m + 1) -by-1 vectơ có phần tử đầu tiên bằng độ lệch b.Một điểm quan trọng khác cần lưu ý trong Bảng
1.1 là chúng tôi đã giới thiệu một phản ứng mong muốn được lượng tử hóa d (n), được xác định bởi
(1.21)
d (n) = e -1
+1 nếu
nếu xx (n)
(n) thuộc
thuộc lớp
lớp c2
c1
Do đó, sự thích nghi của vectơ trọng số w (n) được tổng hợp độc đáo dưới dạng quy
tắc học sửa lỗi
w (n + 1) = w (n) + [d (n) - y (n)] x (n) (1.22)
trong đó tham số tốc độ học tập và sự khác biệt d (n) - y (n) đóng vai trò của một
tín hiệu lỗi. Tham số tốc độ học tập là một hằng số dương được giới hạn trong phạm
vi 0 <1. Khi gán một giá trị cho nó trong phạm vi này, chúng ta phải ghi nhớ hai yêu
cầu trái ngược nhau (Lippmann, 1987):
• tính trung bình của các yếu tố đầu vào trong quá khứ để cung cấp ước tính trọng lượng ổn định, yêu cầu
nhỏ bé ;
• thích ứng nhanh đối với những thay đổi thực sự trong các phân phối cơ bản của
quá trình chịu trách nhiệm tạo ra vectơ đầu vào x, đòi hỏi lớn.
1.4 MỐI QUAN HỆ GIỮA BỘ PHÂN LOẠI PERCEPTRON VÀ BAYES
VÌ MÔI TRƯỜNG GAUSSIAN
Perceptron có mối quan hệ nhất định với một bộ phân loại mẫu cổ điển được gọi là bộ
phân loại Bayes. Khi môi trường là Gaussian, bộ phân loại Bayes giảm thành bộ phân
loại tuyến tính, đây là dạng tương tự được thực hiện bởi perceptron. Tuy nhiên, mật
độ tuyến tính của perceptron không phụ thuộc vào giả thiết của Gaussianity. Trong
phần này, chúng tôi nghiên cứu mối quan hệ này và từ đó phát triển thêm cái nhìn sâu
sắc hơn về hoạt động của perceptron.
Bayes Classifier
Trong bộ phân loại Bayes, hoặc thủ tục kiểm tra giả thuyết Bayes, chúng tôi giảm thiểu rủi ro trung
bình, ký hiệu là r. Đối với một bài toán hai lớp, được đại diện bởi các lớp c1 và c2, rủi ro phản xạ
trung bình được định nghĩa bởi Van Trees (1968) là
r = c11p1 3h1 pX (x @ c1) dx + c22p2 3h2 pX (x @ c2)
(1.23)
dx + c21p1 3h2 pX (x @ c1) dx + c12p2 3h1 pX (x @ c2) dx
trong đó các thuật ngữ khác nhau được định nghĩa như sau:
số Pi
xác suất trước rằng vectơ quan sát x (đại diện cho một lượng thực
của vectơ ngẫu nhiên X) tương ứng với một đối tượng trong lớp C1,
với i 1, 2 và p1 + p2 = 1
cij chi phí quyết định có lợi cho lớp ci được biểu diễn bằng không gian con
hi khi lớp cj là đúng (nghĩa là vectơ quan sát x tương ứng với một đối
tượng trong lớp C1), với i, j 1, 2 hàm mật độ xác suất có điều kiện của
pX (x ci ) vectơ ngẫu nhiên X, đã cho rằng vectơ quan sát x tương ứng với một đối
tượng trong lớp C1, với i 1, 2.
Hai số hạng đầu tiên ở phía bên phải của Eq. (1.23) đại diện cho các quyết định đúng
(tức là, phân loại đúng), trong khi hai thuật ngữ cuối cùng đại diện cho các quyết
định không chính xác (tức là phân loại sai). Mỗi quyết định được tính theo tích của
hai yếu tố: chi phí liên quan đến việc đưa ra quyết định và tần suất tương đối (tức là
xác suất trước ) mà nó xảy ra.
Mục đích là để xác định một chiến lược cho rủi ro trung bình tối thiểu. Bởi vì
chúng tôi yêu cầu phải đưa ra quyết định, mỗi vectơ quan sát x phải được gán trong x x1
x2 trên tất cả không gian quan sát cho một trong hai hoặc. Do đó,
x = x1 + x2 (1.24)
Do đó, chúng tôi có thể viết lại Eq. (1.23) ở dạng tương đương
r =
c11p1 3x1 pX (x c1) dx + c22p2 3x-x1 pX (x c2) dx
(1,25)
+ c21p1 3x-x1 pX (x c1) x + c12p2 3x1 pX (x c2) dx
trong đó c11 < c21 và c22 < c12. Bây giờ chúng ta quan sát thực tế rằng
(1,26)
3x pX (x c1) dx = 3x pX (x c2) dx = 1
Do đó, phương trình (1,25) giảm xuống
r = c21p1 + c22p2
(1,27)
+ 3x1 [p2 (c12 - c22) pX (x c2) - p1 (c21 - c11 ) pX (x c1)] dx
Hai thuật ngữ đầu tiên ở phía bên phải của phương trình (1.27) thể hiện chi phí cố
yêu cầu là giảm thiểu chiến lược giảm thiểu rủi , định. Vì chúng ta có thể suy ra fol
ro trung bình từ phương trình (1.27) để phân loại tối ưu:
1. Tất cả các giá trị của vectơ quan sát x mà tích phân (tức là áp suất ex
bên trong dấu ngoặc vuông) là âm phải được gán cho tập con x1 (tức là
hạng), vì c1
tích phân sau đó sẽ đóng góp âm cho r rủi ro .
2. Tất cả các giá trị của vectơ quan sát x mà tích phân dương phải được loại
trừ x1
khi đó tích phân sẽ đóng gópkhỏi
tíchtập
cựccon c2ro.
vào(nghĩa
rủi là được gán cho lớp), vì
r và
3. Các giá trị của x mà tích phân bằng 0 không ảnh hưởng đến rủi ro trung bình
có thể được xác định tùy ý. Chúng ta sẽ giả sử rằng những điểm này được gán cho
tập con x2 (tức2 là lớp c).
Trên cơ sở này, bây giờ chúng ta có thể xây dựng bộ phân loại Bayes như sau:
Nếu điều kiện
p1 (c21 - c11 ) pX (xc1) 7 p2 (c12 - c22) pX (xc2)
x1là lớp). Nếu không, hãy gán x cho

c1 giữ, gán vectơ quan sát x cho không gian con (tức x2
c2
(tức là lớp).
Để đơn giản hóa vấn đề, hãy xác định
pX (xc1)
¶ (x) = (1,28)
pX (xc2)
và
p2 (c12 - c22)
=
(1,29)
p1 (c21 - c11 )
Đại lượng tỷ lệ của ,hai hàm mật độ xác suất có điều kiện, được gọi là
¶ (x)
tỉ lệ giống nhau. Đại lượng được gọi là ngưỡng của thử nghiệm. Lưu ý rằng cả hai ¶ (x)
và luôn tích cực. Về hai đại lượng này, bây giờ chúng ta có thể định dạng lại
Bộ phân loại Bayes bằng cách nêu những điều sau
Nếu, đối với vectơ quan sát x, tỷ lệ khả năng ¶ (x) lớn hơn ngưỡng, hãy chỉ định
x đến lớp.c1Nếu
c2 không, hãy gán nó cho lớp.
Hình 1.5a mô tả biểu diễn sơ đồ khối của bộ phân loại Bayes. Các
Các điểm quan trọng trong sơ đồ khối này gồm hai điểm:
1. Việc xử lý dữ liệu liên quan đến thiết kế bộ phân loại Bayes bị giới hạn hoàn toàn
để tính toán tỷ lệ khả năng xảy ra. ¶ (x)
Vectơ đầu vào

Khả năng xảy ra Gán x vào hạng nếu 1
Λ (x)
x tỉ lệ Λ (x) Ô.
Máy so sánh
Nếu không, hãy chỉ định
máy tính
nó đến lớp 2.
(một)
Vectơ đầu vào

Gán x cho lớp nếu 1
Khả năng ghi nhật ký logΛ (x)
x tỉ lệ logΛ (x) logÔ.
Máy so sánh
Nếu không, hãy chỉ định
máy tính
nó đến lớp 2.
Logo
(b)
HÌNH 1.5 Hai cách triển khai tương đương của bộ phân loại Bayes: (a) Tỷ lệ khả năng xảy ra
kiểm tra, (b) Kiểm tra tỷ lệ khả năng đăng nhập.

2. Tính toán này hoàn toàn bất biến đối với các giá trị được ấn định cho các
khả năng xác suất trước đó và chi phí liên quan đến quá trình ra quyết định.
ảnh hưởng đến giá trị của ngưỡng.
Từ quan điểm tính toán, chúng tôi thấy thuận tiện hơn khi làm việc với
logarit của tỷ lệ khả năng xảy ra hơn là chính tỷ lệ khả năng xảy ra. Chúng tôi là
được phép làm điều này vì hai lý do. Đầu tiên, logarit là một hàm đơn điệu.
Thứ hai, tỷ lệ khả năng xảy ra và ngưỡng đều dương. Do đó,
¶ (x)
Bộ phân loại Bayes có thể được triển khai ở dạng tương đương như trong Hình 1.5b. Vì
lý do rõ ràng, thử nghiệm thể hiện trong hình sau này được gọi là khả năng xảy ra nhật ký
bai kiê m tra ti lê .
Bộ phân loại Bayes cho một phân phối Gaussian
Bây giờ hãy xem xét trường hợp đặc biệt của một bài toán hai lớp, mà phân phối
cơ bản là Gaussian. Vectơ ngẫu nhiên X có giá trị trung bình phụ thuộc vào việc nó
thuộc về lớp hoặc c1
lớp c2 ,nhưng ma trận hiệp phương sai của X là như nhau cho cả hai lớp.
Điều đó có nghĩa là,
Lớp c1: [X] = 1
[(X - 1) (X - 1) T] = C
Lớp c2: [X] = 2
[(X - 2) (X - 2) T] = C
Ma trận hiệp phương sai C là không có cạnh, có nghĩa là các mẫu được lấy từ
các lớp và
c1 có
c2 tương quan với nhau. Giả thiết rằng C là không cần chú ý, do đó, nghịch đảo của nó
tồn tại ma trận C1 .
Với nền tảng này, chúng ta có thể biểu diễn hàm mật độ xác suất có điều kiện
của X là phân phối Gaussian đa biến
1 1
pX (xci ) = (x - i ) T C-1 (x - i = 1, 2 (1.30)
(2 )(C)) 1 2
2 (det exp a - 2 i ) b ,
m trong đó m là số chiều của vectơ quan sát x.

Chúng tôi cũng giả định những điều sau:
1. Hai lớp và tương c1

đương: c2
1
= =
p1 p2 (1.31)
2
2. Phân loại sai có cùng chi phí và không có chi phí nào phát sinh trên phân loại đúng
cation:
= =
c21 c12 và c11 c22 = 0 (1,32)
Bây giờ chúng ta có thông tin cần thiết để thiết kế bộ phân loại Bayes cho
bài toán hai lớp. Cụ thể, bằng cách thay thế Eq. (1.30) thành (1.28) và lấy tự nhiên
logarit, chúng ta nhận được (sau khi đơn giản hóa)
1 log¶ (x) = - 1 (x - 1) TC-1 (x - 1) + (x - 2) TC-1 (x - 2)

2 2
(1.33)
1
-
= ( 1 - 2) TC-1 x + ( T 2C-1 2 TC-1
1 1)
2
Bằng cách thay thế các Eqs. (1.31) và (1.32) thành phương trình (1.29) và lấy lôgarit tự nhiên, chúng ta
nhận được
log = 0 (1,34)
Phương trình (1.33) và (1.34) cho biết rằng trình phân loại Bayes cho vấn đề hiện tại là một
trình phân loại tuyến tính, như được mô tả bởi quan hệ
= wTx + bởi (1.35)
ở đâu
y = log¶ (x) (1,36)

-1
w = C ( 1 - 2) (1,37)
1
-
b = ( 2 2 TC-1 2 TC-1
1 1) (1.38)
Cụ thể hơn, bộ phân loại bao gồm một bộ kết hợp tuyến tính với vectơ trọng số w và độ lệch
b, như thể hiện trong Hình 1.6.
Trên cơ sở của Eq. (1.35), bây giờ chúng tôi có thể mô tả kiểm tra tỷ lệ khả năng xảy ra log
cho bài toán hai lớp của chúng tôi như sau:
Nếu đầu ra y của bộ kết hợp tuyến tính (bao gồm cả độ lệch b) là dương, hãy gán vectơ
nó cho lớp. c1 c2 quan sát x cho lớp. Nếu không, hãy gán
Hoạt động của bộ phân loại Bayes đối với môi trường Gauss được mô tả ở đây
tương tự như hoạt động của perceptron ở chỗ chúng đều là bộ phân loại tuyến tính;
xem Eqs. (1.1) và (1.35). Tuy nhiên, có một số khác biệt nhỏ và quan trọng giữa
chúng, cần được kiểm tra cẩn thận (Lippmann, 1987):
• Perceptron hoạt động dựa trên tiền đề rằng các mẫu được phân loại có thể phân
tách một cách tuyến tính. Các phân bố Gaussian của hai mẫu được giả định trong
dẫn xuất của bộ phân loại Bayes chắc chắn chồng chéo lên nhau và không thể tách
rời. Mức độ chồng chéo được xác định bởi các vectơ trung bình
HÌNH 1.6 Đồ thị luồng tín

x1 Thiên vị b
hiệu của bộ phân loại Gaussian.
w1
x2
x
• w2 Đầu ra
• y
• wm
xm
HÌNH 1.7 Hai chồng chéo, Quyết định
Gaussian một chiều ranh giới

các bản phân phối.
pX (x | 2)
pX (x | 1)
x
0
μ1 μ2
Lớp Lớp
2 1
và 1 2 và ma trận hiệp phương sai C. Bản chất của sự chồng chéo này được
minh họa trong Hình 1.7 đối với trường hợp đặc biệt của một biến ngẫu nhiên vô
hướng (tức là đồng biến về thứ nguyên m = 1).
như được minh họa, thuật toán hội tụ perceptron phát triển một vấn đề là do ranh
giới quyết định giữa các lớp khác nhau có thể dao động liên tục.
• Bộ phân loại Bayes giảm thiểu xác suất lỗi phân loại. Sự thu nhỏ này độc lập với
sự chồng chéo giữa các phân phối Gaussian cơ bản của hai lớp. Ví dụ, trong
trường hợp đặc biệt được minh họa trong Hình 1.7,
Bộ phân loại Bayes luôn định vị ranh giới quyết định tại điểm mà
Phân phối Gaussian cho hai lớp và chéo nhau. c1 c2
• Thuật toán hội tụ perceptron là phi tham số theo nghĩa mà nó tạo ra
không có giả định nào liên quan đến hình thức của các bản phân phối cơ bản. Nó hoạt động
bằng cách tập trung vào các lỗi xảy ra khi các bản phân phối chồng lên nhau. Nó có thể
do đó hoạt động tốt khi các đầu vào được tạo ra bởi các anisms vật lý phi tuyến
tính và khi phân bố của chúng bị lệch nhiều và không phải Gaussian. Trong
ngược lại, bộ phân loại Bayes là tham số; sự dẫn xuất của nó phụ thuộc vào việc giả
định rằng các phân phối cơ bản là Gaussian, điều này có thể giới hạn diện tích của nó
ứng dụng.
• Thuật toán hội tụ perceptron vừa thích ứng vừa đơn giản để áp dụng; yêu cầu lưu
trữ của nó được giới hạn trong tập hợp các trọng số và độ lệch của khớp thần kinh.
Mặt khác, thiết kế của bộ phân loại Bayes là cố định; nó có thể được làm cho
thích nghi, nhưng với chi phí tăng yêu cầu lưu trữ và phức tạp hơn
tính toán.
1.5 THÍ NGHIỆM MÁY TÍNH: PHÂN LOẠI MẪU
Mục tiêu của thí nghiệm máy tính này gấp đôi:
(i) để xác định các thông số kỹ thuật của bài toán phân loại hai mặt trăng sẽ
đóng vai trò là cơ sở của một nguyên mẫu cho phần của cuốn sách đề cập đến các
thí nghiệm phân loại mẫu;
Phần 1.5 Thí nghiệm Máy tính: Phân loại Mẫu 61
(ii) để chứng minh khả năng của thuật toán perceptron của Rosenblatt để phân loại chính xác các mẫu
có thể phân tách tuyến tính và hiển thị sự cố của nó khi điều kiện phân tách tuyến tính bị vi
phạm.
Đặc điểm kỹ thuật của vấn đề phân loại
Hình 1.8 cho thấy một cặp "mặt trăng" đối mặt với nhau theo cách sắp xếp không đối xứng . Mặt trăng
có nhãn “Vùng A” được định vị đối xứng so với trục y, trong khi mặt trăng có nhãn “Vùng B” bị dịch
chuyển sang bên phải trục y một khoảng bằng bán kính r và bên dưới trục x bằng khoảng cách d. Hai mặt
trăng có các thông số giống hệt nhau:
bán kính của mỗi mặt trăng, r = 10
chiều rộng của mỗi mặt trăng, w = 6
Khoảng cách d thẳng đứng ngăn cách hai mặt trăng có thể điều chỉnh được; nó được đo bằng quang phổ
lại theo trục x, như được chỉ ra trong Hình 1.8:
• Các giá trị ngày càng dương của d biểu thị sự tách biệt giữa hai mặt trăng ngày càng tăng; • Các
giá trị âm của d ngày càng tăng cho thấy hai mặt trăng đang tiến lại gần nhau hơn.
Mẫu huấn luyện t bao gồm 1.000 cặp điểm dữ liệu, với mỗi cặp bao gồm một điểm được chọn từ vùng A và
một điểm khác được chọn từ vùng B, cả hai đều ngẫu nhiên.
Mẫu thử nghiệm bao gồm 2.000 cặp điểm dữ liệu, được chọn lại một cách ngẫu nhiên.
Vùng A
x
w
d
Vùng B
HÌNH 1.8 Bài toán phân loại trăng đôi.

Cuộc thí nghiệm
Các tham số perceptron được chọn cho thử nghiệm như sau:
kích thước của lớp đầu vào =
2 = 50; xem Eq. (1.17)
Tham số tốc độ học tập η thay đổi tuyến tính từ 10-1 xuống 10-5 .
Các trọng lượng ban đầu đều được đặt ở mức 0.
Hình 1.9 trình bày kết quả của thí nghiệm cho d = 1, tương ứng với khả năng phân
tách tuyến tính hoàn hảo. Phần (a) của hình trình bày đường cong học tập, trong đó sai
số bình phương trung bình (MSE) được vẽ so với số kỷ nguyên; hình vẽ cho thấy sự kết
hợp của thuật toán trong ba lần lặp. Phần (b) của hình cho thấy ranh giới quyết định
được tính toán thông qua đào tạo thuật toán perceptron, thể hiện khả năng phân tách
trên mỗi phần của tất cả 2.000 điểm kiểm tra.
Trong hình 1.10, khoảng cách giữa hai mặt trăng được đặt ở d = -4, một điều
kiện vi phạm tính phân tách tuyến tính. Phần (a) của hình hiển thị đường cong học
tập nơi thuật toán perceptron hiện đang dao động liên tục, cho biết sự cố của thuật
toán. Kết quả này được xác nhận trong phần (b) của hình, trong đó ranh giới quyết
định (được tính toán thông qua đào tạo) giao nhau giữa cả hai mặt trăng, với tỷ lệ
lỗi phân loại là (186/2000) 100% = 9,3%.
1.6 THUẬT TOÁN PERCEPTRON TRẬN ĐẤU
Kết quả của thuật toán hội tụ perceptron được tóm tắt trong Bảng 1.1 được trình
bày mà không tham chiếu đến hàm chi phí. Hơn nữa, kết xuất tập trung vào một hiệu
chỉnh đơn mẫu. Trong phần này, chúng tôi sẽ thực hiện hai việc:
1. giới thiệu dạng tổng quát của một hàm chi phí perceptron; 2.
sử dụng hàm chi phí để xây dựng phiên bản hàng loạt của hội tụ perceptron
thuật toán.
Hàm chi phí mà chúng tôi có trong tâm trí là một hàm cho phép áp dụng
tìm kiếm gradient. Cụ thể, chúng tôi xác định hàm chi phí perceptron là
(1,39)
J (w) = ax (n) Hx (-wTx (n) d (n))
đâu là xtập hợp các mẫu x bị phân loại sai bởi một perceptron sử dụng w làm trọng
lượng của nó vec tor (Duda và cộng sự, 2001) . trong mọi trường hợp, đặcx điểm hay
của chi phí func tion (w) là Jnó có thể phân biệt được đối với vectơ trọng số w.
J phân biệt ating (w) với w tạo ra vectơ gradient
Do đó,
J
§J (w) = a (-x (n) d (n)) (1,40)

x (n) Hx
Phần 1.6 Thuật toán Perceptron Batch 63
0,06
0,05
0,04
MSE
0,03
0,02
0,01
0
0 10 20 30 40 50
Số kỷ nguyên
(a) đường cong học tập
Phân loại bằng cách sử dụng perceptron với khoảng cách 1, bán kính 10 và chiều rộng 6
10
y
0
10
10 5 0 5 10 15 20
x
(b) kết quả thử nghiệm
HÌNH 1.9 Perceptron với mặt trăng đôi đặt ở khoảng cách d 1.
0,6
0,58
0,56
0,54
MSE
0,52
0,5
0,48
0,46
0 10 20 30 40 50
Số kỷ nguyên
(a) đường cong học tập
Phân loại sử dụng perceptron với khoảng cách 4, bán kính 10 và chiều rộng 6
12
10
số 8
4
y
2
số 8
10 5 0 5 10 15 20
x
(b) kết quả thử nghiệm
HÌNH 1.10 Perceptron với mặt trăng đôi đặt ở khoảng cách d 4.
Phần 1.7 Tóm tắt và Thảo luận 65
nơi toán tử gradient
0 0
, , ..., d T (1.41)
= c 00w1 0w2 0wm
Trong phương pháp giảm độ dốc lớn nhất, việc điều chỉnh vectơ trọng số w tại mỗi bước
thời gian của thuật toán được áp dụng theo hướng ngược lại với vectơ gradient §J (w) .
Theo đó, thuật toán có dạng
w (n + 1) = w (n) - (n) §J (w)
(1.42)
= w (n) + (n) ax (n) Hx x (n) d (n)
trong đó bao gồm phiên bản hiệu chỉnh đơn mẫu của thuật số hội tụ perceptron như một
trường hợp đặc biệt. Hơn nữa, phương trình (1.42) thể hiện thuật toán perceptron hàng
loạt để tính toán vectơ trọng số, với tập mẫu x (1), x (2), .... Đặc biệt, điều chỉnh
được áp dụng cho vectơ trọng số tại bước thời gian n + 1 được xác định bằng tổng của tất
cả các mẫu được phân loại sai bởi vectơ trọng lượng w (n), với tổng được chia tỷ lệ bởi
para mét tốc độ học tập η (n). Thuật toán được cho là của “lô ”Loại vì tại mỗi bước thời
gian của thuật toán, một loạt các mẫu phân loại sai được sử dụng để tính toán điều chỉnh.
1.7 TÓM TẮT VÀ THẢO LUẬN
Perceptron là một mạng nơ-ron một lớp, hoạt động của nó dựa trên việc học tương quan
lỗi. Thuật ngữ “lớp đơn” được sử dụng ở đây để biểu thị thực tế rằng lớp tính toán
của mạng bao gồm một nơ-ron duy nhất cho trường hợp này. của phân loại nhị phân. Quá
trình học tập để phân loại mẫu chiếm một số lượng hữu hạn của nó và sau đó dừng lại.
Tuy nhiên, để phân loại thành công, các mẫu sẽ phải được phân tách một cách tuyến
tính.
Perceptron sử dụng mô hình McCulloch – Pitts của một nơron. Trong bối cảnh này, thật
hấp dẫn để đặt ra câu hỏi, liệu perceptron có hoạt động tốt hơn nếu nó sử dụng tính phi
tuyến sigmoidal thay cho giới hạn cứng không? Hóa ra là các đặc tính ra quyết định, trạng
thái ổn định của perceptron về cơ bản là giống nhau, bất kể chúng ta sử dụng giới hạn cứng
hay giới hạn mềm làm nguồn gốc của tính phi tuyến trong mô hình nơron (Shynk, 1990; Shynk
và Bershad, 1991 Do đó, chúng tôi có thể tuyên bố chính thức rằng miễn là chúng tôi giới
hạn bản thân trong mô hình của một nơ-ron bao gồm một bộ kết hợp tuyến tính theo sau là một
phần tử phi tuyến tính, thì bất kể hình thức phi tuyến tính được sử dụng, một perceptron
một lớp có thể thực hiện mô hình chỉ phân loại trên các mẫu có thể phân tách tuyến tính.
Bài phê bình thực sự đầu tiên về perceptron của Rosenblatt được trình bày
bởi Minsky và Selfridge (1961). Minsky và Selfridge đã chỉ ra rằng perceptron như
được xác định bởi Rosenblatt thậm chí không thể khái quát hóa theo khái niệm về
tính chẵn lẻ nhị phân, chứ chưa nói đến việc tạo ra những trừu tượng chung. Những
hạn chế tính toán của perceptron của Rosenblatt sau đó đã được đặt trên một nền
tảng toán học vững chắc trong cuốn sách nổi tiếng Perceptrons, của Minsky và
Papert (1969, 1988). perceptron như được định nghĩa bởi Rosenblatt vốn dĩ không
có khả năng tạo ra một số
Trong chương cuối cùng của cuốn sách, Minsky và Papert đưa ra phỏng đoán rằng những hạn chế mà họ đã
phát hiện ra đối với perceptron của Rosenblatt cũng sẽ đúng với các biến thể của nó — cụ thể hơn là
mạng nơ-ron nhiều lớp. Phần 13.2 của cuốn sách của họ (1969) nói như sau:
Perceptron đã cho thấy bản thân đáng được nghiên cứu mặc dù (và thậm chí vì!) Những hạn chế nghiêm
trọng của nó. Nó có nhiều đặc điểm để thu hút sự chú ý: độ tuyến tính của nó; định lý học thú vị
của nó; sự đơn giản mô hình rõ ràng của nó như một loại tính toán song song. Không có lý do gì để
cho rằng bất kỳ đức tính nào trong số này chuyển sang phiên bản nhiều lớp. Không bao giờ hết,
chúng tôi coi đây là một vấn đề nghiên cứu quan trọng để làm sáng tỏ (hoặc bác bỏ) nhận định sâu
sắc của chúng tôi rằng việc mở rộng cho các hệ thống nhiều lớp là vô trùng.
Kết luận này chủ yếu gây ra nghi ngờ nghiêm trọng về khả năng tính toán của không chỉ perceptron, mà
còn của mạng nơ-ron nói chung cho đến giữa những năm 1980.
Tuy nhiên, lịch sử đã cho thấy rằng phỏng đoán của Minsky và Papert dường như không có cơ sở vì
hiện nay chúng ta có một số dạng mạng nơ-ron và máy học tiên tiến mạnh hơn về mặt tính toán so với
perceptron của Rosenblatt.
Ví dụ, các perceptron nhiều lớp được đào tạo với thuật toán lan truyền ngược được đề cập trong Chương
4, các mạng hàm cơ sở xuyên tâm được thảo luận trong Chương 5 và các máy vectơ hỗ trợ được thảo luận
trong Chương 6 vượt qua các giới hạn tính toán của perceptron một lớp trong cách riêng của họ.
Khi kết thúc cuộc thảo luận, chúng ta có thể nói rằng perceptron là một công trình mạng nơ-ron
thanh lịch được thiết kế để phân loại các mẫu có thể phân tách tuyến tính. Tầm quan trọng của nó không
chỉ về mặt lịch sử mà còn có giá trị thực tiễn trong việc phân loại các patent có thể phân tách tuyến tính.
1. Tổ chức mạng của phiên bản gốc của perceptron như được hình dung bởi Rosenblatt
(1962) có ba loại đơn vị: đơn vị cảm giác, đơn vị liên kết và đơn vị phản ứng. các
kết nối từ các đơn vị liên kết đến các đơn vị phản hồi có trọng số thay đổi. Các
đơn vị liên kết hoạt động như bộ tiền xử lý được thiết kế để trích xuất một mẫu từ
đầu vào môi trường. .
2. Chứng minh thuật toán hội tụ perceptron được trình bày trong Phần 1.3 sau
cuốn sách kinh điển của Nilsson (1965).
CÁC VẤN ĐỀ
1.1 Xác minh rằng phương trình (1.19) - (1.22), tóm tắt thuật toán hội tụ perceptron, là con
tương trợ với Eqs. (1.5) và (1.6).
1.2 Giả sử rằng trong biểu đồ luồng tín hiệu của perceptron được hiển thị trong Hình 1.1, giới hạn
cứng được thay thế bằng độ phi tuyến sigmoidal
(v) = tanh a v2 b
Vấn đề 67
trong đó v là trường cục bộ cảm ứng. Các quyết định phân loại được thực hiện bởi perceptron là
được định nghĩa như sau:
Vectơ quan sát x thuộc lớp c1 nếu đầu ra y> c2 , đâu là một ngưỡng; ngược lại, x
thuộc về lớp.
Chứng tỏ rằng ranh giới quyết định được xây dựng là một siêu phẳng.
1.3 (a) Perceptron có thể được sử dụng để thực hiện nhiều chức năng logic. Chứng minh
thực hiện các hàm logic nhị phân AND, OR và COMPLEMENT.
(b) Một hạn chế cơ bản của perceptron là nó không thể triển khai EXCLUSIVE
Hàm OR. Giải thích lý do của hạn chế này.
1.4 Hãy xem xét hai lớp một chiều, được phân phối theo Gaussian và có c1 c2
điểm chung
phương sai bằng 1. Giá trị trung bình của chúng là
1 = -10
2 = +10
Hai lớp này về cơ bản có thể phân tách tuyến tính. Thiết kế một bộ phân loại để phân tách các
Hai lớp.
1.5 Phương trình (1.37) và (1.38) xác định vectơ trọng số và độ lệch của bộ phân loại Bayes cho một
Môi trường Gaussian. Xác định thành phần của bộ phân loại này cho trường hợp khi
ma trận hiệp phương sai C được xác định bởi
2
C = Tôi
2
ở đâu là một hằng số và I là ma trận nhận dạng.
Thử nghiệm máy tính

1.6 Lặp lại thử nghiệm máy tính của Phần 1.5, tuy nhiên, lần này, định vị hai
mặt trăng của Hình 1.8 nằm trên ranh giới của khả năng phân tách, nghĩa là, d = 0. Xác định tỷ lệ
lỗi cation phân loại được tạo ra bởi thuật toán trên 2.000 điểm dữ liệu thử nghiệm.
CHƯƠNG 2
Xây dựng mô
hình thông qua hồi quy
Chủ đề của chương này là cách sử dụng hồi quy tuyến tính, một dạng đặc biệt của phép xấp xỉ
hàm, để mô hình hóa một tập hợp các biến ngẫu nhiên nhất định.
1. Phần 2.1 là phần mở đầu, tiếp theo là Phần 2.2 tạo tiền đề cho phần còn lại của chương bằng cách mô tả
khung toán học của các mô hình hồi quy tuyến tính.
2. Phần 2.3 suy ra ước lượng tối đa posteriori (MAP) của vectơ tham số
của một mô hình hồi quy tuyến tính.
3. Phần 2.4 giải quyết vấn đề ước lượng tham số bằng phương pháp bình phương nhỏ nhất và thảo luận về mối
quan hệ của phương pháp này với cách tiếp cận Bayes.
4. Trong Phần 2.5, chúng ta xem lại thí nghiệm phân loại mẫu đã xét trong Chương 1, lần này sử dụng phương
pháp bình phương nhỏ nhất.
5. Phần 2.6 đề cập đến vấn đề lựa chọn thứ tự mô hình.
6. Phần 2.7 thảo luận về hệ quả của kích thước mẫu hữu hạn trong ước lượng tham số, bao gồm cả tình
trạng tiến thoái lưỡng nan về phương sai-sai lệch.
7. Phần 2.8 giới thiệu khái niệm về các biến công cụ để đối phó với “lỗi
vấn đề trong biến ”.
2.1 GIỚI THIỆU
Ý tưởng xây dựng mô hình xuất hiện thực tế trong mọi lĩnh vực liên quan đến phân tích dữ liệu thống kê . Ví
dụ, giả sử chúng ta được cung cấp một tập hợp các biến ngẫu nhiên và nhiệm vụ như đã ký là tìm các mối quan
hệ có thể tồn tại giữa chúng, nếu có. Trong hồi quy, là một dạng xấp xỉ hàm đặc biệt, chúng ta thường tìm
thấy trường hợp sau:
• Một trong những biến ngẫu nhiên được coi là quan tâm đặc biệt; biến ngẫu nhiên đó được gọi là biến
phụ thuộc, hoặc phản hồi. • Các biến ngẫu nhiên còn lại được gọi là biến độc lập, hay biến hồi quy;
vai trò của họ là giải thích hoặc dự đoán hành vi thống kê của phản ứng. • Sự phụ thuộc của phản hồi
vào các bộ hồi quy bao gồm một thuật ngữ sai số cộng , để giải thích sự không chắc chắn theo cách
thức mà sự phụ thuộc này được hình thành;
68
Phần 2.2 Mô hình hồi quy tuyến tính: Xem xét sơ bộ 69
thuật ngữ lỗi được gọi là lỗi mong đợi, hoặc lỗi giải thích, cả hai đều
được sử dụng thay thế cho nhau.
Một mô hình như vậy được gọi là mô hình hồi quy.1
Có hai loại mô hình hồi quy: tuyến tính và phi tuyến. Trong các mô hình sion hồi quy tuyến tính,
sự phụ thuộc của phản hồi vào các biến hồi quy được xác định bằng hàm tuyến tính, điều này làm cho phân
tích thống kê của chúng có thể kiểm tra được về mặt toán học. Mặt khác,
trong các mô hình hồi quy phi tuyến, sự phụ thuộc này được xác định bởi một hàm phi tuyến, do đó
khó khăn toán học trong phân tích của họ. Trong chương này, chúng tôi tập trung chú ý vào tuyến tính
các mô hình hồi quy. Mô hình hồi quy phi tuyến được nghiên cứu trong các chương tiếp theo.
Tính khả thi về mặt toán học của các mô hình hồi quy tuyến tính được trình bày trong chương này
trong hai cách. Đầu tiên, chúng tôi sử dụng lý thuyết Bayes2 để lấy giá trị ước lượng hậu kỳ tối đa
của vectơ tham số hóa một mô hình hồi quy tuyến tính. Tiếp theo, chúng tôi xem thông số
vấn đề ước lượng bằng cách sử dụng một cách tiếp cận khác, cụ thể là, phương pháp bình phương nhỏ nhất ,
có lẽ là thủ tục ước lượng tham số lâu đời nhất; nó lần đầu tiên được bắt nguồn bởi Gauss trong
đầu thế kỷ 19. Sau đó, chúng tôi chứng minh sự tương đương giữa
hai cách tiếp cận cho trường hợp đặc biệt của môi trường Gaussian.
2.2 MÔ HÌNH VỊ TRÍ TUYẾN TÍNH: CÁC XÉT TUYỂN CHÍNH
Hãy xem xét tình huống được mô tả trong Hình 2.1a, trong đó một môi trường ngẫu nhiên không xác định
là tâm điểm của sự chú ý. Môi trường được thăm dò bằng cách áp dụng một tập hợp các đầu vào, điều chỉnh
bộ hồi quy
T
x = [x1, x2, ..., xM] (2.1)
trong đó chỉ số trên T biểu thị sự chuyển vị của ma trận . Kết quả đầu ra của đường ron môi trường,
được ký hiệu là d, tạo thành phản ứng tương ứng, được giả định là
vô hướng chỉ để thuận tiện cho việc trình bày. Thông thường, chúng tôi không biết sự phụ thuộc bậc hàm
của phản ứng d vào bộ hồi quy x, vì vậy chúng tôi đề xuất một mô hình sion hồi quy tuyến tính, được
tham số hóa như sau:
M
d = a wjxj + ε (2.2)
j = 1
trong đó w1, w2, ..., wM biểu thị một tập hợp các tham số cố định, nhưng chưa biết, có nghĩa là
vironment là tĩnh. Thuật ngữ cộng ε, đại diện cho sai số kỳ vọng của
mô hình, giải thích cho sự thiếu hiểu biết của chúng ta về môi trường. Mô tả biểu đồ luồng tín hiệu
của hành vi đầu vào-đầu ra của mô hình được mô tả trong Eq. (2.2) được trình bày trong Hình 2.1b.
Sử dụng ký hiệu ma trận, chúng ta có thể viết lại Eq. (2.2) ở dạng nhỏ gọn
d = wTx + ε (2.3)
trong đó bộ hồi quy x được xác định theo các phần tử của nó trong phương trình. (2.1). Tương ứng,
vectơ tham số w được xác định bởi
w T
= [w 1, w2, ..., wM] (2.4)
70 Chương 2 Xây dựng mô hình thông qua hồi quy
Môi trường Câu trả lời mong muốn

Bộ điều chỉnh
ngẫu nhiên (Đầu ra)
(Vectơ đầu vào)
không xác định: d
x
w
(một)
w1
x1
w2
x2
x
• •
• •
• •
wM Phản hồi mong muốn

xM d
Kỳ vọng
lỗi
(b)
HÌNH 2.1 (a) Môi trường ngẫu nhiên tĩnh không xác định. (b) Mô hình hồi quy tuyến tính của môi
trường.
có chiều của nó giống với chiều của bộ hồi quy x; thứ nguyên chung M được gọi là thứ tự mô
hình. Thuật ngữ ma trận wTx là tích bên trong của các vectơ w
và x.
Với môi trường là ngẫu nhiên, nó theo sau rằng bộ hồi quy x, phản hồi d và sai số kỳ
vọng ε là các giá trị mẫu (tức là thực hiện một lần duy nhất) của vectơ ngẫu nhiên X, biến
ngẫu nhiên D và biến ngẫu nhiên E, Với thiết lập ngẫu nhiên như vậy làm nền, vấn đề quan tâm
bây giờ có thể được phát biểu như sau:
Với thống kê chung của bộ hồi quy X và phản hồi tương ứng D, hãy ước lượng véc tơ
tham số w chưa biết.
Khi chúng tôi nói về thống kê chung, chúng tôi muốn nói đến tập hợp các thông số thống kê sau:
• ma trận tương quan của bộ hồi quy X; • phương
sai của câu trả lời mong muốn D; • vectơ tương
quan chéo của bộ hồi quy X và phản hồi mong muốn D.
Giả thiết rằng phương tiện của cả X và D đều bằng không.
Trong Chương 1, chúng ta đã thảo luận về một khía cạnh quan trọng của suy luận Bayes
trong văn bản phân loại mẫu. Trong chương này, chúng ta nghiên cứu một khía cạnh khác của
suy luận Bayes giải quyết vấn đề ước lượng tham số vừa nêu.
Phần 2.3 Ước lượng Posteriori A cực đại của vectơ tham số 71
2.3 TỐI ĐA ƯỚC LƯỢNG TỐI ĐA THAM SỐ CỦA VECTOR THAM SỐ
Mô hình Bayes cung cấp một cách tiếp cận mạnh mẽ để giải quyết và định lượng
độ không đảm bảo xung quanh sự lựa chọn của vectơ tham số w trong mô hình hồi quy tuyến tính
của Eq. (2.3). Trong phạm vi mô hình này có liên quan, hai điểm tái tạo sau đây là đáng chú ý:
1. Bộ hồi quy X hoạt động như một "kích thích", không liên quan gì đến
véc tơ tham số w.
2. Thông tin về vectơ tham số chưa biết W chỉ được chứa trong
phản ứng mong muốn D đóng vai trò là “có thể quan sát được” của môi trường.
Theo đó, chúng tôi tập trung chú ý vào hàm mật độ xác suất chung của W và D, phụ thuộc vào X.
Cho hàm mật độ này được ký hiệu là pW, D | X (w, d | x). Từ lý thuyết xác suất,
chúng tôi biết rằng hàm mật độ này có thể được biểu thị bằng
pW, D X (w, d x) = p W D, X (w d, x) pD (d) (2,5)
Hơn nữa, chúng tôi cũng có thể thể hiện nó ở dạng tương đương
pW, D X (w, dx) = p D W,X (dw, x) pW (w) (2,6)
Theo cặp phương trình này, chúng ta có thể viết tiếp
pD W, X (dw, x) pW (w)
X (w
pW D, pD (d)d, x) = (2,7)
với điều kiện là pD (d) Z 0 . Phương trình (2.7) là một dạng đặc biệt của định lý Bayes; nó
bao hàm bốn hàm mật độ, được đặc trưng như sau:
1. Mật độ quan sát: Đây là viết tắt của hàm mật độ xác suất có điều kiện
pD | W, X (d | w, x), đề cập đến "quan sát" của phản ứng môi trường d
do bộ hồi quy x, cho trước vectơ tham số w.
2. Trước: Đây là viết tắt của hàm mật độ xác suất pW (w), đề cập đến thông tin về vectơ
tham số w, trước bất kỳ quan sát nào được thực hiện trên vironment. Sau đây, giá trị
trước được ký hiệu đơn giản là π (w).
3. Mật độ sau: Đây là viết tắt của hàm mật độ xác suất có điều kiện
pW | D, X (w | d, x), tham chiếu đến vectơ tham số w “sau khi quan sát”
môi trường đã được hoàn thành. Sau đây, mật độ sau được biểu thị bằng
π (w | d, x). Cặp phản hồi điều hòa – hồi quy (x, d) là “quan sát
mô hình, ”thể hiện phản ứng d của môi trường do bộ hồi quy x.
4. Bằng chứng: Đây là viết tắt của hàm mật độ xác suất pD (d), đề cập đến
"Thông tin" có trong câu trả lời d để phân tích thống kê.
Mật độ quan sát pD | W, X (d | w, x) thường được định dạng lại về mặt toán học là
hàm khả năng, được xác định bởi
l (wd, x) = pD W ,X (dw, x) (2,8)

Hơn nữa, trong chừng mực có liên quan đến ước lượng của vectơ tham số w , thì evi d (d) ở mẫu
số của vế phải của Eq. (2.7) chỉ đóng vai trò
của một hằng số chuẩn hóa. Do đó, chúng tôi có thể biểu thị Eq. (2.7) thành lời bằng cách nêu
tiếp theo:
Mật độ hậu của vectơ w tham số hóa mô hình hồi quy tỷ lệ với
sản phẩm của hàm khả năng và trước đó.
Đó là,
(wd, x) r l (wd, x) (w) (2,9)
trong đó biểu tượng biểu thị sự tương xứng.

Hàm khả năng l (w | d, x), được xét riêng, cung cấp cơ sở cho
ước tính khả năng xảy ra tối đa (ML) của vectơ tham số w, như được hiển thị bằng
wML = arg max w l (w d, x) (2.10)
Tuy nhiên, để có một ước lượng sâu sắc hơn về vectơ tham số w, chúng tôi xem xét
mật độ hậu (w | d, x). Cụ thể, chúng tôi xác định tối đa một posteriori (MAP)
ước lượng của vectơ tham số w bằng công thức
wMAP = arg max w (w d, x) (2.11)
Chúng tôi nói rằng công cụ ước tính MAP sâu sắc hơn công cụ ước tính ML về hai
lý do quan trọng:
1. Mô hình Bayes để ước lượng tham số, bắt nguồn từ theo rem của Bayes như được hiển thị
trong Eq. (2.7) và được minh họa bởi công cụ ước tính MAP của Eq. (2.11),
khai thác tất cả thông tin có thể hình dung được về vectơ tham số w. Ngược lại,
công cụ ước lượng ML của Eq. (2.10) nằm ở rìa của mô hình Bayes,
bỏ qua cái trước.
2. Công cụ ước lượng ML chỉ dựa vào mô hình quan sát (d, x) và từ đó có thể dẫn đến một giải
pháp không đơn nhất. Để thực thi tính duy nhất và ổn định trên
giải pháp, (w) trước đó phải được đưa vào công thức của estima tor; đây chính xác là
những gì được thực hiện trong công cụ ước tính MAP.
Tất nhiên, thách thức trong việc áp dụng quy trình ước tính MAP là làm thế nào để đưa ra
trước đó thích hợp, làm cho MAP đòi hỏi nhiều tính toán hơn ML.
Một nhận xét cuối cùng là theo thứ tự. Từ góc độ tính toán, chúng tôi thường thấy
thuận tiện hơn khi làm việc với logarit của mật độ sau hơn là
mật độ hậu tự. Chúng tôi được phép làm điều này, vì lôgarit là một hàm đơn điệu tăng dần đối số
của nó. Do đó, chúng tôi có thể thể hiện MAP esti mator ở dạng mong muốn bằng cách viết
wMAP = arg max log ( (wd, x)) (2.12)

w
trong đó “log” biểu thị lôgarit tự nhiên. Một câu lệnh tương tự áp dụng cho công cụ ước lượng ML.
Ước tính tham số trong môi trường Gaussian
Gọi xi và di biểu thị hệ số hồi quy được áp dụng cho môi trường và phản hồi kết quả,
tương ứng vào lần thử thứ i của một thí nghiệm thực hiện trên môi trường. Hãy để
thí nghiệm được lặp lại tổng cộng N lần. Do đó, chúng tôi thể hiện mẫu đào tạo, có
sẵn để ước tính tham số, như
t = {xi , di } N i = 1 (2.13)
Để tiếp tục công việc ước lượng tham số, chúng tôi đưa ra các giả định sau:
Giả định 1: Độc lập thống kê và phân phối giống nhau
N ví dụ , cấu thành mẫu đào tạo, độc lập về mặt thống kê và được phân phối
hợp lý (iid).
Giả định 2: Gaussianity
Môi trường, chịu trách nhiệm tạo ra mẫu đào tạo t, là Gaussian
được phân phối.
Cụ thể hơn, sai số kỳ vọng trong mô hình hồi quy tuyến tính của Eq. (2.3)
được mô tả bằng hàm mật độ Gauss có giá trị trung bình bằng 0 và phương sai chung σ2 , như
hiển thị bởi
1 ε2
i = 1, 2, ..., N
tôi
pE (εi ) (2,14)
= 12 exp a - 2 2 b ,
Giả định 3: Tính ổn định
Môi trường đứng yên, có nghĩa là vectơ tham số w là cố định, nhưng

chưa biết, trong suốt N thử nghiệm của thí nghiệm.
Cụ thể hơn, bản thân các phần tử M của vectơ trọng lượng w được giả định là
trở thành iid, với mỗi phần tử được điều chỉnh bởi một hàm mật độ Gaussian có giá trị trung bình bằng 0
và phương sai chung σ2 w. Do đó, chúng tôi có thể biểu thị giá trị trước cho phần tử thứ k của
vectơ tham số w as
1 w2k
(tuần) k = 1, 2, ..., M (2,15)
= 12 exp a - 2 2 b ,
w w
Viết lại Eq. (2.3) đối với thử nghiệm thứ i của thử nghiệm được thực hiện trên môi
trường, chúng tôi có
di = wTxi + εi , i = 1, 2, ..., N (2,16)
trong đó di , xi , và εi là các giá trị mẫu (tức là, nhận biết một lần chụp) của ngẫu nhiên
biến D, vectơ ngẫu nhiên X và biến ngẫu nhiên E tương ứng.
Hãy biểu thị toán tử kỳ vọng thống kê. Vì, theo Giả định 2,
chúng ta có
[E i ] = 0, cho tất cả tôi

(2.17)
và
2
var [Ei ] = [E2 i ] = nó , cho tất cả tôi
(2.18)
theo sau từ phương trình. (2.16) rằng, đối với một công cụ hồi quy xi đã cho ,
[Di ] = i = 1, 2, ..., N (2,19)
wTxi , var [Di ] = [(Di - [Di ]) 2 ]
= [E2 i ]
= 2
(2,20)
Do đó, chúng tôi hoàn thành hàm ý Gaussian của Giả thiết 2 bằng cách biểu thị hàm khả năng xảy
ra cho lần thử thứ i, dựa trên phương trình. (2.14), như
1 1
l (wdi , xi ) i = 1, 2, ..., N (2,21)
= 12 exp a - 2 2 (di - wTxi ) 2 b ,
Tiếp theo, gọi mô tả đặc điểm iid của N thử nghiệm của thử nghiệm trên môi
trường theo Giả thiết 1, chúng tôi biểu thị hàm khả năng tổng thể cho thử nghiệm như
N
l (wd, x) = q l (wdi , xi )
i = 1
1 N 1
=
q
(22 ) N i = 1
exp a - 2 2 (di - wTxi ) 2 b
1 1 N
=
2 một (di - wTxi ) 2 b
(2,22)
(22 ) N exp a - 2 i = 1
chiếm tổng kiến thức thực nghiệm về vectơ trọng lượng w có trong mẫu huấn luyện t
của phương trình. (2.13).
Nguồn thông tin duy nhất còn lại được tính đến là nguồn thông tin được đúc
kết trong (w) trước đó. Gọi đặc điểm Gaussian trung bình bằng 0 của phần tử thứ k
của w được mô tả trong phương trình. (2.15), tiếp theo là đặc điểm iid của M độ
cao của w theo Giả thiết 3, chúng tôi viết
M
(w) = q (tuần)
k = 1
1 M
w2
=
q b
(22 w) M k = 1
exp a - 2 k 2
w
1 1 M
=
exp a - 2 2 một w2
(22 w) M w i = 1 k b
1 1
=
7 w7 (2,23)
(22 w) M exp a - 2 2w 2 b
ở đâu || w || là chuẩn Euclid của vectơ tham số chưa biết w, được xác định bởi
M 1 2
w2 (2,24)
7 w7 = a a k = 1 k b
Do đó, thay thế các Eqs. (2.22) và (2.23) thành phương trình. (2.9), và sau đó đơn giản hóa kết
quả, chúng tôi nhận được mật độ sau
N
1
2 a (di - wTxi ) 2 - 2 7 w7 (2,25)
(wd, x) r exp c- 1 2 i = 1 2 w 2 ngày
Bây giờ chúng tôi đã được trang bị đầy đủ để áp dụng công thức MAP của Eq. (2.12) đối với vấn
đề chuyển đổi esti trong tầm tay. Cụ thể, thay thế Eq. (2.25) vào công thức này, chúng tôi nhận được
wˆ MAP (N) = tối đa a (di - wTxi ) 2 - 7 (2,26)

w c- 1 2 i = 1 w7 2 2 ngày
nơi chúng tôi đã giới thiệu tham số mới

2
=
2 (2,27)
w
Bây giờ chúng ta định nghĩa hàm bậc hai

N
1
2
e (w) = 2 a (di - wTxi ) 2 + 7 (2,28)
i = 1
w7 2
Rõ ràng, tối đa hóa đối số trong Eq. (2.26) đối với w tương đương với cực tiểu
wˆBẢN
của hàm bậc hai e (w) Theo đó, ước lượng tối ưu thu được bằng cách phân biệt hàm ĐỒ
e (w) với w và đặt kết quả bằng 0. Khi làm như vậy, chúng ta có được ước lượng
MAP mong muốn của vectơ ter tham số M-x-1 là
-1
wˆ MAP (N) = [Rxx (N) + I] rdx (N) (2,29)
nơi chúng tôi đã giới thiệu hai ma trận và một vectơ:
1. ma trận tương quan M -by-M trung bình theo thời gian của bộ hồi quy x, được xác định bởi
N N
Rˆ xx (N) = - a một xixTj (2,30)

i = 1 j = 1
trong đó xi jxT là tích số bên ngoài của các hồi quy xi và xj , được áp dụng cho môi trường
trong các thử nghiệm thực nghiệm thứ i và thứ j;
2. ma trận nhận dạng M -by-M I có M phần tử đường chéo là thống nhất và tái
các phần tử maining đều bằng 0;
3. vectơ tương quan chéo M-x-1 trung bình theo thời gian của bộ hồi quy x và
phản hồi de sired d, được xác định bởi
N
rˆ dx (N) = xi
- adi (2,31)
j = 1
Mẫu đào tạo về mối Rˆxx (N) và (N)rˆdx

đều được tính trung bình trên tất cả N ví dụ về
tương quan t — do đó việc sử dụng thuật ngữ “thời gian được tính trung bình”.
Giả sử chúng ta gán một giá trị lớn cho phương sai σ2 w, có tác động ngầm
nói rằng phân phối trước của mỗi phần tử của vectơ tham số w là
về cơ bản đồng nhất trên một loạt các giá trị có thể. Trong điều kiện này,
tham số về cơ bản là 0 và công thức của Eq. (2.29) giảm xuống ước tính ML
ˆ
xx (N) rdx (N)
wˆ ML (N) = Rˆ -1 (2,32)
hỗ trợ quan điểm mà chúng tôi đã đưa ra trước đây: Công cụ ước tính ML chỉ dựa vào
mô hình quan sát được minh họa bởi mẫu huấn luyện t. Trong tài liệu thống kê về
hồi quy tuyến tính, phương trình
ˆ
Rˆ xx (N) wˆ ML (N) rdx (N) (2,33)
= wˆ trình
là phương trình chuẩn; giải pháp ước lượng ML của phương thườngnày.
đượcĐiều
gọi tất nhiên là
ML
đáng quan tâm nữa là công cụ ước lượng ML là một hệ số ước lượng không thiên vị , theo nghĩa
là đối với một mẫu huấn luyện t lớn vô hạn, chúng tôi thấy rằng, trong
giới hạnMLwˆ , hội tụ đến vectơ tham số w của môi trường ngẫu nhiên chưa biết,
với điều kiện là bộ hồi quy x (n) và phản hồi d (n) được rút ra từ ergodic chung
các quy trình, trong trường hợp đó, mức trung bình thời gian có thể được thay thế cho mức trung bình tổng thể. Dưới
điều kiện này, trong Bài toán 2.4, nó được chỉ ra rằng
giới hạn
wˆ ML (N) = w
NS q
Ngược lại, công cụ ước tính MAP của Eq. (2.29) là một công cụ ước lượng chệch, do đó
nhắc chúng tôi đưa ra tuyên bố sau:
Trong việc cải thiện tính ổn định của công cụ ước tính khả năng xảy ra tối đa thông qua việc sử dụng
phương pháp hóa thường xuyên (tức là kết hợp kiến thức trước đó), kết quả tối đa của hệ thống ước
tính hậu kỳ trở nên sai lệch.
Tóm lại, chúng ta có sự cân bằng giữa sự ổn định và sự thiên vị.
2.4 MỐI QUAN HỆ GIỮA CÁC MẶT PHNG ÍT NHẤT ĐƯỢC QUY ĐỊNH
DỰ TOÁN VÀ DỰ TOÁN BẢN ĐỒ
Chúng ta có thể tiếp cận ước lượng vectơ tham số w theo một cách khác bằng cách tập trung
trên một hàm chi phí e0 (w) được xác định là sai số kỳ vọng bình phương được tổng hợp trên N
thử nghiệm thực nghiệm trên môi trường. Cụ thể, chúng tôi viết
N
e0 (w) = a ε2tôi (w)
i = 1
trong đó chúng tôi đã đưa w vào đối số của εi để nhấn mạnh thực tế là sự không chắc chắn trong
mô hình hồi quy là do vectơ w. Sắp xếp lại các điều khoản trong Eq. (2.16), chúng tôi
được
ε i (w) = di - wTxi , i = 1, 2, ..., N (2,34)

Thay phương trình này vào biểu thức cho e0 (w) sẽ thu được
1 N
e0 (w) = một (di - wTxi ) 2 (2,35)
2
i = 1
mà chỉ dựa vào mẫu đào tạo t. Giảm thiểu hàm chi phí này một cách liên quan
để w mang lại một công thức cho công cụ ước tính bình phương nhỏ nhất thông thường giống với công thức
công cụ ước tính khả năng xảy ra tối đa của Eq. (2.32), và do đó có khả năng khác biệt về
có được một giải pháp thiếu tính duy nhất và tính ổn định.
Để khắc phục vấn đề nghiêm trọng này, thông lệ là mở rộng chi phí
chức năng của Eq. (2.35) bằng cách thêm một thuật ngữ mới như sau:
2
e (w) = e0 (w) + 7 w7
2
1 N
= 2
một (di - wT xi ) 2 + 7 w7 (2,36)
2 2
i = 1
Biểu thức này giống với hàm được định nghĩa trong Eq. (2,28). Sự bao gồm của
bình phương Euclid chuẩn || w || 2 được gọi là chính quy cấu trúc. Tương ứng, vô hướng
được gọi là tham số chính quy hóa.
Khi 0, ngụ ý là chúng ta hoàn toàn tin tưởng vào đài quan sát
mô hình tion được minh họa bởi mẫu đào tạo t. Ở một thái cực khác, khi hàm ý là q ,
chúng ta không tin tưởng vào mô hình quan sát. Trong thực tế,
Tham số chính quy được chọn ở đâu đó giữa hai trường hợp giới hạn này.
Trong mọi trường hợp, đối với một giá trị quy định của thông số chính quy, giải pháp
của phương pháp chính quy bình phương nhỏ nhất, thu được bằng cách giảm thiểu chi phí chính quy
chức năng của Eq. (2.36) đối với vectơ tham số w, giống với MAP
ước tính của Eq. (2,29). Giải pháp cụ thể này được gọi là giải pháp bình phương nhỏ nhất
chính quy (RLS) .
Trong phần này, chúng tôi lặp lại thí nghiệm máy tính đã thực hiện đối với bài toán phân
loại mẫu được nghiên cứu trong Chương 1, nơi chúng tôi sử dụng thuật toán perceptron.
trước đây, cấu trúc hai mặt trăng, cung cấp quá trình đào tạo cũng như dữ liệu thử nghiệm, đó là
được hiển thị trong Hình 1.8. Tuy nhiên, lần này, chúng tôi sử dụng phương pháp bình phương nhỏ nhất để thực hiện
sự phân loại.
Hình 2.2 trình bày kết quả đào tạo thuật toán bình phương nhỏ nhất cho
khoảng cách giữa hai mặt trăng đặt tại d 1. Hình bên cho thấy ranh giới deci sion được
xây dựng giữa hai mặt trăng. Các kết quả tương ứng
thu được bằng cách sử dụng thuật toán perceptron cho cùng một cài đặt d 1 đã được trình bày
trong Hình 1.9. So sánh hai số liệu này, chúng tôi đưa ra những nhận xét thú vị sau:
1. Các ranh giới quyết định được xây dựng bởi hai thuật toán đều là tuyến tính,
là thỏa mãn trực giác. Thuật toán bình phương nhỏ nhất phát hiện ra sự bất đối xứng
Phân loại bằng cách sử dụng các hình vuông nhỏ nhất với dist 1, bán kính 10 và chiều rộng 6
10
0
x2
10
10 5 0 5 10 15 20
x1
HÌNH 2.2 Phân loại hình vuông nhỏ nhất của mặt trăng đôi trong Hình 1.8 với khoảng cách d 1.
cách mà hai mặt trăng được định vị tương đối với nhau, như được nhìn thấy bởi
độ dốc dương của ranh giới quyết định trong Hình 2.2. Điều thú vị là, thuật toán
per ceptron hoàn toàn bỏ qua sự bất đối xứng này bằng cách xây dựng một quyết định
ranh giới song song với trục x.
2. Đối với khoảng cách phân cách d 1, hai mặt trăng phân tách tuyến tính. Thuật toán
per ceptron đáp ứng hoàn hảo với cài đặt này; mặt khác, khi khám phá ra đặc điểm
không đối xứng của hình hai mặt trăng, phương pháp tối thiểu
ô vuông kết thúc phân loại sai dữ liệu thử nghiệm, gây ra sai số phân loại là 0,8%.
3. Không giống như thuật toán perceptron, phương pháp bình phương nhỏ nhất tính số deci
ranh giới sion trong một lần bắn.
Hình 2.3 trình bày kết quả của thí nghiệm được thực hiện trên hai mặt trăng
mẫu cho khoảng cách phân cách d 4, sử dụng phương pháp bình phương nhỏ nhất. Như
dự kiến, hiện có một sự gia tăng đáng kể trong sai số phân loại, cụ thể là 9,5%.
So sánh hiệu suất này với sai số phân loại 9,3% của nhịp điệu thuật toán perceptron cho
cùng một cài đặt, được báo cáo trong Hình 1.10, chúng tôi thấy rằng phân loại
hiệu suất của phương pháp bình phương nhỏ nhất đã giảm nhẹ.
Kết luận quan trọng được rút ra từ máy tính phân loại mẫu
thí nghiệm của Phần 1.5 và 2.5 như sau:
Mặc dù thuật toán perceptron và thuật toán bình phương nhỏ nhất đều tuyến tính, nhưng chúng hoạt
động khác nhau trong việc thực hiện nhiệm vụ phân loại mẫu.
Phần 2.6 Nguyên tắc Độ dài Mô tả Tối thiểu 79
Phân loại bằng cách sử dụng bình phương nhỏ nhất với dist 4, bán kính 10 và chiều rộng 6
12
10
số 8
2
x2
số 8
10 5 0 5 10 15 20
x1
HÌNH 2.3 Phân loại bình phương nhỏ nhất của mặt trăng đôi trong Hình 1.8 với khoảng cách d -4.
2.6 NGUYÊN TẮC TỐI THIỂU-MÔ TẢ-CHIỀU DÀI
Việc biểu diễn một quá trình ngẫu nhiên bằng mô hình tuyến tính có thể được sử dụng để tổng hợp
hoặc phân tích. Trong tổng hợp, chúng tôi tạo ra một chuỗi thời gian mong muốn bằng cách gán một tập hợp công thức
của các giá trị cho các tham số của mô hình và cung cấp cho nó tiếng ồn trắng có giá trị trung bình bằng 0
và phương sai quy định; mô hình thu được như vậy được gọi là mô hình tổng hợp. Trong
mặt khác, chúng tôi ước tính các tham số của mô hình bằng cách xử lý
chuỗi thời gian cho trước có độ dài hữu hạn, sử dụng cách tiếp cận Bayes hoặc phương pháp chính quy
hình vuông nhỏ nhất. Trong chừng mực ước tính là thống kê, chúng tôi cần một thước đo thích hợp
về sự phù hợp giữa mô hình và dữ liệu quan sát. Chúng tôi đề cập đến vấn đề thứ hai này là
đó là lựa chọn mô hình. Ví dụ: chúng tôi có thể muốn ước tính số độ
tự do (tức là, các tham số có thể điều chỉnh) của mô hình, hoặc thậm chí cấu trúc chung của
ngươi mâu.
Rất nhiều phương pháp để lựa chọn mô hình đã được đề xuất trong nhiệt độ thống kê, với mỗi
phương pháp có một mục tiêu riêng. Với các mục tiêu khác nhau,
không có gì đáng ngạc nhiên khi thấy rằng các phương pháp khác nhau mang lại kết quả hoàn toàn khác nhau khi
chúng được áp dụng cho cùng một tập dữ liệu (Grünwald, 2007).
Trong phần này, chúng tôi mô tả một phương pháp đã được chứng minh rõ ràng, được gọi là
nguyên tắc độ dài mô tả tối thiểu (MDL) để lựa chọn mô hình, được Rissanen (1978) đi tiên phong.
Cảm hứng cho sự phát triển của nguyên tắc MDL được bắt nguồn từ
Lý thuyết độ phức tạp Kolmogorov. Trong lý thuyết đáng chú ý này, nhà toán học vĩ đại
Kolmogorov đã định nghĩa độ phức tạp như sau (Kolmogorov, 1965; Li và Vitányi, 1993;
Bìa và Thomas, 2006; Grünwald, 2007):
Độ phức tạp theo thuật toán (mô tả) của một chuỗi dữ liệu là độ dài của chương trình máy
tính bi nary ngắn nhất in ra chuỗi và sau đó tạm dừng.
Điều thực sự đáng kinh ngạc về định nghĩa phức tạp này là thực tế là nó nhìn vào máy
tính, dạng máy nén dữ liệu tổng quát nhất, chứ không phải là khái niệm về phân phối khả
năng xác suất làm cơ sở của nó.
Sử dụng khái niệm cơ bản về độ phức tạp Kolmogorov, chúng ta có thể phát triển
một lý thuyết về suy luận quy nạp được lý tưởng hóa, mục tiêu của nó là tìm ra “tính
đều đặn” trong một chuỗi dữ liệu nhất định. đã được Rissanen sử dụng để xây dựng
nguyên tắc MDL. Cái nhìn sâu sắc thứ hai được Rissanen sử dụng là bản thân tính đều
đặn có thể được xác định bằng “khả năng nén”.
Do đó, nguyên tắc MDL kết hợp hai hiểu biết này, một về tính thường xuyên và
một về khả năng nén, để xem quá trình học tập như nén dữ liệu, do đó, dạy chúng ta
những điều sau:
Cho một tập hợp các giả thuyết, h và một chuỗi dữ liệu d, chúng ta nên cố gắng tìm giả
thuyết cụ thể hoặc một số tổ hợp giả thuyết trong h, nén chuỗi dữ liệu d nhiều nhất.
Tuyên bố này tóm tắt những gì nguyên tắc MDL là rất ngắn gọn. Ký hiệu sym bol d cho
một chuỗi không được nhầm lẫn với ký hiệu d được sử dụng trước đây cho phản hồi de
sired.
Có một số phiên bản của nguyên tắc MDL đã được mô tả trong tài liệu, chúng tôi
sẽ tập trung vào phiên bản lâu đời nhất, nhưng đơn giản nhất và nổi tiếng nhất, được
gọi là nguyên tắc MDL mã hai phần đơn giản cho mô hình xác suất. Theo thuật ngữ "đơn
giản", chúng tôi muốn nói rằng các cường độ mã đang được xem xét không được xác định
theo cách tối ưu. Các thuật ngữ “mã” và “độ mạnh từ mã” được sử dụng ở đây liên quan
đến quá trình mã hóa chuỗi dữ liệu theo cách ngắn nhất hoặc ít dư thừa nhất .
Giả sử rằng chúng ta được cung cấp một mô hình ứng viên hoặc mlớp mô hình . Với
tất cả cácm phần trăm là nguồn xác suất, do đó, chúng tôi đề cập đến một giả thuyết
điểm là p chứ không phải h. Cụ thể, chúng tôi tìm kiếm hàm mật độ xác suất
thíchpm
tốt
một
giải
nhất
chuỗi dữ liệu nhất định d . bởi L1 (p) và độ dài mô tả của chuỗi dữ liệu d khi nó
được mã hóa với sự trợ giúp của p, mà chúng tôi ký hiệu là L2 (d | p).
L12 (p, d) = L1 (p) + L2 (d p)
và chọn giả thuyết điểm cụ thể pm tối thiểu L12 (p, d).
Điều quan trọng là bản thân p cũng được mã hóa ở đây. Do đó, để tìm ra giả thuyết nén
chuỗi dữ liệu d nhiều nhất, chúng ta phải mã hóa (mô tả hoặc nén) dữ liệu theo cách mà bộ
giải mã có thể truy xuất dữ liệu ngay cả khi không có biết trước giả thuyết. Điều này có
thể được thực hiện bằng cách mã hóa một cách rõ ràng một giả thuyết, như trong nguyên tắc
mã hai phần trước đây; nó cũng có thể được thực hiện theo nhiều cách khác nhau - ví dụ, bằng
cách lấy trung bình trên các giả thuyết (Grünwald, 2007).
Phần 2.6 Nguyên tắc Độ dài Mô tả Tối thiểu 81
Lựa chọn Mẫu-Đơn hàng
Gọi m (1), m (2), ..., m (k) , ..., biểu thị một họ các mô hình hồi quy tuyến tính được liên kết với
vectơ
không gian trọng số w (1), tham ...,
w (2), số wk
hình wk
(k), thích
wgiải trong
có đó bậc
số tốt
chiều
nhấtcủa
tăng
một mô
dần.hình
môi Vấn k
đề1,2,
trường quan...;
không
tâm nghĩa
xác xáclà,
làđịnh các
chịu
định trách
mô
nhiệm hình thànhmômẫu
hình.
,đào
..., tạo {xi , di } Sponse. Điều chúng tôi vừa mô tả là vấn đề lựa chọn thứ tự
N
tôi 1, trong đó xi là tác nhân kích thích và di là giá trị tương ứng
Khi làm việc thông qua đặc tính thống kê của chiều dài tổng hợp L12 (p, d), nguyên tắc MDL mã
hai phần cho chúng ta biết để chọn mô hình thứ k là mimimizer
Lỗi điều khoản Thuật ngữ phức tạp

¯˚˚˚˚˘˚˚˚˚˙
¯˚˚˚˘˚˚˚˙
k k = 1, 2, ...
min (2.37) i =
k e - log p (di @ w (k)) (w (k)) + 2 log (N) + O (k) f , 1, 2, ..., N
trong đó (w (k) ) là phân phối trước của vectơ tham số w (k) của biểu thức có , và kỳ cuối cùng
bậc của mô hình bậc k (Rissanen, 1989; Grünwald, 2007).

Đối với cỡ mẫu lớn N, số hạng cuối cùng này bị số hạng thứ hai của 2 log (N) lấn át
k
. Biểu thức trong Eq. (2.37) thường được chia thành hai cụm từ biểu thức:
• thuật ngữ lỗi, được biểu thị bằng -log (p (di | w (k) ) (w (k) ), liên quan đến mô hình và
dữ liệu; •
k
thuật ngữ độ phức tạp của giả thuyết, được biểu thị 2 log (N) + O (k) , liên quan đến
bằng riêng mô hình.
Trong thực tế, thuật ngữ O (k) thường bị bỏ qua để đơn giản hóa các vấn đề khi áp dụng Eq. (2.37),
với các kết quả khác nhau. Lý do cho các kết quả hỗn hợp là số hạng O (k) có thể khá lớn. Tuy nhiên,
đối với các mô hình hồi quy tuyến tính, nó có thể được đưa ra một cách rõ ràng và hiệu quả, và các
thủ tục kết quả có xu hướng hoạt động khá tốt trong thực tế.
Cũng lưu ý rằng biểu thức của Eq. (2.37) không có phân phối trước (w (k) )
được sản xuất lần đầu tiên tại Rissanen (1978).
Nếu nó chỉ ra rằng chúng ta có nhiều hơn một bộ thu nhỏ của biểu thức trong Eq. (2.37), sau
đó chúng tôi chọn mô hình có thuật ngữ độ phức tạp giả thuyết nhỏ nhất Và nếu bước đi này vẫn khiến
chúng tôi có một số mô hình ứng viên, thì chúng tôi không còn lựa chọn nào khác ngoài việc làm việc
với một trong số chúng (Grünwald, 2007).
Các thuộc tính của Nguyên tắc MDL
Nguyên tắc MDL để lựa chọn mô hình cung cấp hai thuộc tính quan trọng (Grünwald, 2007):
1. Khi chúng ta có hai mô hình phù hợp với một chuỗi dữ liệu nhất định tốt như
nhau, nguyên tắc MDL sẽ chọn mô hình “đơn giản nhất” theo nghĩa nó cho phép sử
dụng mô tả ngắn hơn về dữ liệu. Nói cách khác, nguyên tắc MDL triển khai một
dạng dao cạo của Occam chính xác, biểu hiện ưu tiên cho các lý thuyết đơn giản:
Chấp nhận lời giải thích đơn giản nhất phù hợp với dữ liệu.
2. Nguyên tắc MDL là một công cụ ước lượng lựa chọn mô hình nhất quán theo nghĩa là nó
tuân theo thứ tự mô hình thực khi kích thước mẫu tăng lên.
Có lẽ điểm quan trọng nhất cần lưu ý là, trong gần như tất cả các ứng dụng trong việc thực
hiện nguyên tắc MDL, một số ít, nếu có, các kết quả hoặc mô hình bất thường với các đặc
tính không mong muốn đã được báo cáo trong tài liệu.
2.7 XÉT NGHIỆM KÍCH THƯỚC MẪU CUỐI CÙNG
Một hạn chế nghiêm trọng của phương pháp tiếp cận bình phương tối đa hoặc bình phương nhỏ
nhất thông thường đối với ước lượng tham số là tính không đồng nhất và tính không ổn định
của giải pháp, được coi là hoàn toàn phụ thuộc vào mô hình quan sát (ví dụ, mẫu huấn luyện
t); Các đặc điểm của tính không đồng nhất và tính không ổn định trong việc mô tả một giải
pháp cũng được coi là một vấn đề quá mức trong tài liệu .
d = f (x, w) + (2,38)
trong đó f (x, w) là một hàm xác định của bộ hồi quy x đối với một số w tham số hóa mô
hình và ε là sai số kỳ vọng. Mô hình này, được mô tả trong Hình 2.4a, là một mô tả toán
học của một môi trường ngẫu nhiên; mục đích của nó là giải thích hoặc dự đoán phản ứng d
do bộ hồi quy x tạo ra.
wˆ
Hình 2.4b là mô hình vật lý tương ứng của môi trường, trong đó ghi nhận ước lượng
của vectơ tham số chưa biết w. Mục đích của mô hình thứ hai này là mã hóa kiến thức thực
nghiệm được đại diện bởi mẫu đào tạo t, như được hiển thị bằng
t S wˆ (2,39)
Trên thực tế, mô hình vật lý cung cấp một sự gần đúng với mô hình hồi quy của Hình 2.4a.
Giả sử phản ứng thực tế của mô hình vật lý, được tạo ra để đáp ứng với vectơ đầu vào x,
được ký hiệu là
x
f ( , w) Σ Phản hồi
d
e
Lỗi kỳ vọng
(một)
Đầu vào Đầu ra

F ( , wˆ)
x y
(b)
HÌNH 2.4 (a) Mô hình toán học của một môi trường ngẫu nhiên, được tham số hóa bởi
wˆ
vectơ w. (b) Mô hình vật lý của môi trường, trong đó là ước tính của tham số chưa biết
vectơ w.
Phần 2.7 Cân nhắc về kích thước mẫu hữu hạn 83
y = F (x, wˆ ) (2,40)
trong đó F (, wˆ ) là chức năng đầu vào - đầu ra được thực hiện bởi mô hình vật lý; y trong _
Phương trình (2.40) là giá trị mẫu của biến ngẫu nhiên Y. Cho mẫu huấn luyện t của
wˆ ước tính là bộ tối thiểu hóa hàm chi phí
Phương trình (2.39), công cụ
1 N
e (wˆ ) = một (di - F (xi , wˆ )) 2 (2.41)
2
i = 1
1
trong đó yếu tố đã
2 được sử dụng để phù hợp với các ký hiệu trước đó. Ngoại trừ hệ
1
số tỷ lệ là hàm chi
sự2 ,khác phí bình
biệt e (wˆ phương
) giữa
và phản
phảnhồi
hồithực
d của
tế môi
y của
trường
mô hình
(mong
vậtmuốn)
lý,
được tính
trên toàn bộ mẫu đào tạo t.
Gọi ký hiệu t biểu thị toán tử trung bình được thực hiện trên toàn bộ quá trình
huấn luyện sam ple t. Các biến hoặc hàm của chúng nằm dưới toán tử trung bình t là
ký hiệu là x và d; cặp (x, d) đại diện cho một ví dụ trong mẫu huấn luyện t. Trong
ngược lại, toán tử kỳ vọng thống kê hoạt động trên toàn bộ tập hợp của x và d,
trong đó bao gồm t như một tập hợp con. Sự khác biệt giữa các toán tử vàt nên
rất cẩn thận lưu ý trong những gì sau đây.
Theo sự biến đổi được mô tả trong Eq. (2.39), chúng ta có thể thay thế cho nhau sử dụng F
(x, wˆ ) và F (x, t) và do đó viết lại phương trình. (2.41) ở dạng tương đương
1
e (wˆ ) = t [(d - F (x, t)) 2 ] (2.42)
2
Bằng cách cộng và sau đó trừ f (x, w) vào đối số (d - F (x, t)) và tiếp theo bằng cách sử dụng
Phương trình (2.38), chúng tôi có thể viết
d - f (x, t) = [d - f (x, w)] + [f (x, w) - F (x, t)]
= + [f (x, w) - F (x, t)]
Bằng cách thay thế biểu thức này thành Eq. (2.42) và sau đó mở rộng các điều khoản, chúng tôi có thể viết lại
hàm chi phí e () ở dạngwˆtương đương
1 1
2
e (wˆ ) t [ ] + t [(f (x, w) - F (x, t)) 2 ] + t [ f (x, w) - F (x, t)] (2,43)
= 2 2
Tuy nhiên, kỳ vọng cuối cùng ở phía bên phải của Eq. (2,43) là 0, cho hai
lý do:
• Sai số kỳ vọng không tương quan với hàm hồi quy f (x, w).
• Sai số kỳ vọng liên quan đến mô hình hồi quy của Hình 2.4a, trong khi
hàm xấp xỉ F (x, wˆ ) liên quan đến mô hình vật lý của Hình 2.4b.
Theo đó, Eq. (2.43) giảm xuống
1 1
2
e (wˆ ) = t [ ] + t [(f (x, w) - F (x, t)) 2 ] (2.44)
2 2
2
Thuật ngữ t [] ở phía bên phải của phương trình. (2.44) là phương sai của kỳ vọng
(mô hình hồi quy) sai số được đánh ,giá trên mẫu huấn luyện t; ở đây nó được giả định
điều đó không có nghĩa. Phương sai này đại diện cho sai số nội tại bởi vì nó không rõ ràng .
vết lõm của ước tính. Do đó, công cụ ước tính là bộ tối thiểu hóa hàm chi phí
wˆ cũng sẽ giảm thiểu giá trị trung bình tổng thể của khoảng cách bình phương giữa hàm rút gọn f
e ()
(x, w) và hàm xấp xỉ F (x, wˆ ) . Nói cách khác,
thước đo tự nhiên về hiệu quả của F (x, wˆ ) như một yếu tố dự đoán về phản ứng mong muốn d
được định nghĩa như sau (bỏ qua hệ số tỷ lệ 1 ⁄2 ):
Lav (f (x, w), F (x, wˆ )) = t [(f (x, w) - F (x, t)) 2 ] (2,45)
Biện pháp tự nhiên này về cơ bản là quan trọng vì nó cung cấp

cơ sở cho sự cân bằng giữa độ chệch và phương sai là kết quả của việc sử dụng giá trị xấp F (x, wˆ )
xỉ f (x, w).
Tình thế lưỡng nan-Phương sai
Từ Eq. (2.38), chúng tôi thấy rằng hàm f (x, w) bằng với kỳ vọng có điều kiện
(d | x). Do đó, chúng tôi có thể xác định lại khoảng cách bình phương giữa f (x) F (x, wˆ ) như
và Lav (f (x, w), F (x, wˆ )) = t [([d @ x] - F (x, t)) 2 ] (2,46)
Do đó, biểu thức này có thể được xem là giá trị trung bình của sai số ước lượng
giữa hàm hồi quy f (x, w) [d | x] và hàm gần đúng được đánh giá trên toàn bộ mẫu huấn F (x, wˆ ),
luyện t. Lưu ý rằng điều kiện có nghĩa là

[d | x] có kỳ vọng không đổi đối với mẫu huấn luyện t. Tiếp theo chúng tôi viết
[d x] - F (x, t) = ([d x] - t [F (x, t)]) + ( t [F (x, t)] - F (x, t))
trong đó chúng ta chỉ cần thêm và sau đó trừ đi giá trị trung bình t [F (x, t)]. Bằng cách tiến
hành theo cách tương tự như được mô tả để lấy Eq. (2.43) từ phương trình (2.42), chúng tôi
có thể định dạng lại Eq. (2.46) là tổng của hai số hạng (xem Bài toán 2.5):
Lav (f (x), F (x, t)) = B2 (wˆ ) + V (wˆ ) (2,47)
ở đâu B (wˆ ) và V (wˆ ) chúng được định nghĩa tương ứng bởi
B (wˆ ) = t [F (x, t)] - [d @ x] (2,49)
và
V (wˆ ) = t [(F (x, t) - t [F (x, t]) 2] (2,49)
Bây giờ chúng tôi thực hiện hai quan sát quan trọng:
1. Số hạng đầu tiên, B (wˆ ) ,là độ chệch của giá trị trung bình của hàm xấp xỉ
F (x, t), được đo theo hàm hồi quy f (x, w) = [d | x]. Vì vậy,
B (wˆ ) đại diện cho sự bất khả thi của mô hình vật lý được xác định bởi hàm F (x, wˆ )
để gần đúng chính xác hàm hồi quy f (x, w) [d | x]. Chúng ta có thể có B (wˆ )
trước khi xem sự thiên vị như là một lỗi gần đúng.
2. Thuật ngữ thứ hai, V (wˆ ) , là phương sai của hàm xấp xỉ F (x, t),
được đo trên toàn bộ mẫu đào tạo . Do đó, thể hiện sự )không phù hợp
V (wˆ
Phần 2.7 Cân nhắc về kích thước mẫu hữu hạn 85
của kiến thức thực nghiệm có trong mẫu đào tạo về hàm regres sion f (x, w). Do đó,
chúng ta có thể xem phương sai V (wˆ ) như là biểu hiện
của một lỗi ước tính.
Hình 2.5 minh họa các mối quan hệ giữa mục tiêu (mong muốn) và các hàm ing gần đúng;
nó chỉ ra cách thức sai số ước lượng, cụ thể là độ chệch và phương sai, ắc quy kết hợp như
thế nào. Để đạt được hiệu suất tổng thể tốt, độ chệch B (wˆ ) và phương sai V (wˆ ) của
hàm xấp xỉ F (x, wˆ ) = F (x, t) cả hai sẽ phải nhỏ.
Thật không may, chúng tôi thấy rằng trong một mô hình vật lý phức tạp học theo ví dụ và
làm như vậy với một mẫu đào tạo có kích thước hạn chế, cái giá để đạt được sai lệch nhỏ là rất lớn
phương sai. Đối với bất kỳ mô hình vật lý nào, chỉ khi kích thước của mẫu đào tạo trở nên
vô cùng lớn mà chúng ta có thể hy vọng loại bỏ cả thiên vị và phương sai cùng một lúc .
hội tụ (Geman và cộng sự, 1992).

sẵn sàng đưa ra khuynh hướng có chủ đích , điều này sau đó có thể giúp loại bỏ biến thể hoặc
giảm nó đáng kể.
thiết kế của mô hình vật lý là vô hại. Trong bối cảnh phân loại mẫu, đối với đề thi, sự
thiên vị được cho là vô hại theo nghĩa là nó sẽ góp phần đáng kể vào
lỗi bình phương trung bình chỉ khi chúng tôi cố gắng suy ra các hồi quy không nằm trong lớp dự đoán.
Ghi chú giải thích về những gì Hình 2.5 mô tả:
1. Không gian bên trong được tô bóng của hình là một tập con của không gian bên ngoài:
Không gian bên ngoài đại diện cho tập hợp các hàm hồi quy f (, w) .
Không gian bên trong đại diện cho tập hợp các hàm xấp xỉ F (, wˆ ).
2. Hình bên cho thấy ba điểm, hai điểm cố định và một điểm ngẫu nhiên:
[dx], điểm cố định, được tính trung bình trên không gian bên ngoài
t [F (x, t)], điểm cố định thứ hai, được tính trung bình trên không gian bên trong
F (x, t) được phân phối ngẫu nhiên bên trong không gian bên trong
3. Các thông số thống kê, thể hiện trong hình:
B (w) bias, biểu thị khoảng cách giữa t [F (x, t)][dx] và .
Phương sai V (w) , biểu thị khoảng cách bình phương giữa F (x, t) và
t [F (x, t)], lấy trung bình trên mẫu huấn luyện t.
B2 (w) V (w) khoảng cách bình phương giữa F (x, t) [dx] và được tính trung bình trên
đào tạo mẫu t.
[F (x, )] f (x, w) [d | x]
F (x, )
HÌNH 2.5 Sự phân rã của thước đo tự nhiên Eq. (2.46), thành các Lav (f (x, w), F (x, wˆ )), được định nghĩa trong
thuật ngữ chệch và phương sai cho các mô hình hồi quy tuyến tính.
Nói chung, độ chệch phải được thiết kế cho từng ứng dụng cụ thể cần quan tâm. Một
cách thực tế để đạt được mục tiêu như vậy là sử dụng kiến trúc mạng hạn chế ,
thường hoạt động tốt hơn kiến trúc có mục đích chung.
2.8 PHƯƠNG PHÁP BIẾN TẦN CÔNG CỤ
Khi nghiên cứu mô hình hồi quy tuyến tính, trước tiên từ quan điểm của lý thuyết Bayes trong
Phần 2.3 và sau đó từ quan điểm của phương pháp bình phương nhỏ nhất trong Phần 2.4,
chúng tôi đã chỉ ra rằng cả hai cách tiếp cận đều mang lại cùng một giải pháp cho vectơ tham số
w của môi trường ngẫu nhiên chưa biết được mô tả trong Hình 2.1, cụ thể là, Eq. (2.29) cho
mô hình hồi quy tuyến tính chính quy và Eq. (2.32) cho phiên bản chưa được công nhận. Cả hai
trong số các công thức này được suy ra cho môi trường Gaussian, trên tiền đề rằng bộ điều chỉnh
lại (tức là tín hiệu đầu vào) x và phản hồi mong muốn d đều không ồn. Chuyện gì xảy ra nếu,
tuy nhiên, chúng tôi thấy rằng bộ hồi quy x chỉ có thể được quan sát khi có mặt của cộng
tiếng ồn, như có thể xảy ra trong thực tế? Đó là, bộ hồi quy nhiễu hiện được xác định bởi
=
zi xi + tôi (2,50)
đâu là tiếng ồn đo liên quan đến việc quan sát xi trong lần thực hiện thứ i của mẫu huấn luyện
tôi
t. Nếu chúng tôi áp dụng công thức không được công nhận của
Phương trình (2.32), chúng tôi sẽ nhận được một giải pháp sửa đổi cho vectơ tham số w của môi
trường ngẫu nhiên chưa biết:
ˆ
wˆML = Rˆ -1zz rdz (2,51)
ˆ
trong Rˆzz là hàm tương quan trung bình theo thời gian của bộ hồi quy nhiễu z và r dz
Là
đó hàm tương quan chéo trung bình theo thời gian tương ứng giữa phản hồi mong muốn
d và z. Để đơn giản hóa vấn đề, chúng tôi đã bỏ qua sự phụ thuộc của hai mối tương quan này
Giả sử rằng nhiễu đo vec tor v là nhiễu trắng với giá trị trung bình bằng 0 và ma trận tương
2
quan trong đó I là ma trix nhận dạng, chúng ta thu được các hàm tương
, quan sau:
Tôi
2
Rˆzz = Rˆ xx + Tôi
và
rˆ dz
= rˆ dx
Tương ứng, công cụ ước tính khả năng xảy ra tối đa giả định dạng mới
wˆML = (Rˆ xx + 2 I) -1 rˆdx (2,52)
mà theo thuật ngữ toán học, giống với công thức MAP của Eq. (2.29) với
tham số chính quy đặt bằng với phương sai nhiễu σ2 v. Quan sát này dẫn chúng ta
để đưa ra tuyên bố sau:
Sự hiện diện của nhiễu cộng trong bộ hồi quy z (với phương sai nhiễu phù hợp) có tác
dụng hữu ích là ổn định công cụ ước tính khả năng xảy ra tối đa, nhưng với chi phí là
đưa ra một sai lệch vào giải pháp.
Đây là một tuyên bố khá mỉa mai: Việc bổ sung tiếng ồn hoạt động như một bộ điều chỉnh (bộ ổn định)!
Phần 2.8 Phương pháp biến công cụ 87
Tuy nhiên, giả sử yêu cầu là tạo ra một giải pháp cho vectơ tham số chưa
biết w có tiệm cận không chệch mong muốn . Trong tình huống như vậy, chúng ta có
thể sử dụng phương pháp biến công cụ (Young, 1984). Phương pháp này dựa trên việc
đưa vào một tập hợp các biến công cụ, được biểu thị bằng vectơ có cùng chiều
xˆ với
biến hồi quy nhiễu z và thỏa mãn hai thuộc tính sau:
xˆ Thuộc tính 1. Vectơ công cụ có tương quan cao với công cụ hồi quy không
ồn x, như được hiển thị bởi
[xj xˆ k] Z 0 với mọi j và k (2,53)
trong đó xj là phần tử thứ j của bộ hồi quy không ồn xˆxk và là phần tử thứ k
của vectơ công cụ xˆ .
xˆ Tính chất 2. Vectơ công cụ và vectơ tiếng ồn đo v là

độc lập về mặt thống kê, như được hiển thị bởi
[ jxˆk] = 0 cho tất cả j và k (2,54)
Được trang bị vectơ công cụ thỏa mãn xˆ

hai tính chất này, chúng tôi tính các hàm
tương quan sau:
1. Bộ hồi quy nhiễu z có tương quan với vectơ công cụ xˆ , thu được
ma trận tương quan chéo
N
Rˆ
zxˆ
= a xˆ izT tôi
(2,55)
i = 1
N
trong đó zi là hồi quy thứ i của véc tơ công cụ mẫu tương i 1, xî và là
ứng {zi , di }.
2. Đáp ứng mong muốn d tương quan với vectơ công cụ xˆ , thu được
vector tương quan chéo
N
rˆdxˆ = a xˆ
tôi di
(2,56)
i = 1
Với hai phép đo tương quan này, chúng tôi sau đó sử dụng công thức đã sửa đổi
wˆ (N) = R-1 zxˆrdxˆ
N -1 N
xî zT a a xî di b (2,57)
= a ai = 1 tôi b i = 1
để tính toán một ước lượng của véc tơ tham số chưa biết w (Young, 1984). Không
giống như giải pháp ML của Eq. (2.51), công thức sửa đổi của Eq. (2.57), dựa
trên phương pháp của các biến công cụ, cung cấp một ước lượng tiệm cận không
chệch của vectơ tham số chưa biết w; xem Vấn đề 2.7.
Tuy nhiên, khi áp dụng phương pháp biến công cụ, vấn đề quan trọng là
cách lấy hoặc tạo các biến thỏa mãn Thuộc tính 1 và 2. Hóa ra
rằng trong phân tích chuỗi thời gian, cách giải quyết vấn đề này rất dễ xảy ra (Young,
1984).
Trong chương này, chúng tôi đã nghiên cứu phương pháp bình phương nhỏ nhất cho hồi quy tuyến tính, phương pháp này cũng
thành lập trong các tài liệu thống kê. Nghiên cứu được trình bày từ hai khác nhau, nhưng
bổ sung, quan điểm:
• Lý thuyết Bayes, trong đó ước lượng tối đa của một tập hợp chưa biết
tham số là mục tiêu quan tâm. Cách tiếp cận này để ước lượng tham số
yêu cầu kiến thức về phân phối trước của các tham số chưa biết. Việc gửi trước đã được
chứng minh cho môi trường Gaussian.
• Lý thuyết điều tiết hóa, trong đó hàm chi phí được giảm thiểu đối với
các tham số chưa biết bao gồm hai thành phần: sai số giải thích bình phương
tổng hợp trên dữ liệu đào tạo và một thuật ngữ chính quy được xác định theo
định mức Euclide bình phương của vectơ tham số.
Đối với trường hợp đặc biệt của một môi trường trong đó phân phối trước của cái chưa biết
tham số là Gaussian với giá trị trung bình bằng 0 và phương sai σ2w, hóa ra là tham số ization
thông thường tỷ lệ nghịch với σ2 w. Hàm ý của câu lệnh này là
điều đó khi σ2 là rất lớn (tức là, các tham số chưa biết được phân phối đồng đều trên
w
một phạm vi rộng), công thức tìm ước lượng của vectơ tham số w được xác định
theo phương trình bình thường
wˆ = Rˆ -1 rˆ
xx dx
ˆ
ở đâu R
xx là ma trận tương quan trung bình theo thời gian của vectơ đầu vào x và dx
rˆ là vectơ
tương quan chéo trung bình theo thời gian phản hồi giữa vectơ đầu vào x và
đáp ứng mong muốn d. Cả hai tham số tương quan được tính toán bằng cách sử dụng huấn luyện sam
N
ple {xi , ditôi}1 và do đó phụ thuộc vào kích thước mẫu của nó N. Hơn nữa, điều này đối với mula
giống với dung dịch thu được bằng cách sử dụng phương pháp khả năng tối đa mà
giả định một phân phối đồng đều cho trước.
Chúng tôi cũng thảo luận ba vấn đề quan trọng khác:
• Tiêu chí độ dài mô tả tối thiểu (MDL) để lựa chọn thứ tự mô hình (ví dụ:
kích thước của vectơ tham số chưa biết trong mô hình hồi quy tuyến tính).
• Tình trạng tiến thoái lưỡng nan về phương sai, có nghĩa là trong ước lượng tham số (không
cần sử dụng cỡ mẫu hữu hạn), chúng ta có nhiệm vụ không thể tránh khỏi là đánh đổi
phương sai của ước tính với độ chệch; thiên vị được định nghĩa là sự khác biệt giữa giá
trị dự kiến của ước tính tham số và giá trị thực, và
phương sai là thước đo "độ biến động" của ước tính xung quanh giá trị kỳ vọng.
• Phương pháp của các biến công cụ, nhu cầu phát sinh khi các dịch vụ ob trong mẫu huấn
luyện bị nhiễu; một tình huống như vậy được biết là phát sinh trong
thực tiễn.
Vấn đề 89
1. Mô hình hồi quy có thể là tuyến tính hoặc phi tuyến. Mô hình hồi quy tuyến tính được trình
bày sâu trong cuốn sách cổ điển của Rao (1973).
thảo luận trong Seber and Wild (1989).
2. Để có tài khoản dễ đọc về lý thuyết Bayes, xem Robert (2001).
3. Để có một cuộc thảo luận chi tiết về phương pháp bình phương nhỏ nhất, hãy xem Chương 8 của Haykin
(Năm 2002).
CÁC VẤN ĐỀ
2.1. Thảo luận về sự khác biệt cơ bản giữa ước lượng khả năng xảy ra tối đa và khả năng xảy ra tối
đa của vectơ tham số trong mô hình hồi quy tuyến tính.
2.2. Bắt đầu với hàm chi phí của Eq. (2.36), e (w), suy ra công thức của phương trình. (2.29) bằng
cách giảm thiểu hàm chi phí đối với đoạn chưa biết
vectơ mét w.
2.3. Trong bài toán này, chúng tôi giải quyết các thuộc tính của công cụ ước tính bình phương nhỏ nhất dựa trên
mô hình hồi quy tuyến tính của Hình 2.1:
Thuộc tính 1. Ước lượng bình phương nhỏ nhất
wˆ = R-1 xxrdx
là không thiên vị, với điều kiện là sai số kỳ vọng ε trong hồi quy tuyến tính
mô hình của Hình 2.1 không có giá trị trung bình.
Tính chất 2. Khi sai số kỳ vọng ε được rút ra từ quá trình nhiễu trắng trung bình bằng 0 với
phương sai σ2 ,ma trận hiệp phương sai của ước lượng bình phương nhỏ nhất wˆ
bằng
-1 .
2 Rˆxx
Thuộc tính 3. Sai số ước lượng
eo = d - wˆ T x
được tạo ra bằng phương pháp tối ưu hóa bình phương nhỏ nhất là trực giao với ước tính
của phản hồi mong muốn, được biểu thị bằng;
dˆ tài sản này là một hệ quả của nguyên tắc
dˆ của trực giao. Nếu chúng ta sử dụng các biểu diễn hình học của d và eo, thì
chúng ta sẽ thấy rằng "vectơ" đại diện cho eo, vuông góc (tức là pháp tuyến) với
đại diện đó; thực sự dˆ
là dựa trên biểu diễn hình học này mà
công thức
Rˆ xxwˆ = rˆdx
được gọi là phương trình thông thường.
Bắt đầu với phương trình thông thường, hãy chứng minh từng tính chất trong số ba tính chất này dưới
ˆ
rˆ tiền đề rằng R xx và là các
dx hàm tương quan trung bình theo thời gian.
2.4. Hãy để Rxx biểu thị hàm tương quan trung bình tổng thể của công cụ hồi quy x và cho phép rdx ghi lại
vectơ tương quan chéo trung bình tổng thể tương ứng giữa bộ hồi quy
x và phản ứng d; đó là,
Rxx = [xxT]
rdx = [dx]
Đề cập đến mô hình hồi quy tuyến tính của Eq. (2.3), chỉ ra rằng việc giảm thiểu giá trị trung bình
lỗi vuông
2
J (w) = [ ]
dẫn đến phương trình Wiener – Hopf
Rxxw = rdx
trong đó w là vectơ tham số của mô hình hồi quy. So sánh phương trình này với
phương trình bình thường của phương trình. (2,33).
2.5. Phương trình (2.47) biểu thị thước đo tự nhiên về hiệu quả của việc tính gần đúng
hàm F (x, wˆ ) như một yếu tố dự đoán phản ứng mong muốn d. Biểu thức này được tạo thành từ hai
các thành phần, một xác định độ lệch bình phương và một xác định phương sai. Xuất phát điều này
biểu thức, bắt đầu từ Eq. (2,46)
2.6. Xây dựng trên tuyên bố sau:
Một kiến trúc mạng, bị hạn chế thông qua việc kết hợp kiến thức trước đó, quảng cáo giải quyết tình trạng
tiến thoái lưỡng nan về phương sai-sai lệch bằng cách giảm phương sai với chi phí của sự thiên vị gia tăng.
2.7. Phương pháp của các biến công cụ được mô tả trong Eq. (2.57) cung cấp một tiệm cận
ước lượng không chệch của vectơ tham số chưa biết wˆ (N) ; đó là,
lim wˆ (N) = w
NS q
Chứng minh tính hợp lệ của tuyên bố này, giả sử tính sai lầm chung của biến hồi quy x và
phản ứng d.
THÍ NGHIỆM MÁY TÍNH
2.8. Lặp lại thử nghiệm phân loại mẫu được mô tả trong Phần 2.5, lần này thiết lập
hai mặt trăng ở rìa của phân cách tuyến tính, nghĩa là, d 0. Nhận xét về kết quả của bạn,
và so sánh chúng với những gì thu được trong Bài toán 1.6, liên quan đến perceptron.
2.9. Khi thực hiện các thí nghiệm trong Phần 2.5 và Bài toán 2.8, không có sự chính xác hóa
bao gồm trong phương pháp bình phương nhỏ nhất. Việc sử dụng chính quy có tạo ra sự khác biệt trong
hiệu suất của phương pháp bình phương nhỏ nhất không?
Để chứng minh câu trả lời của bạn cho câu hỏi này, hãy lặp lại thử nghiệm của Vấn đề 2.7, điều này
thời gian sử dụng thuật toán bình phương nhỏ nhất chính quy.
CHƯƠNG 3
Quảng trường Ít nhất Trung bình
Thuật toán
Trong chương này, chúng tôi mô tả một thuật toán học trực tuyến rất phổ biến được gọi
là thuật toán bình phương nhỏ nhất (LMS), được phát triển bởi Widrow và Hoff vào năm 1960.
1. Phần 3.1 là phần giới thiệu, tiếp theo là Phần 3.2 tạo tiền đề cho phần còn lại của
chương bằng cách mô tả bộ lọc thời gian rời rạc tuyến tính của đáp ứng xung thời gian hữu hạn.
2. Phần 3.3 xem xét hai kỹ thuật tối ưu hóa không bị giới hạn: phương pháp dốc nhất
descent và phương pháp của Newton.
3. Phần 3.4 xây dựng công thức bộ lọc Wiener, tối ưu theo nghĩa sai số trung bình-bình
phương. Theo truyền thống, hiệu suất trung bình của thuật toán LMS được đánh giá dựa
trên bộ lọc Wiener.
4. Phần 3.5 trình bày nguồn gốc của thuật toán LMS. Phần 3.6 mô tả một dạng modi fied của thuật toán LMS
như một mô hình Markov. Công cụ khác cần thiết để phân tích hội tụ của thuật toán là phương pháp tính
trung bình trực tiếp của Kushner; phương pháp này được thảo luận trong Phần 3.8. Phần 3.9 trình bày một
phân tích thống kê chi tiết của thuật toán; quan trọng nhất, nó chỉ ra rằng hành vi thống kê của thuật
toán (sử dụng một tham số tốc độ học nhỏ), trên thực tế, là phiên bản thời gian rời rạc của phương
trình Langevin.
5. Phần 3.10 trình bày một thí nghiệm máy tính xác nhận lý thuyết tốc độ học tập nhỏ của thuật toán LMS.
Phần 3.11 lặp lại thí nghiệm phân loại mẫu của Phần 1.5 trên perceptron, lần này sử dụng thuật toán LMS.
6. Phần 3.12 thảo luận về các ưu điểm và hạn chế của thuật toán LMS. Phần 3.13 thảo luận về vấn đề liên
quan của lịch trình ủ tỷ lệ học tập.
3.1 GIỚI THIỆU
Perceptron của Rosenblatt, được thảo luận trong Chương 1 , là thuật toán học đầu tiên để giải quyết vấn đề
phân loại mẫu có thể phân tách tuyến tính.
91
92 Chương 3 Thuật toán Bình phương Trung bình Ít nhất
thuật toán để giải quyết các vấn đề như dự đoán và chuyển đổi kênh giao tiếp bình
đẳng. Sự phát triển của thuật toán LMS thực sự được lấy cảm hứng từ perceptron.
Mặc dù khác nhau trong các ứng dụng, hai thuật toán này có chung một đặc điểm: Cả hai đều
liên quan đến việc sử dụng bộ kết hợp tuyến tính, do đó được gọi là "tuyến tính".
Điều đáng kinh ngạc về thuật toán LMS là nó đã tự thiết lập không chỉ là công cụ
cho các ứng dụng lọc thích ứng mà còn là tiêu chuẩn để đánh giá các thuật toán lọc
thích ứng khác.
• Về độ phức tạp tính toán, độ phức tạp của thuật toán LMS là tuyến tính đối với
các tham số có thể điều chỉnh, điều này làm cho thuật toán hiệu quả về mặt tính
toán, nhưng thuật toán lại hiệu quả về mặt hiệu suất. • Thuật toán đơn giản để
viết mã và do đó dễ xây dựng. • Trên hết, thuật toán mạnh mẽ đối với các nhiễu bên
ngoài.
Từ góc độ kỹ thuật, những phẩm chất này đều rất đáng mơ ước. Do đó, không có gì ngạc
nhiên khi thấy rằng thuật toán LMS đã chịu đựng được thử thách của thời gian.
Trong chương này, chúng ta rút ra thuật toán LMS ở dạng cơ bản nhất của nó và thảo luận
về các ưu điểm và hạn chế của nó. Quan trọng nhất, tài liệu được trình bày ở đây tạo tiền đề
cho thuật toán lan truyền ngược sẽ được thảo luận trong chương tiếp theo.
3.2 CẤU TRÚC LỌC CỦA THUẬT TOÁN LMS
Hình 3.1 cho thấy sơ đồ khối của một hệ động lực chưa biết được kích thích bởi một
vectơ đầu vào bao gồm các phần tử x1 (i), x2 (i), ..., xM (i), trong đó i biểu thị
thời điểm tại đó kích thích (kích thích) được áp dụng cho hệ thống.
HÌNH 3.1 (a) Hệ thống động lực không xác x1 (i)

Hệ thống
định. (b) Đồ thị luồng tín hiệu của mô hình
x2 (i) Đầu ra d
thích ứng cho hệ thống; biểu đồ thể hiện Đầu vào
• động lực
• (i)
một vòng phản hồi được thiết lập bằng màu sắc. • không xác định
xM (i)
(một)
x1 (i) w1 (i)
v (i) y (i)
x2 (i)
w2 (i)
1
•wM (i)
• e (i)
•
xM (i)
d (i)
(b)
Phần 3.2 Cấu trúc lọc của thuật toán LMS 93
tôi
1, 2, ..., n. Để đáp ứng với kích thích này, hệ thống tạo ra một sản lượng ký hiệu là y (i).
Do đó, hành vi bên ngoài của hệ thống được mô tả bởi tập dữ liệu
t: {x (i), d (i); i = 1, 2, ...., n, ...} (3,1)
ở đâu
x (i) = [x1 (i), x2 (i), ..., xM (i)] T (3.2)
Các cặp mẫu tạo thành t được phân phối giống nhau theo một luật xác suất chưa biết. Thứ nguyên M liên quan đến
vectơ đầu vào x (i) được gọi là chiều của không gian đầu vào, hoặc đơn giản là chiều đầu vào.
Vectơ kích thích x (i) có thể phát sinh theo một trong hai cách khác nhau về cơ bản, một
không gian và thời gian khác:
• M phần tử của x (i) xuất phát tại các điểm khác nhau trong không gian; trong trường hợp này, chúng tôi nói
của x (i) dưới dạng ảnh chụp nhanh dữ liệu.
• M phần tử của x (i) đại diện cho tập hợp các giá trị hiện tại và (M - 1) quá khứ của
một số kích thích được cách đều nhau về thời gian.
Vấn đề mà chúng tôi giải quyết là làm thế nào để thiết kế một mô hình nhiều đầu vào-một đầu ra của hệ
thống động chưa biết bằng cách xây dựng nó xung quanh một nơ-ron tuyến tính duy nhất. Mô hình nơ-ron hoạt động
dưới ảnh hưởng của một thuật toán kiểm soát các điều chỉnh cần thiết đối với trọng số tiếp hợp của nơ-ron, với
các điểm sau:
• Thuật toán bắt đầu từ một thiết lập tùy ý trọng số tiếp hợp của nơ-ron. • Các điều chỉnh đối với trọng
số của khớp thần kinh để đáp ứng với các biến thể thống kê trong hành vi của hệ thống được thực hiện liên
tục (nghĩa là thời gian được đưa vào cấu thành của thuật toán).
• Tính toán các điều chỉnh đối với trọng số khớp thần kinh được hoàn thành bên trong
khoảng thời gian dài một chu kỳ lấy mẫu.
Mô hình thần kinh vừa được mô tả được gọi là một bộ lọc thích ứng. Mặc dù mô tả được trình bày trong bối cảnh
nhiệm vụ được công nhận rõ ràng là một trong những nhận dạng hệ thống, nhưng đặc điểm của bộ lọc thích ứng là
đủ chung để có ứng dụng rộng rãi.
Hình 3.1b cho thấy đồ thị luồng tín hiệu của bộ lọc thích ứng. Hoạt động của nó bao gồm hai quá trình
liên tục:
1. Quá trình lọc, bao gồm việc tính toán hai tín hiệu:
• một đầu ra, ký hiệu là y (i), được tạo ra để đáp ứng với M phần tử của vectơ kích thích x (i), cụ thể
là x1 (i), x2 (i), ..., xM (i); • một tín hiệu lỗi, ký hiệu là e (i), nhận được bằng cách so sánh
đầu ra y (i) với đầu ra tương ứng d (i) được tạo ra bởi hệ thống chưa biết. Trên thực tế, d (i) hoạt
động như một phản hồi mong muốn hoặc tín hiệu mục tiêu .
2. Quá trình thích ứng, bao gồm việc tự động điều chỉnh trọng lượng tiếp hợp của nơ-ron phù hợp với tín hiệu
lỗi e (i).
Do đó, sự kết hợp của hai quá trình này làm việc cùng nhau tạo thành một vòng phản hồi hoạt động xung
quanh nơ-ron, như trong Hình 3.1b.
Vì nơron là tuyến tính, đầu ra y (i) hoàn toàn giống với trường cục bộ cảm ứng v (i); đó là,
y (i) = v (i) = a wk (i) xk (i) (3.3)

k = 1
trong đó w1 (i), w2 (i), ..., wM (i) là trọng số tiếp hợp M của nơron, được đo tại thời điểm i. Ở dạng
ma trận, chúng ta có thể biểu thị y (i) dưới dạng tích bên trong của các vectơ x (i) và w (i) dưới
dạng
y (i) = xT (i) w (i) (3,4)
ở đâu
w (i) = [w1 (i), w2 (i), ..., wM (i)] T
Lưu ý rằng ký hiệu cho trọng số khớp thần kinh đã được đơn giản hóa ở đây bằng cách không bao gồm một
chỉ số phụ bổ sung để xác định nơ-ron, vì chúng ta chỉ có một nơ-ron duy nhất để xử lý. Thực hành này
được tuân theo trong suốt cuốn sách, bất cứ khi nào một tế bào thần kinh đơn lẻ có liên quan. Đầu ra
của nơ-ron y (i) được so sánh với đầu ra tương ứng d (i) nhận được từ hệ thống chưa biết tại thời điểm
i. Thông thường, y (i) khác với d (i); do đó, so sánh của chúng dẫn đến tín hiệu lỗi
e (i) = d (i) - y (i) (3.5)
Cách thức mà tín hiệu lỗi e (i) được sử dụng để điều khiển các điều chỉnh đối với trọng số synap của
neu ron được xác định bởi hàm chi phí được sử dụng để rút ra thuật toán lọc thích ứng được quan tâm.
Vấn đề này liên quan chặt chẽ đến vấn đề tối ưu hóa. Do đó, việc trình bày đánh giá các phương pháp
tối ưu hóa không bị giới hạn là thích hợp.
Vật liệu này không chỉ có thể áp dụng cho các bộ lọc thích ứng tuyến tính mà còn cho các mạng nơ-
ron nói chung.
3.3 TỐI ƯU HÓA KHÔNG ĐƯỢC QUẢN LÝ: ĐÁNH GIÁ
Hãy xem xét một hàm chi phí e (w) là một hàm phân biệt liên tục của một vectơ trọng số (tham số) nào
đó w chưa biết. Hàm e (w) ánh xạ các phần tử của w thành các số thực. Nó là thước đo cách chọn vector
trọng số (tham số) w của một thuật toán lọc thích ứng để nó hoạt động theo cách tối ưu. Chúng tôi muốn
tìm một giải pháp tối ưu w * thỏa mãn điều kiện
e (w *) e (w) (3.6)
Đó là, chúng ta cần giải quyết một vấn đề tối ưu hóa không bị giới hạn, được nêu như sau:
.
Giảm thiểu hàm chi phí (w) eđối với vectơ trọng số w
Điều kiện cần thiết cho sự tối ưu là
§E (w *) = 0 (3,7)
Phần 3.3 Tối ưu hóa không giới hạn: Đánh giá 95
trong đó § là toán tử gradient,
0 0
, , ..., d T (3,8)
§ = c 00w1 0w2 0wM
và §e (w) là vectơ gradient của hàm chi phí,
0e 0e
, , ..., d T (3,9)
§E (w) = c 0e
0w1 0w2 0wM
(Sự khác biệt đối với một vectơ được thảo luận trong Chú thích 1 ở cuối chương này.)
Một loại thuật toán tối ưu hóa không bị giới hạn đặc biệt phù hợp cho
thiết kế của các bộ lọc thích ứng dựa trên ý tưởng về nguồn gốc lặp đi lặp lại cục bộ:
Bắt đầu với một phỏng đoán ban đầu được ký hiệu là w (0), tạo ra một chuỗi các vectơ trọng số w
(2), ... , (1),
được sao
hiểncho
thịhàm
bởichi phí e (w) được giảm ở mỗi lần lặp lại của thuật toán, như w
e (w (n + 1)) 6 e (w (n)) (3.10)
trong đó w (n) là giá trị cũ của vector trọng số và w (n 1) là giá trị cập nhật của nó.
Chúng tôi hy vọng rằng thuật toán cuối cùng sẽ hội tụ thành giải pháp tối ưu w *. Chúng tôi
nói "hy vọng" bởi vì có một khả năng rõ ràng là thuật toán sẽ phân kỳ (tức là trở nên không
ổn định) trừ khi thực hiện các biện pháp phòng ngừa đặc biệt.
Trong phần này, chúng tôi mô tả ba phương pháp tối ưu hóa không bị giới hạn dựa vào
về ý tưởng về nguồn gốc lặp đi lặp lại dưới hình thức này hay hình thức khác (Bertsekas, 1995).
Phương pháp xuống dốc nhất
Trong phương pháp xuống dốc nhất, các điều chỉnh liên tiếp được áp dụng cho trọng
lượng vec tor w theo hướng xuống dốc nhất, nghĩa là theo hướng ngược lại với vectơ
gradient
§E (w) . Để tiện trình bày, chúng tôi viết
g = §e (w) (3,11)
Theo đó, thuật toán dốc nhất được mô tả chính thức bởi
w (n + 1) = w (n) - g (n) (3,12)
trong đó là một hằng số dương được gọi là kích thước bước, hoặc tốc độ học, tham số và
g (n) là vectơ gradient được đánh giá tại điểm w (n). Khi đi từ lần lặp n đến lần thứ
n 1, thuật toán áp dụng hiệu chỉnh
¢ w (n) = w (n + 1) - w (n) (3,13)
= - g (n)
Công thức (3.13) trên thực tế là một tuyên bố chính thức của quy tắc sửa lỗi được mô tả
trong chương giới thiệu.
Để chỉ ra rằng công thức của thuật toán dốc nhất thỏa mãn khái niệm của Eq.
(3.10) để giảm dần lặp đi lặp lại, chúng tôi sử dụng khai triển chuỗi Taylor bậc nhất
xung quanh w (n) để gần đúng e (w (n + 1)) như
e (w (n + 1)) L e (w (n)) + gT (n) ¢ w (n)
việc sử dụng trong số đó là hợp lý cho việc nhỏ. Thay thế Eq. (3.13)2vào mối quan hệ gần đúng này
mang lại kết quả
e (w (n + 1)) L e (w (n)) - gT (n) g (n)
= e (w (n)) - 7 g (n) 7
điều này cho thấy rằng, đối với một tham số tốc độ học tập dương, hàm chi phí sẽ giảm
khi thuật toán tiến triển từ lần lặp này sang lần lặp khác.
Phương pháp đi xuống dốc nhất hội tụ từ từ đến giải pháp tối ưu . Hơn nữa,
tham số tốc độ học tập có ảnh hưởng sâu sắc đến hành vi hội tụ của nó:
• Khi nhỏ, phản ứng nhất thời của thuật toán bị chặn quá mức, trong đó quỹ đạo do
w (n) truy tìm đi theo một đường trơn trong mặt phẳng w, như được minh họa
trong Hình 3.2a.
• Khi lớn, phản ứng nhất thời của thuật toán bị hạn chế , trong đó quỹ đạo của w (n)
đi theo một đường ngoằn ngoèo (dao động), như được minh họa trong Hình 3.2b. •
Khi vượt quá một giá trị tới hạn nhất định, thuật toán trở nên không ổn định (tức là nó
phân kỳ).
Phương pháp Newton
Đối với một kỹ thuật tối ưu hóa phức tạp hơn, chúng ta có thể tìm đến phương pháp của
Newton, ý tưởng cơ bản của nó là giảm thiểu xấp xỉ bậc hai của hàm chi phí e (w) xung
quanh
điểm hiện tại w (n); việc tối thiểu hóa này được thực hiện ở mỗi lần lặp lại thuật
toán. Cụ thể, bằng cách sử dụng khai triển chuỗi Taylor bậc hai của hàm giá trị xung
quanh điểm w (n), chúng ta có thể viết
¢ e (w (n)) = e (w (n + 1)) - e (w (n))
1 (3,14)
L gT (n) ¢ w (n) + ¢ wT (n) H (n) ¢ w (n)
2
Như trước đây, g (n) là vectơ gradient M-x-1 của hàm chi phí e (w) được đánh giá tại
tại điểm w (n). Ma trận H (n) là m-x-m Hessian của e (w) e (w)
, cũng được đánh giá tại w (n).
Hessian của được xác định bởi H = §2 e
(w) 1
02 02 e 02 e
2 . . .
e 0w2 0w10w2 0w10wM 02
02 02 e e
. . . (3,15)
e 0w20w1 0w20wM 0w2
o ooo 02 e
=
≥ M ¥
02 02 e
. . .
0wM0w1 e 0wM0w2 0w2

4.0
0,0
h nhỏ
n 0 n
1 n 2
4.0
4.0 0,0 4.0
w1 (n)
(a)
4.0
0,0
n 0 n
1 n 2
lớn h
4.0
4.0 0,0 4.0
w1 (n)
(b)
HÌNH 3.2 Quỹ đạo của phương pháp đi xuống dốc nhất trong không gian hai chiều cho hai giá trị khác nhau
của tham số tốc độ học: (a) nhỏ (b) lớn. Tọa độ w1 và w2 là phần tử của vectơ trọng số w; cả hai đều
nằm trên mặt phẳng w.
Phương trình (3.15) yêu cầu hàm chi phí e (w) phải phân biệt liên tục hai lần đối với các phần tử của w.
Phân biệt 1 Eq. (3.14) đối với w, chúng tôi giảm thiểu thay đổi kết quả ¢ e (w) khi
g (n) + H (n) ¢ w (n) = 0
Giải phương trình này cho w (n) thu được ¢ w
(n) = -H-1 (n) g (n)
Đó là,
w (n + 1) = w (n) + ¢ w (n) = w (n)

(3,16)
- H-1 (n) g (n)
trong đó H-1 (n) là nghịch đảo của Hessian của e (w) .
Nói chung, phương pháp Newton hội tụ một cách nhanh chóng tiệm cận và không
biểu hiện hành vi ngoằn ngoèo mà đôi khi đặc trưng cho phương pháp dốc est xuống.
Tuy nhiên, để phương pháp của Newton hoạt động, Hessian H (n) phải là một ma trận
xác định dương với mọi n. Thật không may, nói chung, không có gì đảm bảo rằng H (n)
là xác định dương tại mọi lần lặp của thuật toán. Nếu Hessian H (n) không phải là
xác định dương, việc sửa đổi phương pháp của Newton là cần thiết (Powell, 1987; Bertsekas, 199
Trong mọi trường hợp, một hạn chế chính của phương pháp Newton là độ phức tạp tính toán của nó.
Phương pháp Gauss – Newton
Để đối phó với độ phức tạp tính toán của phương pháp Newton mà không ảnh hưởng nghiêm
trọng đến hành vi hội tụ của nó, chúng ta có thể sử dụng phương pháp Gauss – Newton. Để
áp dụng phương pháp này, chúng tôi áp dụng một hàm chi phí được biểu thị bằng tổng bình
phương lỗi. Để cho
N
1
e (w) = a e2 (i) (3,17)
2
i = 1
trong đó hệ số tỷ lệ được bao

1 2 gồm để đơn giản hóa các vấn đề trong phân tích tiếp theo. Tất cả
các thuật ngữ sai số trong công thức này được tính toán trên cơ sở vectơ trọng lượng w được cố
định trong toàn bộ khoảng thời gian quan sát 1 tôi N.
Tín hiệu sai số e (i) là một hàm của vectơ trọng lượng có thể điều chỉnh w. Với một điểm
hoạt động w (n), chúng tôi tuyến tính hóa sự phụ thuộc của e (i) vào w bằng cách đưa vào thuật ngữ mới
0e (i)
* (w - w (n)), w = i = 1, 2, ..., N
e¿ (i, w) = e (i) + c 0w ngày wT (n)
Tương tự, bằng cách sử dụng ký hiệu ma trận, chúng ta có thể viết
e¿ (n, w) = e (n) + J (n) (w - w (n)) (3,18)
trong đó e (n) là vectơ lỗi
e (n) = [e (1), e (2), ..., e (n)] T

và J (n) là Jacobian thứ n của e (n): 0e (1)
0e (1) 0e (1)
. . .
0w1 0w2 0wM
0e (2) 0e 0e (2)
. . .
J (n) =
≥ (2) 0w1 0w2
0wM oo o 0e (n) 0e
(3,19)
(n) 0w1 0w2
0e (n)
. . .
0wM ¥ w = w (n)
Jacobian J (n) là phép chuyển vị của ma trận gradient m-x-n §e (n) ,ở đâu
§E (n) = [§e (1), §e (2), ..., §e (n)]
Vectơ trọng lượng cập nhật w (n 1) hiện được xác định bởi
7 e¿ (n, w) 2 f (3,20)
w (n + 1) = arg minW e 1 7 2
Sử dụng Eq. (3.18) để đánh giá tiêu chuẩn Euclid bình phương của e (n, w), chúng ta nhận được
2 2
=
1 7 e¿ (n, w) 7 2 1 7 e (n) 7 2 + eT (n) J (n) (w - w (n))
1
+ (w - w (n)) TJT (n) J (n) (w - w (n))
2
Do đó, phân biệt biểu thức này với w và đặt kết quả bằng 0, chúng ta thu được
JT (n) e (n) + JT (n) J (n) (w - w (n)) = 0
Do đó, giải phương trình này cho w, chúng ta có thể viết theo phương trình.
3,20, w (n + 1) = w (n) - (JT (n) J (n)) - 1 JT (n) e (n) (3,21)
trong đó mô tả dạng thuần túy của phương pháp Gauss – Newton.

Không giống như phương pháp của Newton, yêu cầu kiến thức về Hessian của
hàm e (n) ,chi phí, phương pháp Gauss – Newton chỉ yêu cầu Jacobian của vectơ
lỗi e (n). Tuy nhiên, để phép lặp Gauss – Newton có thể tính toán được, thì tích
ma trận JT (n) J (n) phải là nonsingular.
Liên quan đến điểm thứ hai, chúng tôi nhận ra rằng JT (n) J (n) luôn là
định nghĩa không âm. Để đảm bảo rằng nó là không cần chú ý, Jacobian J (n) phải
có hàng xếp hạng n; nghĩa là n hàng J (n) trong phương trình. (3.19) phải độc
lập tuyến tính. Thật không may, không có gì đảm bảo rằng điều kiện này sẽ luôn
duy trì. Để đề phòng khả năng J (n) bị thiếu thứ hạng, thông lệ là thêm ma trận
đường chéo δI vào ma trận JT (n) J (n), trong đó I là ma trận nhận dạng. lừa đảo
stant được chọn để đảm bảo rằng
JT (n) J (n) + I là xác định dương với mọi n

Trên cơ sở này, phương pháp Gauss – Newton được thực hiện ở dạng sửa đổi đôi chút w (n + 1) = w (n)
- (JT (n) J (n) + I) -1 JT (n) e (n) (3,22)
Hiệu quả của số hạng được thêm vào δI giảm dần khi số lần lặp lại, n, được tăng
lên. Cũng lưu ý rằng phương trình đệ quy (3.22) là nghiệm của hàm chi phí đã sửa
đổi
N
1 e (w) = i = 1 e2 (i) + 7 w - w (n) 7 2 f (3,23)

2 e a
trong đó w (n) là giá trị hiện tại của vectơ trọng lượng w (i).
Trong các tài liệu về xử lý tín hiệu, việc bổ sung thuật ngữ δI trong Eq. (3.22)
được gọi là tải theo đường chéo. Việc bổ sung thuật ngữ này được tính bằng cách mở rộng
hàm chi phí e (w) theo
ta cócách
hai được
thuậtmôngữ
tả (bỏ
trong
quaphương
hệ số trình.
tỷ lệ):(3.23), trong đó bây giờ chúng
1 2
(i) • Số hạng đầu tiên,

i = g
1 e2 , là tổng tiêu chuẩn của sai số bình phương, phụ thuộc vào
dữ liệu đào tạo. • 2
Số hạng thứ hai chứa định mức Euclid bình phương, 7 w - w (n) 7 phụ thuộc vào , cái mà
cấu trúc bộ lọc. Trên thực tế, thuật ngữ này hoạt động như một chất ổn định.
Hệ số tỷ lệ δ thường được gọi là tham số chính quy hóa, và việc sửa đổi kết quả
của hàm chi phí tương ứng được gọi là quá trình lari hóa cấu trúc. Vấn đề chính
quy hóa được thảo luận rất chi tiết trong Chương 7.
3.4 BỘ LỌC WIENER
Công cụ ước lượng bình phương nhỏ nhất thông thường đã được thảo luận trong Chương 2,
nơi phương pháp truyền thống để tối thiểu hóa được sử dụng để tìm giải pháp bình
phương nhỏ nhất từ một mô hình quan sát của môi trường. nó là bộ lọc bình phương nhỏ
nhất. Hơn nữa, chúng tôi sẽ xác định lại công thức cho bộ lọc này bằng cách sử dụng
phương pháp Gauss – Newton.
Để tiếp tục sau đó, chúng tôi sử dụng Eqs. (3.3) và (3.4) để xác định vectơ lỗi là
(n) e (n) = d (n) - [x (1), x (2), ...

, x (n)] Tw
(3,24)
= d (n) - X (n) w (n)
trong đó d (n) là n-x-1 vectơ phản hồi mong muốn, d (n)
= [d (1), d (2), ..., d (n)] T
và X (n) là ma trận dữ liệu n-x-M , X (n)
= [x (n), x (2), ..., x (n)] T
Phân biệt vectơ lỗi e (n) với w (n) tạo ra ma trận gradient
§E (n) = -XT (n)

Phần 3.4 Bộ lọc Wiener 101
Tương ứng, Jacobian của e (n) là
J (n) = -X (n) (3,25)
Vì phương trình sai số (3.18) đã là tuyến tính trong vectơ trọng số w (n), nên phương pháp
Gauss – Newton hội tụ trong một lần lặp duy nhất, như được hiển thị ở đây. Thay thế Eqs.
(3,24) và (3,25) thành (3,21) cho kết quả
w (n + 1) = w (n) + (XT (n) X (n)) - 1 XT (n) (d (n) - X (n) w (n))

(3,26)
= (XT (n) X (n)) - 1 XT (n) d (n)
Số hạng (XT (n) X (n)) - 1 XT (n) được gọi là nghịch đảo của ma trận dữ liệu X (n); đó là, 2
X + (n) = (XT (n) X (n)) - 1 XT (n) (3,27)
Do đó, chúng tôi có thể viết lại Eq. (3.26) ở dạng thu gọn
w (n + 1) = X + (n) d (n) (3,28)
Công thức này đại diện cho một cách thuận tiện để nêu những điều sau:
Vectơ trọng số w (n + 1) giải bài toán bình phương nhỏ nhất tuyến tính, được xác định
trong một khoảng thời gian quan sát n, là tích của hai số hạng: nghịch đảo X (n) và vectơ
phản ứng mong muốn d (n).
Bộ lọc Wiener: Dạng giới hạn của hình vuông nhỏ nhất
Bộ lọc cho một môi trường Ergodic
Gọi wo biểu thị dạng giới hạn của bộ lọc bình phương nhỏ nhất là số quan sát, n, được
phép tiến đến vô cùng. Sau đó, chúng tôi có thể sử dụng Eq. (3.26) để viết
wo = lim w (n + 1)
nS q
= lim (XT (n) X (n)) - 1 XT (n) d (n)

nS q
-1
1
= lim * lim XT (n) d (n) (3,29)
nS q a N1 XT (n) X (n) b nS q N
Giả sử bây giờ vectơ đầu vào x (i) và phản hồi mong muốn tương ứng d (i) được vẽ từ
một môi trường công thái học chung cũng là tĩnh. Sau đó, chúng tôi có thể phụ các mức trung
bình thời gian chờ cho các mức trung bình của tổng thể. Theo định nghĩa, dạng trung bình
cộng của ma trận tương quan của vectơ đầu vào x (i) là
Rxx = [x (i) xT (i)] (3,30)
và tương ứng, dạng trung bình tổng thể của vectơ tương quan chéo giữa vectơ đầu
vào x (i) và vectơ phản hồi mong muốn d (i) là
rdx = [x (i) d (i)] (3,31)
toán tử kỳ vọng ở đâu. Do đó, theo giả định về độ tin cậy, bây giờ chúng ta có thể
viết
1
Rxx = lim X (n) XT (n)
nS q N
và
rdx = lim XT (n) d (n)

nS q
Do đó, chúng tôi có thể viết lại Eq. (3.29) xét về các tham số tương quan trung
bình tổng thể như
wo = R-1 xxrdx (3,32)
trong đó R-1
xx là nghịch đảo của ma trận tương quan Rxx. Công thức của Eq. (3.32) là phiên bản trung
bình cộng của giải pháp bình phương nhỏ nhất được xác định trong phương trình. (2,32).
Vectơ trọng số wo được gọi là giải pháp Wiener cho bài toán lọc tuyến tính
tối ưu (Widrow và Stearns, 1985; Haykin, 2002). Do đó, chúng tôi có thể làm cho
bản tường trình:
Đối với quy trình công thái học, bộ lọc bình phương nhỏ nhất tiệm cận bộ lọc Wiener
khi số lượng quan sát tiến đến vô cùng.
Thiết kế bộ lọc Wiener yêu cầu kiến thức về thống kê bậc hai: ma trận tương
quan Rxx của vectơ đầu vào x (n) và vectơ tương quan chéo rxd giữa x (n) và phản
hồi mong muốn d (n). Tuy nhiên, thông tin này không có sẵn khi môi trường mà bộ lọc
hoạt động là không xác định. Chúng tôi có thể đối phó với môi trường như vậy bằng
cách sử dụng bộ lọc thích ứng tuyến tính, thích ứng theo nghĩa là bộ lọc có thể
điều chỉnh các thông số tự do của nó để đáp ứng với các biến thể thống kê trong môi trường.
Một thuật toán rất phổ biến để thực hiện loại điều chỉnh này trên cơ sở thời gian liên tục là
thuật toán bình phương nhỏ nhất, sẽ được thảo luận tiếp theo.
3.5 THUẬT TOÁN VUÔNG GÓC NHỎ NHẤT
Thuật toán bình phương nhỏ nhất (LMS) được định cấu hình để giảm thiểu giá trị tức
thời của hàm chi phí,
1
e (wˆ ) = e2 (n) (3,33)
2
(wˆ ) trong đó e (n) là tín hiệu sai số được đo tại thời điểm n. Phân biệt đốie với wˆ vectơ trọng
lượng thu được
0e (wˆ ) 0e (n) = e (n)

0wˆ (3,34)
0w
Giống như bộ lọc bình phương nhỏ nhất, thuật toán LMS hoạt động với một nơ-ron tuyến tính, vì vậy chúng
tôi có thể biểu thị tín hiệu lỗi như
e (n) = d (n) - xT (n) wˆ (n) (3,35)
Kể từ đây,
0e
(n) = -x (n)
0wˆ (n)
Phần 3.5 Thuật toán bình phương tối thiểu 103
và
0e (wˆ )
= -x (n) e (n)
0wˆ (n)
Sử dụng kết quả sau này làm ước lượng tức thời của vectơ gradient, chúng ta có thể viết
gˆ (n) = -x (n) e (n) (3,36)
Cuối cùng, sử dụng Eq. (3.36) cho vectơ gradient trong phương trình. (3.12) đối với phương pháp dốc nhất
xuống, chúng tôi có thể xây dựng thuật toán LMS như sau:
wˆ (n + 1) = wˆ (n) + x (n) e (n) (3,37)
Cũng cần lưu ý rằng nghịch đảo của tham số tốc độ học tập đóng vai trò như một thước đo
,
của bộ nhớ của thuật toán LMS: Càng nhỏ, chúng tôi làm cho bộ nhớ càng dài
khoảng thời gian mà thuật toán LMS sẽ ghi nhớ dữ liệu trong quá khứ. Do đó, khi ở mức nhỏ, thuật
toán LMS thực hiện chính xác, nhưng tốc độ hội tụ của nhịp điệu thuật toán chậm.
Trong suy ra phương trình. (3.37), chúng tôi đã sử dụng wˆ (n) thay cho w (n) để nhấn mạnh thực tế
rằng thuật toán LMS tạo ra ước tính tức thời về vectơ trọng lượng
sẽ là kết quả của việc sử dụng phương pháp dốc nhất.
thuật toán LMS, chúng tôi hy sinh một tính năng đặc biệt của thuật toán dốc nhất.
Trong thuật toán dốc nhất, vectơ trọng số w (n) tuân theo một đồ thị được xác định rõ trong không
gian trọng số w cho một quy định. Ngược lại, trong thuật toán LMS,
vectơ trọng lượngwˆ
vạch
(n) một quỹ đạo ngẫu nhiên. Vì lý do này, thuật toán LMS là
đôi khi được gọi là “thuật toán gradient ngẫu nhiên”. Là số lần lặp lại
trong thuật toán LMS tiếp cận đến vô cùng, thực hiện
wˆ một
(n) bước đi ngẫu nhiên (Brownian
chuyển động) về giải pháp Wiener wo. Tuy nhiên, điểm quan trọng cần lưu ý là thực tế
rằng, không giống như phương pháp dốc nhất, thuật toán LMS không yêu cầu bí quyết thống kê của môi
trường. Tính năng này của thuật toán LMS rất quan trọng từ góc độ thực tế.
Bản tóm tắt của thuật toán LMS, dựa trên Eqs. (3.35) và (3.37), được trình bày trong
Bảng 3.1, minh họa rõ ràng tính đơn giản của thuật toán. Như được chỉ ra trong này
bảng, việc khởi tạo thuật toán được thực hiện bằng cách đơn giản đặt giá trị của trọng số
vectơ wˆ (0) = 0 .
BẢNG 3.1 Tóm tắt thuật toán LMS
Mẫu đào tạo: Vectơ tín hiệu đầu vào x (n)

Câu trả lời mong muốn d (n)
Tham số do người dùng

chọn: Khởi tạo. Đặt(0)
wˆ = 0 .
Tính toán. Đối với 1, n2,= ..., com pute
e (n) = d (n) - wˆ T (n) x (n)
wˆ (n + 1) = wˆ (n) + x (n) e (n)

HÌNH 3.3 Biểu diễn đồ thị luồng

tín hiệu của thuật toán LMS.
Biểu đồ thể hiện phản hồi được
mô tả bằng màu sắc. ˆ
hx (n) d (n) w (n 1)
ˆ
Σ z1 Tôi w (n)
hx (n) xT (n)
Biểu diễn luồng tín hiệu của thuật toán LMS
Bằng cách kết hợp các Eqs. (3.35) và (3.37), chúng ta có thể biểu thị sự phát triển của vectơ
trọng số trong thuật toán LMS là wˆ (n + 1) = wˆ (n) + x (n) [d (n) - xT (n) wˆ ( N)]
(3,38)
= [I - x (n) xT (n)] wˆ (n) + x (n) d (n)
trong đó tôi là ma trận nhận dạng. Khi sử dụng thuật toán LMS, chúng tôi nhận ra rằng
wˆ (n) = z-1 [wˆ (n + 1)] (3.39) trong đó z-1 là toán tử thời
gian trễ đơn vị, ngụ ý lưu trữ. Sử dụng Eqs. (3.38) và (3.39), do đó chúng ta có thể biểu diễn
thuật toán LMS bằng biểu đồ luồng tín hiệu được mô tả trong Hình 3.3.
Biểu đồ luồng tín hiệu này tiết lộ rằng thuật toán LMS là một ví dụ của hệ thống nguồn cấp dữ
liệu ngẫu nhiên trở lại. Sự hiện diện của phản hồi có tác động sâu sắc đến hành vi hội tụ của
thuật toán LMS.
3.6 MÔ HÌNH MARKOV XỬ LÝ CHỮ VIẾT TẮT CỦA CÁC LMS

THUẬT TOÁN TỪ BỘ LỌC WIENER
Để thực hiện phân tích thống kê của thuật toán LMS, chúng tôi thấy thuận tiện hơn khi làm việc
với vectơ lỗi trọng số, được xác định bởi
(n) = wo - wˆ (n) (3,40)
(n) trong đó wo là nghiệm Wiener tối ưu được xác định bởi phương trình. (3.32) và làwˆước lượng
tương ứng của vectơ trọng số được tính bằng thuật toán LMS. Vì vậy,
Phần 3.6 Mô hình Markov phác họa độ lệch của thuật toán LMS 105
f (n) HÌNH 3.4 Biểu diễn đồ thị luồng

tín hiệu của mô hình Markov được
mô tả trong phương trình. (3,41);
biểu đồ thể hiện phản hồi được mô tả
Một)
bằng màu sắc.
d (N) d (n 1)
z 1I
về hình thức (n), giả sử vai trò của một trạng thái, chúng ta có thể viết lại phương trình. (3.38) trong com
hiệp ước
(n + 1) = A (n) (n) + f (n) (3,41)
Ở đây chúng tôi có
A (n) = I - x (n) xT (n) (3.42) trong đó I là ma trận nhận
dạng. Thuật ngữ nhiễu cộng trong vế phải của phương trình. (3.41) được định nghĩa bởi
f (n) = - x (n) eo (n) (3,43)
ở đâu
eo (n) = d (n) - wT ox (n) (3,44)
là lỗi ước tính do bộ lọc Wiener tạo ra.

Phương trình (3.41) đại diện cho mô hình Markov của thuật toán LMS, với mô hình
được đặc trưng như sau:
• Trạng thái cập nhật của mô hình, ký hiệu là vectơ (n + 1), phụ thuộc vào cũ với sự phụ
tiểu bang
(N) ,thuộc chính nó được xác định bởi ma trận chuyển tiếp A (n).
• Sự tiến hóa của trạng thái theo thời gian n bị nhiễu bởi tiếng ồn được tạo ra từ bản chất
f (n), hoạt động như một “động lực”.
Hình 3.4 cho thấy biểu diễn đồ thị luồng tín hiệu có giá trị vectơ của mô hình này. Nhánh có
nhãn z-1 I đại diện cho bộ nhớ của mô hình, với z-1 hoạt động như toán tử thời gian trễ đơn vị,
như được hiển thị bằng
z-1 [(n + 1)] = (n) (3,45)
Hình này làm nổi bật sự hiện diện của phản hồi trong thuật toán LMS theo cách nhỏ gọn
hơn so với trong Hình 3.3.
Biểu đồ luồng tín hiệu của Hình 3.4 và các phương trình kèm theo cung cấp khuôn
khổ cho việc phân tích hội tụ của thuật toán LMS với giả định là một tham số tốc độ
học tập nhỏ. Tuy nhiên, trước khi tiếp tục phân tích này, chúng tôi sẽ trình bày ngắn
gọn để trình bày hai cơ sở xây dựng với mục tiêu đó: phương trình Langevin, được
trình bày trong Phần 3.7, tiếp theo là phương pháp tính trung bình trực tiếp của
Kushner, được trình bày trong Phần 3.8. Với hai khối xây dựng đó trong tay, chúng ta
sẽ tiếp tục nghiên cứu phân tích hội tụ của thuật toán LMS trong Phần 3.9.
3.7 THIẾT BỊ NGÔN NGỮ: ĐẶC ĐIỂM

CỦA ĐỘNG LỰC BROWNIAN
Trình bày lại các nhận xét được đưa ra ở cuối Phần 3.5 theo các thuật ngữ chính xác
hơn trong chừng mực có liên quan đến sự ổn định hoặc hội tụ, chúng ta có thể nói
rằng thuật toán LMS (đủ nhỏ) không bao giờ đạt được điều kiện hoàn toàn ổn định
hoặc hội tụ. Thay vào đó, sau một số lượng lớn các lần lặp, n, thuật toán tiến tới
điều kiện "cân bằng giả", về mặt định tính, được mô tả bằng thuật toán thực hiện
chuyển động Brown xung quanh giải pháp Wiener. Phương trình Langevin của nhiệt động
lực học không cân bằng.3 Vì vậy, chúng tôi sẽ thực hiện một phép phân tích ngắn gọn
để giới thiệu phương trình quan trọng này.
Gọi v (t) là vận tốc của một hạt vĩ mô khối lượng m ngâm trong chất lỏng nhớt.
Giả thiết rằng hạt đủ nhỏ để vận tốc của nó do các dao động nhiệt độ được coi là
đáng kể. Sau đó, từ định luật phân chia của nhiệt động lực học, năng lượng trung
bình của hạt được cho bởi
1
[v2 (t)] = 1 kBT trong tất cả thời gian liên tục t (3,46)
2 2
trong đó kB là hằng số Boltzmann và T là nhiệt độ tuyệt đối . Tổng lực tác dụng lên
hạt bởi các phân tử trong chất lỏng nhớt được tạo thành từ hai thành phần:
(i) lực giảm chấn liên tục bằng - v (t) theo định luật Stoke, trong đó
là hệ số ma sát;
(ii) một lực dao động Ff (t), mà các đặc tính của nó được xác định trên giá trị trung bình.
Do đó, phương trình chuyển động của hạt khi không có ngoại lực cho bởi
dv
m = - v (t) + Ff (t)
dt
Chia cả hai vế của phương trình này cho m, ta được

dv
= - v (t) + (t) (3,47)
dt
ở đâu
=
(3,48)
m
và
Ff
(t) (t) = (3,49)
m
Thuật ngữ Γ (t) là lực dao động trên một đơn vị khối lượng; nó là một lực ngẫu nhiên bởi
vì nó phụ thuộc vào vị trí của một số lượng cực lớn các nguyên tử cấu thành nên hạt, chúng
ở trong trạng thái chuyển động liên tục và không đều. Phương trình (3.47) được gọi là
phương trình Langevin, và Γ (t) được gọi là lực Langevin. Phương trình Langevin, mô tả
chuyển động của hạt trong chất lỏng nhớt tại mọi thời điểm (nếu điều kiện ban đầu của nó
được xác định cụ thể), là phương trình toán học đầu tiên mô tả nhiệt động lực học không cân bằng.
Phần 3.8 Phương pháp Trung bình Trực tiếp của Kushner 107
Trong Phần 3.9, chúng tôi chỉ ra rằng một phiên bản đã biến đổi của thuật toán LMS có
cùng dạng toán như phiên bản thời gian rời rạc của phương trình Langevin. Nhưng mà,
trước khi làm điều đó, chúng ta cần mô tả khối xây dựng tiếp theo của chúng ta.
3.8 PHƯƠNG PHÁP HÀNG KHÔNG TRỰC TIẾP CỦA KUSHNER
Mô hình Markov của Eq. (3.41) là một phương trình sai lệch ngẫu nhiên phi tuyến tính , phương trình
này là phi tuyến vì ma trận chuyển tiếp A (n) phụ thuộc vào tích ngoài
x (n) xT (n) của vectơ đầu vào x (n). Do đó, sự phụ thuộc của vector trọng số-sai số
(n + 1) trên x (n) vi phạm nguyên tắc chồng chất, là một yêu cầu đối với tính chẵn lẻ lin. Hơn
nữa, phương trình là ngẫu nhiên vì mẫu huấn luyện {x (n), d (n)} là
được vẽ từ môi trường ngẫu nhiên. Với hai thực tế này, chúng tôi thấy rằng một
phân tích thống kê của thuật toán LMS thực sự là một nhiệm vụ rất khó khăn.
Tuy nhiên, trong những điều kiện nhất định, phân tích thống kê của thuật toán LMS có thể
được đơn giản hóa đáng kể bằng cách áp dụng phương pháp tính trung bình trực tiếp của Kushner cho mô hình
Phương trình (3,41). Để có một tuyên bố chính thức về phương pháp này, chúng tôi viết như sau (Kushner, 1984):
Hãy xem xét một hệ thống học ngẫu nhiên được mô tả bởi mô hình Markov
(n + 1) = A (n) (n) + f (n)
trong đó, đối với một số vectơ đầu vào x (n), chúng ta có
A (n) = I - x (n) xT (n)
và nhiễu cộng f (n) được chia tỷ lệ tuyến tính bằng tham số tốc độ học . Với điều kiện là
• tham số tốc độ học tập đủ nhỏ, và
• nhiễu cộng f (n) về cơ bản độc lập với mô hình Markov đã (N) , sự phát triển trạng thái của một
sửa đổi trạng thái được mô tả bởi hai phương trình
0 (n + 1) = A (n) 0 (n) + f0 (n) (3,50)
A (n) = I - [x (n) xT (n)] (3.51)
thực tế giống như mô hình Markov ban đầu cho mọi n.
Ma trận xác định A (n) của Eq. (3.51) là ma trận chuyển tiếp của
Mô hình Markov. Cũng lưu ý rằng chúng tôi đã sử dụng ký hiệu 0 (n) cho trạng thái của mô hình
Markov mod ified để nhấn mạnh thực tế rằng sự phát triển của mô hình này theo thời gian là
giống hệt như mô hình Markov ban đầu chỉ trong trường hợp giới hạn của một
thông số tốc độ học tập vô cùng nhỏ.
Một bằng chứng của tuyên bố thể hiện Eqs. (3.50) và (3.51) được đề cập trong Prob lem 3.7,
giả sử tính sai (nghĩa là thời gian thay thế trung bình cho trung bình tổng hợp).
Đối với cuộc thảo luận được trình bày ở đây, chỉ cần nói như sau:
1. Như đã đề cập trước đây, khi tham số tốc độ học tập nhỏ, LMS
thuật toán có một bộ nhớ dài. Do đó, sự phát triển của trạng thái cập nhật 0 (n + 1)
có thể được theo dõi thời gian, từng bước, tất cả các cách trở lại điều kiện ban đầu (0) .
2. Khi còn nhỏ, chúng ta có lý khi bỏ qua tất cả các thứ bậc hai và bậc cao hơn
các số hạng trong khai triển chuỗi của 0 (n + 1) .
3. Cuối cùng, câu lệnh được thể hiện trong Eqs. (3.50) và (3.51) thu được bằng cách gọi công
thái học, theo đó giá trị trung bình tổng thể được thay thế cho độ tuổi thời gian.
3.9 LÝ THUYẾT HỌC LMS THỐNG KÊ CHO THAM SỐ TỶ LỆ HỌC TẬP NHỎ
Bây giờ chúng tôi đã được trang bị phương pháp tính trung bình trực tiếp của Kushner, giai đoạn
được thiết lập cho một phân tích thống kê nguyên tắc của thuật toán LMS bằng cách đưa ra ba giả
định có thể xác minh:
Giả định I: Tham số tốc độ học tập là nhỏ
Bằng cách đưa ra giả định này, chúng tôi biện minh cho việc áp dụng phương pháp tính trung
bình trực tiếp của Kushner - do đó áp dụng mô hình Markov đã sửa đổi của Eqs. (3.50) và
(3.51) làm cơ sở cho phân tích thống kê của thuật toán LMS.
Ở góc độ thực tế, sự lựa chọn của nhỏ cũng có lý. Đặc biệt, thuật toán LMS thể hiện
hành vi mạnh mẽ nhất của nó đối với các lệnh cấm làm nhiễu bên ngoài khi nhỏ; vấn đề mạnh
mẽ được thảo luận trong Phần 3.12.
Giả thiết II: Sai số ước lượng eo (n) do bộ lọc Wiener

tạo ra có màu trắng.
Giả định này được thỏa mãn nếu việc tạo ra phản hồi mong muốn được mô tả bằng mô hình hồi
quy tuyến tính
d (n) = wT ox (n) + eo (n) (3.52)
Phương trình (3.52) chỉ đơn giản là viết lại phương trình. (3.44), trên thực tế, ngụ
ý rằng vectơ trọng số của bộ lọc Wiener được khớp với vectơ trọng số của mô hình hồi quy
mô tả môi trường ngẫu nhiên quan tâm.
Giả thiết III: Vectơ đầu vào x (n) và phản hồi mong muốn d
(n) là chung Gaussian
Các quá trình ngẫu nhiên được tạo ra bởi các hiện tượng vật lý thường được cơ giới hóa sao
cho mô hình Gaussian là phù hợp - do đó là sự biện minh cho giả thiết thứ ba.
Không cần giả định thêm cho phân tích thống kê của thuật toán LMS (Haykin, 2002,
2006). Trong phần tiếp theo, chúng tôi trình bày một phiên bản cô đọng của phân tích đó.
Các chế độ tự nhiên của thuật toán LMS
Gọi Rxx biểu thị ma trận tương quan trung bình tổng thể của vectơ đầu vào x (n), được rút
ra từ một quá trình tĩnh; đó là,
R = [x (n) xT (n)] (3.53)

xx
Phần 3.9 Lý thuyết học tập LMS thống kê cho tham số tốc độ học tập nhỏ 109
Tương ứng, chúng ta có thể biểu thị ma trận chuyển tiếp trung bình trong Eq. (3.51) liên quan đến mô
hình Markov đã sửa đổi như
A = [I - x (n) xT (n)] (3.54)
= [Tôi - Rxx]
Do đó, chúng tôi có thể mở rộng Eq. (3,50) vào biểu mẫu
0 (n + 1) = (I - Rxx) 0 (n) + f0 (n) (3.55)
trên phân
f0 tích
(n) là
tistical
tiếng ồn
củabổthuật
sung.toán
Từ đó
LMS.
đến nay, phương trình (3.55) là phương trình dựa vào đó dựa
Các chế độ tự nhiên của thuật toán LMS
Áp dụng phép biến đổi trực giao của lý thuyết ma trận4 cho ma trận tương quan
Rxx, chúng tôi viết
QTRxxQ = (3.56)
trong đó Q là một ma trận trực giao có các cột là các ký tự riêng của Rxx, và là một
ma trận đường chéo có các phần tử là các giá trị riêng liên kết. Mở rộng ứng dụng của phép biến đổi
này cho phương trình sai khác Eq. (3.55) mang lại hệ phương trình bậc nhất đã tách tương ứng (Haykin,
2002, 2006)
vk (n + 1) = (1 - k) vk (n) + k (n), trong đó M k = 1, 2, ..., M (3.57)
là số chiều của vectơ trọng số wˆ (n) . Hơn nữa, vk (n) là thứ k

phần tử của vector lỗi trọng lượng đã được biến đổi
v (n) = QT 0 (n) (3.58)
và, tương ứng, k (n) là phần tử thứ k của vectơ nhiễu đã biến đổi
(n) = QTf0 (n) (3.59)
Cụ thể hơn, k (n) là hàm mẫu của quá trình nhiễu trắng có giá trị trung bình bằng 0 và phương
sai µ2 Jmin k, trong đó Jmin là sai số bình phương trung bình nhỏ nhất do Wiener tạo ra
lọc. Trên thực tế, phương sai của động lực trung bình bằng 0 đối với sự khác biệt thứ k
phương trình Eq. (3.57) tỷ lệ với giá trị riêng thứ k của ma trận tương quan Rxx,
cụ thể là, k.
Xác định sự khác biệt
¢ vk (n) = vk (n + 1) - vk (n) cho k = 1, 2, ..., M (3,60)
Sau đó, chúng tôi có thể viết lại Eq. (3.57) dưới dạng
¢ vk (n) = - kvk (n) + k (n) cho k = 1, 2, ..., M (3,61)
Phương trình ngẫu nhiên Eq. (3.61) hiện được công nhận là phiên bản thời gian rời rạc của
Phương trình Langevin Công thức. (3,47). Đặc biệt, khi chúng ta so sánh hai phương trình này, thuật ngữ bằng
hạn, chúng tôi xây dựng các phép loại suy được liệt kê trong Bảng 3.2. Theo bảng này, bây giờ chúng ta có thể
đưa ra tuyên bố quan trọng sau:

BẢNG 3.2 Các phép tương tự giữa phương trình Langevin (trong thời gian liên tục)
và sự phát triển của LMS đã biến đổi (trong thời gian rời rạc)
Phương trình Langevin Công thức. (3,47) Phương thức tiến hóa LMS. (3,61)
dv (t)
(sự tăng tốc) vk (n)
dt
γ v (t) (lực giảm chấn) (động kvk (n)
Γ (t) lực ngẫu nhiên)

k (N)
Hành vi hội tụ của bộ lọc LMS do áp dụng tính trực giao

chuyển đổi sang phương trình sai khác Eq. (3.55) được mô tả bởi một hệ phương trình
Langevin cam kết M decou có thành phần thứ k được đặc trưng như sau:
• Lực tắt dần được xác định bởi kvk (n);
• Lực Langevin k (n) được mô tả bằng quá trình nhiễu trắng trung bình bằng 0 với phương sai
2
Jmin k.
Quan trọng nhất, lực Langevin k (n) chịu trách nhiệm cho hành vi không cân bằng
của thuật toán LMS, biểu hiện dưới dạng chuyển động Brown được thực hiện
bằng thuật toán xoay quanh giải pháp Wiener tối ưu sau một số lượng đủ lớn
lần lặp n. Tuy nhiên, cần phải nhấn mạnh rằng các phát hiện được tóm tắt trong Bảng 3.2 và
tuyên bố ở trên dựa trên tiền đề rằng tham số tốc độ học tập là nhỏ.
Đường cong học tập của thuật toán LMS
Sau đây thông qua các nghiệm của phương trình sai biệt được biến đổi Eq. (3.57), chúng tôi
đến với đường cong học tập LMS được mô tả bởi Haykin, (2002, 2006),
M M
k 2 - Jmin
J (n) = Jmin + Jmin a + a (3,62)
2 - k a vk (0) 2 - b (1 - k) 2n
k = 1 k k = 1 k
ở đâu
J (n) = [e (n) 2 ]
là sai số bình phương trung bình và vk (0) là giá trị ban đầu của phần tử thứ k
của vectơ trans tạo thành v (n). Theo giả định rằng tham số tốc độ học tập là nhỏ,
Phương trình (3.62) đơn giản hóa thành
M M
Jmin 2 - Jmin
J (n) L Jmin + một k + a (3,63)
2 k a vk (0) 2 b (1 - k) 2n
k = 1 k = 1
Giá trị thực tế của lý thuyết tham số tỷ lệ học tập nhỏ được trình bày trong
phần này được chứng minh trong thí nghiệm máy tính được trình bày tiếp theo.
3.10 THÍ NGHIỆM MÁY TÍNH I: DỰ BÁO TUYẾN TÍNH
Mục tiêu của thử nghiệm này là xác minh lý thuyết học tập thống kê của LMS
thuật toán được mô tả trong Phần 3.9, giả sử một tham số tốc độ học tập nhỏ.
Phần 3.10 Thí nghiệm Máy tính I: Dự đoán Tuyến tính 111
Đối với thử nghiệm, chúng tôi xem xét một mô hình tổng quát được xác định bởi
x (n) = ax (n - 1) + (n) (3,64)
đại diện cho một quá trình tự động hồi phục (AR) của đơn hàng một. Mô hình đầu tiên
order, a là tham số duy nhất của mô hình. (N)
một quá trình nhiễu trắng trung bình bằng 0 của phương sai σ2 e.
như sau:
a = 0,99
2 = 0,02
2 = 0,995
x
Để ước tính tham số mô hình a, chúng tôi sử dụng thuật toán LMS được đặc trưng bởi
tham số tốc độ học 0,001. Bắt đầu với điều kiện ban đầu wˆ (0) = 0 ,chúng tôi
áp dụng phiên bản vô hướng của Eq. (3.35), trong đó lỗi ước tính
e (n) = x (n) - aˆ (n) x (n - 1)
và ở đâu aˆ (n) là ước tính của một thuật toán LMS được tạo ra tại thời điểm n. Sau đó, mỗi
lần hình thành 100 ứng dụng độc lập về mặt thống kê của thuật toán LMS, chúng tôi vẽ
đường cong học tập trung bình tổng hợp của thuật toán. Đường cong vững chắc (thay đổi ngẫu nhiên)
được vẽ trong Hình 3.5 cho 5.000 lần lặp là kết quả của hoạt động tính trung bình tổng thể này.
Trong Hình 3.5, chúng tôi cũng đã bao gồm kết quả của việc tính toán giá trị trung bình tổng thể
đường cong học tập bằng cách sử dụng công thức suy ra lý thuyết của Eq. (3,63), giả sử là nhỏ.
Điều đáng chú ý là sự thống nhất hoàn hảo giữa lý thuyết và thực hành, bằng chứng là
Tham số tốc độ học tập h 0,001 HÌNH 3.5 Thực nghiệm

101 xác minh của nhỏ
học-tỷ lệ-tham số
Học thuyết lý thuyết về thuật toán LMS
Cuộc thí nghiệm áp dụng cho một tự động hồi tố
quy trình đặt hàng một.
100
101
102
0 1.000 2.000 3.000 4.000 5.000
Số lần lặp lại, n

HÌNH 3.6 Phân loại LMS với Phân loại sử dụng LMS với khoảng cách 1, bán kính 10 và chiều rộng 6
khoảng cách 1, dựa trên
cấu hình hai mặt trăng của
Hình 1.8. 10
0
x2
–5
–10
–10 –5 0 5 10 15 20
x1
kết quả được vẽ trong Hình 3.6. Thật vậy, thỏa thuận đáng chú ý này nên được coi là
xác nhận hai nguyên tắc lý thuyết quan trọng:
1. Phương pháp của Kushner có thể được sử dụng để giải quyết phân tích lý thuyết về hành vi
học tập của LMS dưới giả định về một tham số tốc độ học tập nhỏ.
2. Hành vi học tập của thuật toán LMS có thể được giải thích như một ví dụ của
Phương trình Langevin.
3.11 THÍ NGHIỆM MÁY TÍNH II: PHÂN LOẠI MẪU
Đối với thử nghiệm thứ hai về thuật toán LMS, chúng tôi nghiên cứu ứng dụng của thuật toán
với cấu hình hai mặt trăng trong hình 1.8. Cụ thể hơn, hiệu suất của thuật toán được đánh giá
cho hai cài đặt của cấu hình hai mặt trăng:
(i) d 1, tương ứng với khả năng phân tách tuyến tính;
(ii) d -4, tương ứng với khả năng phân tách phi tuyến.
Thực tế, khi làm như vậy, chúng tôi đang lặp lại thử nghiệm được thực hiện trong Phần 2.5 trên
phương pháp bình phương nhỏ nhất, ngoại trừ lần này chúng tôi sử dụng thuật toán LMS.
Kết quả của thử nghiệm liên quan đến hai giá trị này của d được trình bày trong
Hình 3,6 và 3,7, tương ứng. So sánh hai hình này với Figs. 2.2 và 2.3, chúng tôi có thể
thực hiện các nhận xét sau:
(a) Trong chừng mực có liên quan đến hiệu suất phân loại, phương pháp bình phương nhỏ nhất
và thuật toán LMS mang lại kết quả giống nhau cho tất cả các mục đích thực tế.
Phần 3.12 Ưu điểm và hạn chế của thuật toán LMS 113
Phân loại sử dụng LMS với khoảng cách 4, bán kính 10 và chiều rộng 6 HÌNH 3.7 Phân loại LMS
với khoảng cách 4, dựa trên
12
cấu hình hai mặt trăng của
Hình 1.8.
10
số 8
x2 2
số 8
10 5 0 5 10 15 20
x1
(b) Về mặt hội tụ, thuật toán LMS chậm hơn nhiều so với phương pháp
bình phương nhỏ nhất: Sự khác biệt này được cho là do thuật toán LMS có tính chất chữ thảo,
trong khi phương pháp bình phương nhỏ nhất hoạt động ở chế độ hàng loạt nghịch đảo ma trận
trong một bước thời gian.
Như một vấn đề quan tâm, trong Chương 5, chúng tôi trình bày một cách triển khai đệ quy của
phương pháp bình phương nhỏ nhất. Về việc sử dụng thông tin bậc hai, đệ quy
việc thực hiện phương pháp bình phương nhỏ nhất vẫn nhanh hơn trong hành vi hội tụ của nó so với thuật
toán LMS.
3.12 CÁC RUNG ĐỘNG VÀ GIỚI HẠN CỦA THUẬT TOÁN LMS
Tính đơn giản và hiệu quả
Hai ưu điểm của thuật toán LMS là tính đơn giản và hiệu quả, cả hai
trong số đó được minh họa bằng bản tóm tắt sau đây của thuật toán được trình bày trong
Bảng 3.1:
• Mã hóa của thuật toán bao gồm hai hoặc ba dòng, đơn giản như bất kỳ
một người có thể nhận được.
• Độ phức tạp tính toán của thuật toán là tuyến tính với số lượng có thể điều chỉnh
thông số.
Từ góc độ thực tế, đây là những đức tính quan trọng.

Mạnh mẽ
Một ưu điểm quan trọng khác của thuật toán LMS là nó độc lập với mô hình và do đó mạnh mẽ đối
với các nhiễu loạn. Để giải thích ý nghĩa của chúng tôi về tính mạnh mẽ, hãy xem xét tình huống
được mô tả trong Hình 3.8, trong đó toán tử truyền T ánh xạ một số nhiễu ở đầu vào của nó thành
lỗi ước lượng "chung" ở đầu ra. Cụ thể, ở đầu vào, chúng ta có những thứ sau:
• Một vectơ trọng số-sai số ban đầu được xác
định bởi w (0) = w - wˆ (0) (3.65) trong đó w là một
vectơ tham số chưa biết và wˆ (0) là đối tác ban đầu “được đề xuất” của nó tại thời điểm
n 0. Trong Thuật toán LMS, chúng tôi thường đặt wˆ (0) 0, theo một cách nào đó, là điều
kiện khởi tạo tồi tệ nhất có thể cho thuật toán.
• Một lỗi giải thích có nguồn gốc từ mô hình hồi quy của Eq. (2.3), được tái tạo ở đây để
thuận tiện cho việc trình bày, trong đó d là đầu ra của mô hình được tạo ra để đáp ứng
với bộ hồi quy x:
d = wTx + (3,66)
Đương nhiên, toán tử T là một hàm của chiến lược được sử dụng để xây dựng ước lượng wˆ
(n) (vínăng
dụ, lượng
thuật của
toánbộLMS).
ước lượng
Bây giờ
được
chúng
địnhtanghĩa
có thể
là giới
tỷ sốthiệu
giữa định
năng nghĩa
lượng sau:
sai số
Mứcở tăng
đầu
ra của toán tử T với tổng năng lượng nhiễu ở đầu vào.
Để loại bỏ sự phụ thuộc này và do đó làm cho công cụ ước lượng “độc lập với mô hình”, chúng tôi
xem xét kịch bản trong đó chúng tôi có mức tăng năng lượng lớn nhất có thể trên tất cả các chuỗi
nhiễu loạn có thể tưởng tượng được áp dụng cho đầu vào của bộ ước lượng. Khi làm như vậy, chúng
q
ta sẽ xác định được định mức H của toán tử truyền T.
q
Với nền tảng ngắn gọn này, bây giờ chúng ta có thể hình thành định mức H của toán tử
trans fer T là:
q
Tìm một công cụ ước lượng nhân quả để giảm thiểu định mức H của T, trong đó T là toán tử
chuyển giao ánh xạ các nhiễu đến sai số ước lượng.
q
Công cụ ước tính tối ưu được thiết kế theo tiêu chí H được cho là thuộc loại tối thiểu .
q
Cụ thể hơn, chúng ta có thể xem bài toán ước lượng tối ưu H như một “bài toán lý thuyết trò
chơi” theo nghĩa sau: Bản chất, đóng vai trò là “đối thủ”, có quyền truy cập vào các nhiễu chưa
biết, do đó tối đa hóa năng lượng thu được. Mặt khác, “nhà thiết kế” của chiến lược ước tính có
nhiệm vụ tìm ra một thuật toán nhân quả để giảm thiểu năng lượng sai sót. Lưu ý rằng khi đưa ra
ý tưởng về tiêu chí H , chúng tôi không đưa ra giả định nào về những xáo trộn được chỉ ra ở đầu
q
vào của Hình 3.8. Do đó, chúng tôi có thể nói rằng một công cụ ước tính được thiết kế phù hợp
q
với tiêu chí H là một công cụ ước lượng trường hợp xấu nhất.
Ban đầu HÌNH 3.8 Công thức của bài toán ước
vectơ trọng lượng Hq tối ưu . Lỗi ước lượng chung

Chuyển khoản Ước tính
số-lỗi w (0) ở đầu ra của toán tử truyền có thể là
nhà điều hành chung
vectơ lỗi trọng số, sai số giải thích,
Loạn e (n) T lỗi
v.v.
Phần 3.13 Lịch trình ủ tốc độ học tập 115
Theo thuật ngữ toán học chính xác, thuật toán LMS là tối ưu phù hợp với
q q
Tiêu chí H (hoặc minimax ).5 Triết lý cơ bản của sự tối ưu theo nghĩa H là
phục vụ cho trường hợp xấu nhất:
Nếu bạn không biết mình phải đối mặt với điều gì, hãy lập kế hoạch cho tình huống xấu nhất và tối ưu hóa.
Trong một thời gian dài, thuật toán LMS được coi là một phép gần đúng tức thời đối với
q
thuật toán gradient-descent. Tuy nhiên, tính tối ưu H của thuật toán LMS cung cấp
q
thuật toán được sử dụng rộng rãi này với một nền tảng nghiêm ngặt. Hơn nữa, lý thuyết H của LMS
thuật toán cho thấy rằng hiệu suất mạnh mẽ nhất của thuật toán đạt được khi
tham số tốc độ học tập được chỉ định một giá trị nhỏ.
Hành vi độc lập với mô hình của thuật toán LMS cũng giải thích khả năng
của thuật toán để hoạt động tốt trong cả môi trường cố định và không cố định. Bởi một môi
trường "không cố định", chúng tôi muốn nói đến một môi trường trong đó
số liệu thống kê thay đổi theo thời gian. Trong một môi trường như vậy, giải pháp Wiener tối ưu sẽ đảm nhận
một dạng thay đổi theo thời gian và thuật toán LMS có nhiệm vụ bổ sung là theo dõi các biến
thể trong sai số trung bình tối thiểu của bộ lọc Wiener.
Các yếu tố giới hạn hiệu suất LMS
Các hạn chế chính của thuật toán LMS là tốc độ hội tụ chậm và
nhạy cảm với các biến thể trong cấu trúc nguyên sinh của dữ liệu đầu vào (Haykin, 2002).
Nhịp điệu thuật toán LMS thường yêu cầu số lần lặp bằng khoảng 10 lần sự thay đổi về thứ
nguyên của không gian dữ liệu đầu vào để nó đạt được điều kiện trạng thái ổn định. Tốc độ chậm của
sự hội tụ của thuật toán LMS trở nên đặc biệt nghiêm trọng khi độ đồng đều về thứ nguyên
của không gian dữ liệu đầu vào trở nên cao.
Đối với sự nhạy cảm với những thay đổi của điều kiện môi trường, hành vi hội tụ
của thuật toán LMS đặc biệt nhạy cảm với các biến thể về số điều kiện, hoặc
lây lan giá trị eigenvalue, của ma trận tương quan Rxx của vectơ đầu vào x. Điều kiện
số Rxx, ký hiệu là (R), được xác định bởi
tối đa
(R) = (3,67)
min
trong đó tối
min đa và
là các giá trị riêng tối đa và tối thiểu của mối tương quan
ma trận Rxx, tương ứng. Độ nhạy của thuật toán LMS đối với các biến thể trong số kết quả
(R) trở nên đặc biệt cấp tính khi mẫu đào tạo mà
vectơ đầu vào x (n) thuộc về không có điều kiện — nghĩa là, khi số điều kiện của
Thuật toán LMS cao.6
3.13 LỊCH TRÌNH HỌC TẬP HÀNG NĂM
Sự hội tụ tốc độ chậm gặp phải với thuật toán LMS có thể là do
thực tế là tham số tốc độ học được duy trì không đổi ở một số giá trị trong suốt quá 0
trình tính toán, như được hiển thị bằng
(n) = 0 cho tất cả n (3,68)

Đây là dạng đơn giản nhất có thể mà tham số tốc độ học có thể giả định. Ngược lại,
theo phương pháp xấp xỉ ngẫu nhiên, quay trở lại bài báo cổ điển của Robbins và
Monro (1951), tham số tốc độ học tập là thời gian thay đổi. Dạng thay đổi thời gian cụ thể
thường được sử dụng nhất trong tài liệu xấp xỉ ngẫu nhiên là
mô tả bởi
c
(n) = (3,69)
N
trong đó c là một hằng số. Một sự lựa chọn như vậy thực sự là đủ để đảm bảo sự hội tụ của
thuật toán xấp xỉ ngẫu nhiên (Kushner và Clark, 1978). Tuy nhiên, khi con stant c lớn, sẽ có
nguy cơ tăng tham số đối với n nhỏ.
Thay thế cho Eqs. (3.68) và (3.69), chúng tôi có thể sử dụng tìm kiếm sau đó hội tụ
lịch trình, được mô tả bởi Darken và Moody (1992), như
0
(n) = (3,70)
1 + (n)
trong đó và τ là các hằng số do người dùng chọn. Trong giai đoạn đầu của quá trình thích ứng liên quan đến
0
số lần lặp n nhỏ so với hằng số thời gian tìm kiếm τ, tham số tốc độ học (n) xấp xỉ bằng và
thuật toán hoạt động về cơ bản 0,
như thuật toán LMS “thông thường”, như được chỉ ra trong Hình 3.9. Do đó, bằng cách chọn mức cao
giá trị trong
0 phạm vi cho phép, chúng tôi hy vọng rằng các trọng số có thể điều chỉnh của fil
ter sẽ tìm thấy và di chuột về một bộ giá trị "tốt". Sau đó, với một số n lần lặp
lớn so với hằng số thời gian tìm kiếm τ, tham số tốc độ học tập (n)
HÌNH 3.9 Ủ tốc độ học (N)

lịch biểu: Trục ngang, được in bằng
màu sắc, liên quan đến LMS tiêu chuẩn
thuật toán.
t
N
0
(đăng nhập quy mô)
Dốc c
0,1
0
Tìm kiếm rồi hội tụ

lịch trình
Stochastic
sự xấp xỉ
lịch trình
0,01
0
xấp xỉ c / n, trong đó c τ 0, như minh họa trong Hình 3.9. Thuật toán hiện hoạt động như một
thuật toán xấp xỉ ngẫu nhiên truyền thống và các trọng số có thể hội tụ về giá trị tối ưu của
chúng. Do đó, lịch trình tìm kiếm-sau đó-hội tụ có tiềm năng kết hợp các tính năng mong muốn của
thuật toán LMS tiêu chuẩn với lý thuyết xấp xỉ theo kiểu truyền thống.
Trong chương này, chúng tôi đã nghiên cứu thuật toán bình phương nhỏ nhất (LMS) nổi tiếng, được
phát triển bởi Widrow và Hoff vào năm 1960. Kể từ khi ra đời, thuật toán này đã chịu đựng được
thử thách của thời gian vì một số lý do thực tế quan trọng:
1. Thuật toán đơn giản để xây dựng và cũng đơn giản để thực hiện, có thể là ở dạng phần mềm
hoặc phần cứng.
2. Mặc dù đơn giản, thuật toán có hiệu quả về mặt hiệu suất.
3. Nói một cách tính toán, thuật toán hiệu quả ở chỗ độ phức tạp của nó tuân theo một quy
luật tuyến tính đối với số lượng các tham số có thể điều chỉnh được.
4. Cuối cùng, nhưng không kém phần quan trọng, thuật toán độc lập với mô hình và do đó mạnh
mẽ đối với các nhiễu.
Theo giả định rằng tham số tốc độ học là một quan số dương nhỏ, hành vi hội tụ của thuật
toán LMS — thường khó phân tích — trở nên có thể kiểm soát được về mặt toán học, nhờ vào phương
pháp tính trung bình trực tiếp của Kushner. Ưu điểm lý thuyết của phương pháp này là khi nhỏ,
phương trình sai phân “ngẫu nhiên” phi tuyến, mô tả hành vi hội tụ của thuật toán LMS, được thay
thế bằng một phiên bản “xác định” phi tuyến của phương trình ban đầu. Hơn nữa, thông qua việc
sử dụng khéo léo phép phân tích, nghiệm của phương trình xác định phi tuyến thu được được thay
thế bằng một hệ phương trình sai phân bậc nhất tách rời. phiên bản thời gian rời rạc của phương
trình Langevin của nhiệt động lực học không cân bằng. Sự tương đương này giải thích chuyển động
Brown ian được thực thi bởi thuật toán LMS xung quanh giải pháp Wiener tối ưu sau một số lần
lặp đủ lớn. Thí nghiệm máy tính được trình bày trong Phần 3.10 và các thí nghiệm máy tính khác
được trình bày trong Haykin (2006) xác nhận ý nghĩa hợp lệ của Eq. (3.63), mô tả đường cong học
tập trung bình toàn bộ của thuật toán LMS.
Cũng cần lưu ý rằng thuật toán LMS thể hiện hiệu suất mạnh mẽ nhất khi tham số tốc độ học
tập nhỏ. Tuy nhiên, cái giá phải trả cho loại hiệu suất cực kỳ quan trọng này là tốc độ hội tụ
tương đối chậm. Ở một mức độ nào đó, hạn chế này của thuật toán LMS có thể được giảm bớt thông
qua việc sử dụng phương pháp ủ tốc độ học, như được mô tả trong Phần 3.13.
Trong suốt chương này, chúng tôi tập trung chú ý vào thuật toán LMS thông thường. Không
cần phải nói, thuật toán có một số biến thể, mỗi biến thể đều cung cấp một ưu điểm thực tế của
riêng nó; để biết thêm chi tiết, độc giả quan tâm có thể tham khảo (Haykin, 2002).
1. Phân biệt đối với một vectơ

Gọi f (w) biểu thị một hàm có giá trị thực của vectơ tham số w. Đạo hàm của f (w) đối
với w được xác định bởi vectơ
0f 0f 0f
, , P, d T
0w = c 0f
0w1 0w2 0wm
với m là số chiều của vectơ w. Hai trường hợp sau đây được quan tâm đặc biệt:
Trường hợp 1 Hàm f (w) được xác định bởi tích bên trong:
f (w) = xTw
m
= a xi wi
i = 1
Kể từ đây,
0f =
xi , i = 1, 2, ...., m
0wi
hoặc, tương đương, ở dạng ma trận,
0f
= x (3,71)
0w
Trường hợp 2 Hàm f (w) được xác định ở dạng bậc hai:
f (w) = wTRw
m m
= a một wi rij wj
i = 1 j = 1
Ở đây, rij là phần tử thứ ij của ma trận m-x-m R. Do đó,
m
0f
= 2 a rijwj, i = 1, 2, ...., m
0wi
j = 1
hoặc, tương đương, ở dạng ma trận,
0f
= 2Rw (3,72)
0w
Phương trình (3.71) và (3.72) cung cấp hai quy tắc hữu ích để phân biệt một hàm có
giá trị thực đối với một vectơ.
2. Nghịch đảo giả của ma trận hình chữ nhật được thảo luận trong Golub và Vân Loan (1996); hiểu
cũng là Chương 8 của Haykin (2002).
3. Phương trình Langevin được thảo luận trong Reif (1965). Đối với một tài khoản lịch sử hấp dẫn của
phương trình Langevin, xem bài báo hướng dẫn về tiếng ồn của Cohen (2005).
4. Phép biến đổi trực giao được mô tả trong phương trình. (3.56) theo dõi từ eigendecompo
sition của một ma trận vuông. Chủ đề này được mô tả chi tiết trong Chương 8.
Vấn đề 119
q
5. Để điều trị sớm (và có lẽ là phương pháp điều trị đầu tiên) về kiểm soát H , người đọc được
tham khảo Zames (1981).
q
Sự thể hiện đầu tiên về tính tối ưu của thuật toán LMS theo nghĩa H đã được trình bày
q
trong Hassibi et al. (1993). Hassibi và cộng sự. (1999) xử lý lý thuyết H từ quan điểm ước
lượng hoặc lọc thích ứng. Hassibi cũng trình bày một cách xử lý cô đọng về tính mạnh mẽ của
q
thuật toán LMS theo nghĩa H trong Chương 5 của Haykin và Widrow (2005).
q
Đối với những cuốn sách về lý thuyết H từ góc độ điều khiển, người đọc được gọi là Zhou
và Doyle (1998) và Green và Limebeer (1995).
6. Độ nhạy của hành vi hội tụ của thuật toán LMS đối với các biến thể của số điều kiện của ma
trận tương quan Rxx, ký hiệu là (R), được chứng minh bằng thực nghiệm trong Phần 5.7 của
cuốn sách của Haykin (2002). Trong Chương 9 của Haykin (2002), đề cập đến việc triển khai
đệ quy phương pháp bình phương nhỏ nhất, nó cũng chỉ ra rằng hành vi hội tụ của thuật toán
kết quả về cơ bản độc lập với số điều kiện (R).
CÁC VẤN ĐỀ
3.1 (a) Gọi m (n) là vectơ trọng số trung bình của thuật toán LMS tại lần lặp n; đó là,
m (n) = [wˆ (n)]
Sử dụng lý thuyết tham số tốc độ học tập nhỏ của Phần 3.9, chỉ ra rằng
m (n) = (I - Rxx) n [m (0) - m (q)] + m (q)
trong đó là tham số tốc độ học, Rxx là ma trận tương quan của đầu vào vec tor x (n), và
m (0) và m (q) lần lượt hội
là giá trị ban
tụ thuật
thỏa mãn đầu
toán vàkiện
điều
LMS ởcuối
mức cùng
trungcủa m (n)
bình, . (b)
tham Chỉ độ
số tốc ra học
rằngphải
để
2
O 6 6
tối đa
ở đâu tối đa là giá trị riêng lớn nhất của ma trận tương quan Rxx.
3.2 Tiếp tục từ Vấn đề 3.1, thảo luận tại sao sự hội tụ của thuật toán LMS trong giá trị trung bình
không phải là một tiêu chí thích hợp cho sự hội tụ trong thực tế.
3.3 Xem xét việc sử dụng chuỗi nhiễu trắng có giá trị trung bình bằng 0 và phương sai σ2 làm đầu
vào cho thuật toán LMS.
3.4 Trong một biến thể của thuật toán LMS được gọi là thuật toán LMS rò rỉ, hàm chi phí được tối
thiểu hóa được xác định bởi
2
1 2
1 e (n) = 2 e (n) + 7 w (n) 7
2
trong đó w (n) là vectơ tham số, e (n) là sai số ước lượng và là một hằng số. Như trong
thuật toán LMS thông thường, chúng ta có
e (n) = d (n) - wT (n) x (n)
trong đó d (n) là phản hồi mong muốn tương ứng với vectơ đầu vào x (n).
(a) Chứng tỏ rằng cập nhật thời gian cho vectơ tham số của thuật toán LMS bị rò rỉ là
Được định nghĩa bởi
wˆ (n + 1) = (1 - ) wˆ (n) + x (n) e (n)
trong đó bao gồm thuật toán LMS thông thường như một trường hợp đặc biệt.
(b) Sử dụng lý thuyết tham số tốc độ học tập nhỏ của Phần 3.9, chỉ ra rằng
lim [wˆ (n)] = (Rxx + I) -1 rdx

xS q
trong đó Rxx là ma trận tương quan của x (n), I là ma trận nhận dạng và rdx là vectơ tương quan
chéo giữa x (n) và d (n).
3.5 Tiếp tục từ Vấn đề 3.4, xác minh rằng thuật toán LMS bị rò rỉ có thể được "mô phỏng" bằng
thêm nhiễu trắng vào vectơ đầu vào x (n).
(a) Phương sai của tiếng ồn này phải là bao nhiêu để điều kiện trong phần (b) của Bài toán 3.4 được giữ nguyên?
(b) Khi nào thì thuật toán được mô phỏng sẽ có dạng thực tế giống như thuật toán bị rò rỉ
Thuật toán LMS? Biện minh cho câu trả lời của bạn.
3.6 Một giải pháp thay thế cho công thức sai số bình phương trung bình (MSE) của đường cong học tập mà chúng tôi
đôi khi được tìm thấy trong tài liệu là đường cong học tập độ lệch bình phương trung bình (MSD) . Định nghĩa
vectơ lỗi trọng lượng
(n) = w - wˆ (n)
trong đó w là vectơ tham số của mô hình hồi quy cung cấp phản hồi mong muốn.
đường cong học tập thứ hai thu được bằng cách tính toán một biểu đồ của MSD
2
D (n) = [(n) ]
so với số lần lặp n.
Sử dụng lý thuyết tham số tỷ lệ học tập nhỏ của Phần 3.9, chỉ ra rằng
D (q) = lim D (n)

nS q
1
=
MJmin
2
tham số tốc độ học ở đâu, M là kích thước của vectơ tham số, sai số trung bình bình wˆ, và Jmin là
phương tối thiểu của thuật toán LMS.
3.7 Trong bài toán này, chúng tôi giải quyết một bằng chứng của phương pháp tính trung bình trực tiếp, giả sử tính sai.
Bắt đầu với Eq. (3.41), xác định vector lỗi trọng số (n) về mặt ma trận chuyển
tiếp A (n) và động lực f (n), chúng được xác định theo đầu vào
vectơ x (n) trong Eqs. (3,42) và (3,43), tương ứng; sau đó tiến hành như sau:
• Đặt n 0, và đánh giá • . (1)

Đặt n 1, và đánh giá • (2) .
Tiếp tục theo cách này trong một vài lần lặp nữa.
Với các giá trị được lặp lại này của (n), suy ra công thức cho ma trận chuyển tiếp A (n).
Tiếp theo, giả sử rằng tham số tốc độ học tập đủ nhỏ để chỉ giữ lại
các thuật ngữ tuyến tính trong . Do đó, hãy thể hiện rằng
A (n) = tôi - a x (i) xT (i)

i = 1
Vấn đề 121
cái mà giả sử là ergodicity, có dạng
A (n) = I - Rxx
3.8 Khi tham số tốc độ học tập nhỏ, thuật toán LMS hoạt động giống như một bộ lọc thông thấp
với tần số cắt nhỏ. Bộ lọc như vậy tạo ra đầu ra tỷ lệ với
trung bình của tín hiệu đầu vào.
Sử dụng Eq. (3.41), chứng minh tính chất này của thuật toán LMS bằng cách xem xét mô phỏng
ví dụ về thuật toán sử dụng một tham số duy nhất.
3.9 Bắt đầu với Eq. (3.55) đối với một tham số tốc độ học tập nhỏ, cho thấy rằng trong điều kiện trạng thái ổn định
số lượng, phương trình Lyapunov
RP0 (n) + P0 (n) R = a min R (i)

J (i)
i = 0
nắm giữ, nơi chúng tôi có
J (i)
min = [eo (n) eo (n - i)]
và
R (i) = [x (n) xT (n - i)]
T
đối với i 0, 1, 2, .... Ma trận P0 được xác định bởi trên)],và eo (n) là esti bất khả quy
lỗi mation [ o (n) do bộ lọc Wiener tạo ra.
Thí nghiệm máy tính

3.10 Lặp lại thí nghiệm máy tính của Phần 3.10 về dự đoán tuyến tính cho các giá trị sau của tham
số tốc độ học tập:
(i) 0,002;
(ii) 0,01;
(iii) 0,02.
Nhận xét về phát hiện của bạn trong bối cảnh khả năng áp dụng của lý thuyết tham số tốc độ
học tập nhỏ của thuật toán LMS cho mỗi giá trị của.
3.11 Lặp lại thí nghiệm máy tính của Phần 3.11 về phân loại mẫu cho khoảng cách
khoảng cách giữa hai mặt trăng trong Hình 1.8 đặt ở d = 0. So sánh kết quả của
thử nghiệm với những người trong Bài toán 1.6 về perceptron và Bài toán 2.7 về phương pháp
bình phương nhỏ nhất.
3.12 Vẽ đồ thị các đường cong học tập phân loại mẫu của thuật toán LMS được áp dụng cho cấu hình
trăng đôi của Hình 1.8 cho các giá trị sau được gán cho khoảng cách phân tách:
d 1
d 0
d 4
So sánh kết quả của thí nghiệm với kết quả tương ứng thu được bằng cách sử dụng perceptron
của Rosen blatt trong Chương 1.
CHƯƠNG 4
Perceptron nhiều lớp
Trong chương này, chúng ta nghiên cứu nhiều khía cạnh của perceptron nhiều lớp, viết
tắt của mạng nơ-ron có một hoặc nhiều lớp ẩn. Sau khi tài liệu giới thiệu được gửi
trước trong Phần 4.1, nghiên cứu sẽ tiến hành như sau: 1. Phần 4.2 đến 4.7 thảo luận
về các vấn đề liên quan đến việc học truyền ngược. Phần này cũng bao gồm một cuộc
thảo luận về vấn đề phân bổ tín dụng. Trong Phần 4.3, chúng tôi mô tả hai phương
pháp học: theo lô và trực tuyến. Trong Phần 4.4, chúng tôi trình bày một dẫn xuất
chi tiết của thuật toán lan truyền ngược, sử dụng quy tắc chuỗi của phép tính;
chúng tôi sử dụng một cách tiếp cận truyền thống trong phép tính này. Trong Phần
4.5, chúng tôi minh họa việc sử dụng thuật toán lan truyền ngược bằng cách giải
bài toán XOR, một bài toán thú vị mà perceptron của Rosenblatt không thể giải
được. Phần 4.6 trình bày một số kinh nghiệm và hướng dẫn thực tế để làm cho thuật
toán lan truyền ngược hoạt động tốt hơn. Phần 4.7 trình bày một thử nghiệm phân
loại mẫu trên perceptron nhiều lớp được đào tạo với thuật toán lan truyền ngược.
2. Phần 4.8 và 4.9 xử lý bề mặt lỗi. Trong Phần 4.8, chúng ta thảo luận về vai trò thú vị của việc học
truyền ngược trong việc tính toán các đạo hàm riêng của một hàm xấp xỉ mạng. Trong Phần 4.10, chúng ta
thảo luận về hai vấn đề: cách thực hiện quá trình ủ tối ưu và cách làm cho đồng hồ đo tốc độ học thích
ứng.
3. Phần 4.11 đến 4.14 tập trung vào các vấn đề khác nhau liên quan đến hiệu suất của
perceptron nhiều lớp được đào tạo với thuật toán lan truyền ngược. Trong Phần 4.11,
chúng ta thảo luận về vấn đề khái quát hóa - bản chất của việc học. Phần 4.12 đề cập
đến tính gần đúng của các hàm liên tục bằng các perceptron nhiều người chơi. Việc sử
dụng xác nhận chéo như một công cụ thiết kế thống kê được thảo luận trong Phần 4.13.
Trong Phần 4.14, chúng tôi thảo luận về vấn đề chính quy hóa phức tạp, cũng như các kỹ thuật cắt
4. Mục 4.15, tóm tắt những ưu điểm và hạn chế của việc học truyền ngược.
5. Sau khi hoàn thành nghiên cứu về học truyền ngược, tiếp theo chúng ta có một
góc nhìn khác về việc học trong Phần 4.16 bằng cách xem học có giám sát như
một bài toán tối ưu hóa.
122
Phần 4.1 Giới thiệu 123
6. Phần 4.17 mô tả một cấu trúc mạng nơ-ron quan trọng: perceptron nhiều lớp tích chập. Mạng này
đã được sử dụng thành công trong giải các bài toán khó nhận dạng mẫu.
7. Phần 4.18 đề cập đến lọc phi tuyến, trong đó thời gian đóng vai trò quan trọng. Cuộc thảo luận
bắt đầu với cấu trúc bộ nhớ ngắn hạn, tạo tiền đề cho định lý ánh xạ cận thị phổ quát.
8. Phần 4.19 thảo luận về vấn đề học tập quy mô nhỏ so với quy mô lớn.
Chương này kết thúc với phần tóm tắt và thảo luận trong Phần 4.20.
4.1 GIỚI THIỆU
Trong Chương 1, chúng tôi đã nghiên cứu perceptron của Rosenblatt, về cơ bản là một mạng nơron
một lớp. Sau đó, chúng tôi nghiên cứu lọc thích ứng trong Chương 3, sử dụng thuật toán LMS của
Widrow và Hoff. Thuật toán này cũng dựa trên một nơ-ron tuyến tính duy nhất với trọng số có thể
điều chỉnh, điều này giới hạn khả năng tính toán của thuật toán. Để khắc phục những hạn chế thực
tế của perceptron và thuật toán LMS, chúng tôi xem xét cấu trúc mạng nơron được gọi là perceptron
nhiều lớp.
Ba điểm sau đây nêu bật các tính năng cơ bản của perceptron nhiều lớp:
• Mô hình của mỗi nơ-ron trong mạng bao gồm một chức năng kích hoạt phi tuyến tính có thể
phân biệt được. • Mạng chứa một hoặc nhiều lớp được ẩn khỏi cả đầu vào và
các nút đầu ra.
• Mạng thể hiện mức độ kết nối cao, mức độ ảnh hưởng của nó
được khai thác bằng trọng số tiếp hợp của mạng.
Tuy nhiên, những đặc điểm tương tự này cũng là nguyên nhân dẫn đến sự thiếu sót trong kiến
thức của chúng ta về hoạt động của mạng. Đầu tiên, sự hiện diện của một dạng phi tuyến phân tán
và khả năng kết nối cao của mạng làm cho việc phân tích lý thuyết của một perceptron nhiều lớp
khó thực hiện. Thứ hai, việc sử dụng các tế bào thần kinh ẩn làm cho quá trình học tập trở nên
khó hình dung hơn. Theo nghĩa ngầm, quá trình học tập phải quyết định những đặc điểm nào của mẫu
đầu vào nên được biểu diễn bởi các nơ-ron ẩn. Do đó, quá trình học tập trở nên khó khăn hơn vì
việc tìm kiếm phải được thực hiện trong một không gian lớn hơn nhiều của các chức năng có thể, và
phải lựa chọn giữa các biểu diễn thay thế của mẫu đầu vào.
Một phương pháp phổ biến để đào tạo các perceptron nhiều lớp là thuật toán lan truyền
ngược, bao gồm thuật toán LMS như một trường hợp đặc biệt.
1. Trong pha chuyển tiếp, các trọng số tiếp hợp của mạng được cố định và tín hiệu đầu vào được
truyền qua mạng, từng lớp, cho đến khi nó đến đầu ra.
Do đó, trong giai đoạn này, các thay đổi được giới hạn trong các điện thế kích hoạt và đầu
ra của các nơ-ron trong mạng.
124 Chương 4 Perceptron nhiều lớp
2. Trong pha lùi, một tín hiệu lỗi được tạo ra bằng cách so sánh đầu ra của mạng
với một phản hồi mong muốn. Tín hiệu lỗi kết quả được truyền qua mạng, lại từng
lớp một, nhưng lần này việc truyền được thực hiện theo hướng ngược lại. Trong
giai đoạn thứ hai này, các điều chỉnh liên tiếp được thực hiện đối với trọng số
khớp thần kinh của mạng. Việc tính toán các điều chỉnh cho lớp đầu ra rất đơn
giản, nhưng đối với các lớp ẩn sẽ khó hơn nhiều.
Việc sử dụng thuật ngữ “lan truyền ngược” dường như đã phát triển sau năm 1985, khi
thuật ngữ này được phổ biến thông qua việc xuất bản cuốn sách có tựa đề là Xử lý cống
hiến song song (Rumelhart và McClelland, 1986).
Sự phát triển của thuật toán lan truyền ngược vào giữa những năm 1980 thể hiện
một bước ngoặt trong mạng nơ-ron ở chỗ nó cung cấp một phương pháp tính toán hiệu quả
để đào tạo các perceptron nhiều lớp, xóa bỏ sự bi quan về việc học các perceptron
nhiều lớp có thể được suy ra từ cuốn sách của Minsky và Papert (1969).
4.2 MỘT SỐ NGUYÊN NHÂN
Hình 4.1 cho thấy đồ thị kiến trúc của perceptron nhiều người chơi với hai lớp ẩn và
một lớp đầu ra. Để tạo tiền đề cho việc mô tả tron percep nhiều lớp ở dạng tổng quát
của nó, mạng được hiển thị ở đây được kết nối đầy đủ . Điều này có nghĩa là một neu
ron trong bất kỳ lớp nào của mạng được kết nối với tất cả các neuron (nút) trong lớp
trước đó . Luồng tín hiệu qua mạng tiến triển theo hướng thuận, từ trái sang phải và
trên cơ sở từng lớp.
Tín Tín hiệu

hiệu đầu vào đầu ra
• • •
• • •
• • •
Lớp Lần Ẩn thứ Lớp đầu

đầu vào đầu tiên ẩn hai ra
layer lớp
HÌNH 4.1 Đồ thị kiến trúc của perceptron nhiều lớp với hai lớp ẩn.
Phần 4.2 Một số sơ bộ 125
Hình 4.2 mô tả một phần của perceptron đa lớp. Hai loại tín hiệu được xác định
trong mạng này:
1. Tín hiệu Chức năng. Tín hiệu chức năng là tín hiệu đầu vào (kích thích) đến ở đầu
vào của mạng, truyền về phía trước (nơ-ron bởi nơ-ron) qua mạng và xuất hiện ở
đầu ra của mạng dưới dạng tín hiệu đầu ra. Chúng tôi gọi một tín hiệu như vậy là
một “tín hiệu chức năng” vì hai lý do. Đầu tiên, nó được cho là thực hiện một
chức năng hữu ích ở đầu ra của mạng. Thứ hai, tại mỗi nơ-ron của mạng mà tín hiệu
chức năng đi qua, tín hiệu được tính như một hàm của các đầu vào và trọng số liên
quan được áp dụng cho nơ-ron đó. Tín hiệu chức năng còn được gọi là tín hiệu đầu
vào.
2. Tín hiệu Lỗi. Một tín hiệu lỗi bắt nguồn từ một nơ-ron đầu ra của mạng và truyền
ngược (từng lớp) qua mạng. Chúng tôi gọi nó là “tín hiệu lỗi” vì tính toán của
nó bởi mọi nơ-ron của mạng liên quan đến một hàm phụ thuộc lỗi ở dạng này hay
dạng khác.
Các nơ-ron đầu ra tạo thành lớp đầu ra của mạng. Các nơ-ron còn lại tạo thành các
lớp ẩn của mạng. Do đó, các đơn vị ẩn không phải là một phần của đầu ra hoặc đầu vào
của mạng — do đó, chúng được chỉ định là "ẩn". Lớp ẩn đầu tiên được đưa vào từ lớp đầu
vào được tạo thành từ các đơn vị cảm giác (các nút nguồn); các kết quả đầu ra của lớp
ẩn đầu tiên lần lượt được áp dụng cho lớp ẩn tiếp theo; và tiếp tục như vậy đối với
phần còn lại của mạng.
Mỗi tế bào thần kinh ẩn hoặc đầu ra của một thụ thể đa lớp được thiết kế để thực
hiện hai phép tính:
1. tính toán của tín hiệu chức năng xuất hiện ở đầu ra của mỗi nơ-ron, được thể hiện
như một hàm phi tuyến liên tục của tín hiệu đầu vào và trọng số tiếp hợp liên kết
với nơ-ron đó;
2. tính toán ước lượng vectơ gradient (tức là gradient của bề mặt lỗi liên quan đến
trọng số được kết nối với đầu vào của nơ-ron), cần thiết cho việc truyền ngược
qua mạng.
HÌNH 4.2 Minh họa các hướng

của hai luồng tín hiệu cơ
bản trong perceptron đa lớp:

sự lan truyền thuận của các
tín hiệu chức năng và sự lan
truyền ngược của các tín hiệu
lỗi.
Các tín hiệu chức năng
Tín hiệu lỗi

Chức năng của các tế bào thần kinh ẩn
Các tế bào thần kinh ẩn hoạt động như một bộ phát hiện tính năng; do đó, chúng đóng một vai trò quan
trọng trong hoạt động của perceptron nhiều lớp.
perceptron, các tế bào thần kinh ẩn bắt đầu dần dần "khám phá" các đặc điểm nổi bật
đặc trưng cho dữ liệu huấn luyện. Chúng làm như vậy bằng cách thực hiện một phép biến đổi phi tuyến tính trên
dữ liệu đầu vào vào một không gian mới được gọi là không gian đặc trưng. Trong không gian mới này, các lớp của
chẳng hạn như mối quan tâm đến một nhiệm vụ phân loại theo mẫu, có thể dễ dàng tách biệt hơn với
nhau hơn có thể là trường hợp trong không gian dữ liệu đầu vào ban đầu. Thật vậy, chính việc kết hợp
không gian tính năng này thông qua học tập có giám sát đã phân biệt nhiều lớp
perceptron từ perceptron của Rosenblatt.
Vấn đề chuyển nhượng tín dụng
Khi nghiên cứu các thuật toán học tập cho các hệ thống phân tán, được minh họa bởi perceptron nhiều lớp
của Hình 4.1, cần chú ý đến khái niệm tín dụng .
phân công. Về cơ bản, vấn đề phân công tín dụng là vấn đề phân công tín dụng
hoặc đổ lỗi cho kết quả tổng thể đối với mỗi quyết định nội bộ được thực hiện bởi các đơn vị giả định
com ẩn của hệ thống học tập phân tán, thừa nhận rằng những quyết định đó là
chịu trách nhiệm về kết quả chung ngay từ đầu.
Trong perceptron nhiều lớp sử dụng phương pháp học tương quan lỗi, việc gán tín dụng
vấn đề nảy sinh bởi vì hoạt động của mỗi nơ-ron ẩn và của mỗi nơ-ron đầu ra trong mạng là quan trọng đối
với hành động tổng thể chính xác của mạng đối với một hoạt động học
nhiệm vụ quan tâm. Nghĩa là, để giải quyết nhiệm vụ theo quy định, nhà mạng phải phân công
một số dạng hành vi nhất định đối với tất cả các nơ-ron của nó thông qua một đặc tả của thuật toán học
sửa lỗi. Với nền này, hãy xem xét tron percep nhiều lớp được mô tả trong Hình 4.1. Vì mỗi nơron đầu ra
có thể nhìn thấy được với thế giới bên ngoài, nó
có thể cung cấp một phản ứng mong muốn để hướng dẫn hành vi của một tế bào thần kinh như vậy. Vì vậy, như
liên quan đến các nơ-ron đầu ra, vấn đề đơn giản là điều chỉnh trọng số khớp thần kinh của mỗi nơ-ron
đầu ra phù hợp với thuật toán sửa lỗi.
Nhưng làm thế nào để chúng ta gán tín dụng hoặc đổ lỗi cho hoạt động của các tế bào thần kinh ẩn khi
thuật toán học sửa lỗi được sử dụng để điều chỉnh trọng số khớp thần kinh tương ứng của
những tế bào thần kinh? Câu trả lời cho câu hỏi cơ bản này đòi hỏi sự suy giảm chi tiết hơn so với
trường hợp của các nơ-ron đầu ra.
Trong những gì tiếp theo trong chương này, chúng tôi chỉ ra rằng thuật toán lan truyền ngược, cơ bản
để đào tạo một perceptron nhiều lớp, giải quyết vấn đề phân công tín chỉ theo cách thức cao. Nhưng trước
khi tiếp tục làm điều đó, chúng tôi mô tả hai phương pháp cơ bản của học siêu nhìn trong phần tiếp theo.
4.3 HỌC BÓNG VÀ HỌC TRỰC TUYẾN
Hãy xem xét một perceptron nhiều lớp với một lớp đầu vào gồm các nút nguồn, một hoặc nhiều
lớp ẩn và lớp đầu ra bao gồm một hoặc nhiều nơ-ron; như minh họa trong
Hình 4.1. Để cho
N
t = {x (n), d (n)} n = 1 (4,1)
Phần 4.3 Học theo lô và học trực tuyến 127
biểu thị mẫu đào tạo được sử dụng để đào tạo mạng theo cách có giám sát. Gọi yj (n)
biểu thị tín hiệu hàm được tạo ra ở đầu ra của nơron j trong lớp đầu ra bởi kích thích
x (n) được áp dụng cho lớp đầu vào. Tương ứng, tín hiệu lỗi được tạo ra ở đầu ra của
nơron j được xác định bởi
ej (n) = dj (n) - yj (4,2)
(n) trong đó dj (n) là phần tử thứ i của vectơ đáp ứng mong muốn d (n). Theo mô tả
thuật ngữ của thuật toán LMS được nghiên cứu trong Chương 3, năng lượng lỗi tức thời
của nơron j được xác định bởi
2
ej (n) = 1 ej (N) (4.3)
2
Tổng các đóng góp năng lượng lỗi của tất cả các nơron trong lớp đầu ra, chúng tôi
biểu thị tổng năng lượng lỗi tức thời của toàn mạng là
e (n) = a ej (n)
j C
1
= 2
một (N) (4,4)
2
ej j C
Trong đó tập hợp C bao gồm tất cả các nơ-ron trong lớp đầu ra. Với mẫu huấn luyện gồm N
ví dụ, năng lượng lỗi được tính trung bình trên mẫu huấn luyện, hoặc rủi ro thực nghiệm,
được xác định bởi
1 N
eav (N) = một e (n)
N
n = 1
1 N
= 2
một một (N) (4,5)
2N
n = 1 ej j C
Đương nhiên, năng lượng lỗi tức thời, và do đó là năng lượng sai số trung bình, đều
là hàm của tất cả các trọng số tiếp hợp có thể điều chỉnh được (tức là các tham số tự
do) của perceptron đa lớp. Sự phụ thuộc hàm này không được đưa vào công thức của e
(n) và eav (N), chỉ đơn giản là để đơn giản hóa thuật ngữ.
Tùy thuộc vào cách thực hiện việc học có giám sát của perceptron nhiều lớp,
chúng tôi có thể xác định hai phương pháp khác nhau — cụ thể là học theo lô và học
trực tuyến, như được thảo luận tiếp theo trong bối cảnh giảm dần độ dốc.
Học theo lô
Trong phương pháp học theo lô có giám sát, các điều chỉnh đối với trọng số tiếp hợp
của perceptron đa lớp được thực hiện sau khi trình bày tất cả N ví dụ trong mẫu đào
tạo t tạo thành một kỷ nguyên đào tạo. Nói cách khác, hàm chi phí cho việc học theo
lô được xác định bởi năng lượng lỗi trung bình eav. Các điều chỉnh đối với trọng
lượng tiếp hợp của perceptron đa lớp được thực hiện trên cơ sở từng kỷ nguyên. Tương
ứng, một nhận thức của đường cong học tập thu được bằng cách vẽ biểu đồ eav so với số
của các kỷ nguyên, trong đó, đối với mỗi kỷ nguyên đào tạo, các ví dụ trong mẫu đào tạo t được
xáo trộn ngẫu nhiên . điều kiện được chọn một cách ngẫu nhiên.
Với phương pháp giảm độ dốc được sử dụng để thực hiện đào tạo, những ưu điểm
của học theo lô bao gồm những điều sau:
• ước lượng chính xác vectơ gradient (tức là đạo hàm của hàm chi phí eav đối với vectơ
trọng số w), do đó đảm bảo, theo các khái niệm đơn giản, sự hội tụ của phương pháp giảm
mạnh nhất đến mức tối thiểu cục bộ; • song song hóa quá trình học tập.
Tuy nhiên, từ góc độ thực tế, học theo lô là khá khắt khe về yêu cầu lưu trữ.
Trong bối cảnh thống kê, học theo lô có thể được xem như một hình thức suy luận thống kê
ence. Do đó, nó rất thích hợp để giải các bài toán hồi quy phi tuyến.
Học trực tuyến
Trong phương pháp trực tuyến của học có giám sát, các điều chỉnh đối với trọng số tiếp hợp của
perceptron đa lớp được thực hiện trên cơ sở từng ví dụ cụ thể .
Hãy xem xét một kỷ nguyên gồm N ví dụ đào tạo được sắp xếp theo thứ tự {x (1), d (1)},
{x (2),...,
d (2)}, {x (N), d (N)}. Ví dụ đầu tiên cặp {x (1), d (1)} trong kỷ nguyên được hiển
thị trên mạng và các điều chỉnh trọng số được thực hiện bằng phương pháp giảm độ dốc. Sau đó,
ví dụ thứ hai {x (2), d (2)} trong kỷ nguyên được trình bày cho mạng, dẫn đến việc điều chỉnh
thêm các trọng số trong mạng. Quy trình này được tiếp tục thực hiện cho đến khi ví dụ cuối
cùng {x (N), d (N)} được tính đến. Thật không may, một thủ tục như vậy hoạt động chống lại sự
song song của việc học trực tuyến.
Đối với một tập hợp các điều kiện ban đầu nhất định, một hiện thực hóa duy nhất của đường
cong học tập thu được bằng cách vẽ biểu đồ giá trị cuối cùng e (N) so với số kỷ nguyên được sử
dụng trong phiên đào tạo, trong đó, như trước đây, các ví dụ đào tạo được xáo trộn ngẫu nhiên sau
mỗi kỷ nguyên. Cũng giống như học theo lô, đường cong học tập cho học trực tuyến được tính toán
bằng cách tính trung bình tổng thể những thực hiện như vậy trên một số lượng đủ lớn các điều kiện
ban đầu được chọn ngẫu nhiên. Đương nhiên, đối với một cấu trúc mạng nhất định, đường cong học tập
thu được khi học trực tuyến sẽ hoàn toàn khác với đường cong học tập theo phương pháp học theo lô.
Giả sử rằng các ví dụ đào tạo được trình bày trên mạng một cách ngẫu nhiên, việc sử
dụng học trực tuyến làm cho việc tìm kiếm trong không gian trọng số đa chiều về bản chất là
ngẫu nhiên; chính vì lý do này mà phương pháp học trực tuyến đôi khi được gọi là phương pháp
ngẫu nhiên. Tính ngẫu nhiên này có tác dụng mong muốn là làm cho quá trình học tập ít bị mắc
kẹt ở mức tối thiểu cục bộ, đây là một lợi thế rõ ràng của học trực tuyến so với học theo lô.
Một ưu điểm khác của học trực tuyến là nó yêu cầu ít dung lượng hơn nhiều so với học theo lô.
Hơn nữa, khi dữ liệu đào tạo là dư thừa (tức là, mẫu đào tạo chứa nhiều bản sao của
cùng một ví dụ), chúng tôi thấy rằng, không giống như học theo lô, trực tuyến
Phần 4.4 Thuật toán lan truyền ngược 129
việc học có thể tận dụng lợi thế của sự dư thừa này vì các ví dụ được trình bày một cách dễ dàng.
Một đặc tính hữu ích khác của học trực tuyến là khả năng theo dõi những thay đổi nhỏ trong
dữ liệu đào tạo, đặc biệt khi môi trường chịu trách nhiệm tạo ra dữ liệu là không cố định.
Tóm lại, bất chấp những nhược điểm của phương pháp học trực tuyến, nó rất phổ biến đối với
giải quyết các vấn đề phân loại mẫu vì hai lý do thực tế quan trọng:
• Học trực tuyến rất dễ thực hiện. • Nó cung cấp
các giải pháp hiệu quả để phân loại mẫu quy mô lớn và khó
các vấn đề.
Chính vì hai lý do này mà phần lớn tài liệu được trình bày trong chương này được dành cho việc
học trực tuyến.
4.4 THUẬT TOÁN DỰ PHÒNG
Sự phổ biến của việc học trực tuyến đối với việc đào tạo có giám sát các perceptron nhiều lớp đã
được nâng cao hơn nữa nhờ sự phát triển của thuật toán lan truyền ngược. Để mô tả thuật toán này,
hãy xem Hình 4.3, mô tả nơ-ron j được cung cấp bởi một tập hợp
Neuron j
1
y0
y1 (n)
wj0 (n) bj (n)

dj (n)
•
•
•
w () 1
wji (n) vj (n) yj (n)
yi (n) ej (n)
•
•
•
ym (n)
HÌNH 4.3 Biểu đồ luồng tín hiệu làm nổi bật các chi tiết của nơ-ron đầu ra j.
các tín hiệu chức năng được tạo ra bởi một lớp tế bào thần kinh ở bên trái của nó. Do đó , trường
cục bộ cảm ứng vj (n) được tạo ra ở đầu vào của hàm kích hoạt liên kết với nơron j
vj (n) = a wji (n) yi (n) (4,6)

i = 0
trong đó m là tổng số đầu vào (không bao gồm độ lệch) được áp dụng cho nơron j. Trọng số của synap
wj0 (tương ứng với đầu vào cố định y0 1) bằng độ lệch bj áp dụng cho nơron
(n) xuất
j. Do
hiện
đó,ở tín
đầu hiệu
ra của
hàm yj
nơron j tại
lần lặp n là
yj (n) = j (vj (n)) (4,7)
Theo cách tương tự như thuật toán LMS được nghiên cứu trong Chương 3, thuật toán lan truyền
ngược áp dụng một hiệu chỉnh wji (n) cho trọng số
tiếp hợp wji (n), tỷ lệ với đạo hàm riêng 0e (n) 0wji (n)
. Theo quy tắc dây chuyền của phép
tính, chúng ta có thể biểu thị độ dốc này dưới dạng
0e (n) 0ej0yj
(n) 0ej (n) (n)(n)
0yj0vj
(n)(n)
0vj0wji
(n) (n)
0e
=
(4,8)
0wji (n)
Đạo hàm riêng 0e (n) 0wji (n) đại diện cho một hệ số nhạy, xác định hướng tìm kiếm trong không gian
trọng số của wji trọng số synap.

Phân biệt cả hai mặt của Eq. (4.4) đối với ej (n), chúng tôi nhận được
0e (n)
= ej (n) (4,9)
0ej (n)
Phân biệt cả hai mặt của Eq. (4.2) đối với yj (n), chúng tôi nhận được
0ej (n)
= -1 (4.10)
0yj (n)
Tiếp theo, phân biệt Eq. (4.7) đối với vj (n), chúng tôi nhận được
0yj (n)
=
¿ J (vj (n)) (4.11)
0vj (n)
trong đó việc sử dụng số nguyên tố (ở phía bên phải) biểu thị sự khác biệt đối với đối số. Cuối cùng,
phân biệt Eq. (4.6) đối với lợi suất wji (n)
0vj (n) =
yi (n) (4.12)
0wji (n)
Việc sử dụng Eqs. (4.9) đến (4.12) trong Eq. (4.8) sản lượng
0e (n)
= -ej (n) ¿ j (vj (n)) yi (n) (4,13)
0wji (n)
¢
Hiệu chỉnh wji (n) áp dụng cho wji (n) được xác định bởi quy tắc delta, hoặc
0e (n)
¢ wji (n) = - 0wji (n) (4,14)
tham số tốc độ học của thuật toán lan truyền ngược ở đâu. Việc sử dụng dấu trừ trong Eq.
(4.14) tính đến sự giảm dần độ dốc trong không gian trọng lượng (tức là, tìm kiếm e (n)
một hướng thay đổi trọng lượng làm giảm giá trị của Eq. (4.13) trong
). Theo
Eq.đó,
(4.14)
việc sản
sử dụng
lượng
¢ wji (n) = j (n) yi (n) (4,15)
nơi gradient cục bộ j (n) được xác định
bởi 0e
(n) j (n) = 0vj
(n) 0ej
0ej (n) (n)

0yj 0yj
(n) (n)
0vj 0e
(n)(n)
=
=
ej (n) ¿ j (vj (n))
(4,16)
Gradient cục bộ chỉ ra những thay đổi bắt buộc trong trọng số của khớp thần kinh. (4.16),
gradient cục bộ j (n)nơron
cho nơron
đó và đầu
đạo ra
hàmj jbằng
(vj tích
(n)) của
của tín
hàm hiệu
activa
lỗition
tương
liên
ứngquan.
ej (n) cho
Từ Eqs. (4.15) và (4.16), chúng ta lưu ý rằng yếu tố quan trọng liên quan đến việc
tính toán hiệu chỉnh trọng số ! Wji (n) là tín hiệu lỗi ej (n) ở đầu ra của nơron j. Trong
bối cảnh này, chúng ta có thể xác định hai trường hợp riêng biệt, tùy thuộc vào vị trí của
nơ-ron mạng j . Trong trường hợp 1, nơron j là một nút đầu ra. Trường hợp này đơn giản để
xử lý vì mỗi nút đầu ra của mạng được cung cấp một phản hồi mong muốn của riêng nó, làm cho
việc tính toán tín hiệu lỗi liên quan trở nên đơn giản. Trong trường hợp 2, nơron j là một
nút ẩn. Mặc dù các nơ-ron ẩn không thể truy cập trực tiếp nhưng chúng chia sẻ trách nhiệm
đối với bất kỳ lỗi nào được thực hiện ở đầu ra của mạng. Tuy nhiên, câu hỏi đặt ra là phải
biết cách trừng phạt hay khen thưởng những tế bào thần kinh tiềm ẩn vì họ đã chia sẻ trách nhiệm.
Vấn đề này là vấn đề phân bổ tín dụng được xem xét trong Phần 4.2.
Trường hợp 1 Neuron j là một nút đầu ra
Khi nơron j nằm trong lớp đầu ra của mạng, nó được cung cấp một phản hồi mong muốn của riêng
nó. Chúng tôi có thể sử dụng Eq. (4.2) để tính toán tín hiệu lỗi ej (n) liên quan đến nơron
này; xem Hình 4.3. Sau khi xác định ej (n), chúng tôi thấy rằng việc tính toán gradient cục
bộ j (n) bằng cách sử dụng Eq là một vấn đề đơn giản. (4,16).
Trường hợp 2 Neuron j là một nút ẩn
Khi nơ-ron j nằm trong lớp ẩn của mạng, không có phản hồi mong muốn cụ thể nào cho nơ-
ron đó. nơ-ron mà nơ-ron ẩn đó được kết nối trực tiếp; đây là nơi
sự phát triển của thuật toán lan truyền ngược trở nên phức tạp. Hãy xem xét sơ đồ trang trong
Hình 4.4, mô tả nơ-ron j như một nút ẩn của mạng. Theo Eq. (4.16), chúng ta có thể xác định lại
gradient cục bộ j (n) cho nơron ẩn j là 0yj (n) 0e (n) (j n)),

(n) =nơron
- 0yjj (n)
bị ẩn
0vj (n) 0e (n) ¿ j (vj
= -
(4,17)
0yj (n)
trong dòng thứ hai, chúng tôi đã sử dụng Eq. (4.11). Để tính đạo hàm riêng 0e (n) 0yj (n)
,chúng ta có thể tiến hành như sau: Từ Hình 4.4, chúng ta thấy rằng
1 e (n) = một e2 k (n), nơron k là một nút đầu ra (4,18)

2 kHC
là Eq. (4.4) với chỉ số k được sử dụng thay cho chỉ số j. Chúng tôi thực hiện sự thay thế này để
tránh nhầm lẫn với việc sử dụng chỉ số j tham chiếu đến một nơ-ron ẩn trong trường hợp 2. Phân
biệt Eq. (4.18) đối với tín hiệu hàm yj (n), chúng ta nhận được
0e (n) 0ek (n)

= a 0yj ek (4,19)
(n) k 0yj (n)
Neuron j Neuron k
1 1
y0
wj0 (n) bj (n)

dk (n)
• •
• •
• •
v y j (n) vk (n) w () yk (n) 1

wji (n) j (n) w () wkj (n)
yi (n) ek (n)
• •
• •
• •
HÌNH 4.4 Đồ thị luồng tín hiệu làm nổi bật các chi tiết của nơron đầu ra k kết nối với nơron ẩn j.
Tiếp theo, chúng ta sử dụng quy tắc chuỗi cho đạo hàm 0ek (n) 0yj (n) và viết lại phương trình. (4,19)
riêng ở dạng tương đương
0e (n) 0ek (n) 0vk (n) = a ek (n) 0yj (n)

0vk (n) 0yj (n) (4,20)
k
Tuy nhiên, từ Hình 4.4, chúng tôi lưu ý rằng
ek (n) = dk (n) - yk (n) = dk

(4,21)
(n) - k (vk (n)), nơron k là một nút đầu ra
Kể từ đây,
0ek (n)
= -
¿ K (vk (n)) (4,22)
0vk (n)
Chúng tôi cũng lưu ý từ Hình 4.4 rằng đối với nơron k, trường cục bộ cảm ứng là
vk (n) = a wkj (n) yj (n) (4,23)

j = 0
trong đó m là tổng số đầu vào (không bao gồm độ lệch) được áp dụng cho nơron k. Ở đây một lần nữa, trọng số của
synap wk0 (n) bằng với độ lệch bk (n) được áp dụng cho nơron k và đầu vào tương ứng được cố định ở giá trị 1.
Phân biệt Eq. (4.23) đối với sản lượng yj (n)
0vk (n)
= wkj (n) 0yj (4,24)
(n)
Bằng cách sử dụng Eqs. (4,22) và (4,24) trong phương trình (4.20), chúng tôi nhận được đạo hàm riêng mong muốn
0e (n)
= - a ek (n) ¿ k (vk (n)) wkj (n) 0yj (n)
k (4,25)
= - a k (n) wkj (n)

k
trong đó, trong dòng thứ hai, chúng ta đã sử dụng định nghĩa của gradient cục bộ k (n) cho trong phương trình.
(4.16), với chỉ số k được thay thế cho j.
Cuối cùng, sử dụng Eq. (4,25) trong Eq. (4.17), chúng tôi nhận được công thức lan truyền ngược cho
gradient cục bộ j (n), được mô tả bởi
j (n) = ¿ J (vj (n)) a k (n) wkj (n), nơron j bị ẩn (4,26)

k
Hình 4.5 cho thấy biểu diễn đồ thị luồng tín hiệu của Eq. (4.26), giả sử rằng lớp đầu
ra bao gồm các tế bào thần kinh mL .
Các yếu tố bên ngoài
j (vj (n)) tham gia vào việc tính toán gradient cục bộ j (n) trong phương
trình. (4.26) chỉ phụ thuộc vào hàm kích hoạt liên kết với nơron ẩn j.
Yếu tố còn lại liên quan đến phép tính này - cụ thể là tổng trên k - phụ thuộc vào
hai tập hợp các số hạng. Tập hợp các số hạng đầu tiên, k (n), yêu cầu kiến thức về lỗi
HÌNH 4.5 Đồ thị luồng tín D1 (n) W1 (v1 (n))
hiệu của một phần của hệ thống e1 (n)
liền kề liên quan đến sự lan

w1j (n) • •
truyền ngược của tín hiệu lỗi. • •
• •
Dj (n) wkj (n) Dk (n) Wk (vk (n))
ek (n)
• •
• •
• •
wmLj (n)
DmL (n)
emL (n)
W mL (vmL (n))
tín hiệu ek (n) cho tất cả các nơ-ron nằm trong lớp bên phải ngay của nơ ron ẩn j
và được kết nối trực tiếp với nơ ron j; xem Hình 4.4. Tập hợp thuật ngữ thứ hai,
wkj (n), bao gồm các trọng số của khớp thần kinh liên quan đến các kết nối này.
Bây giờ chúng ta tóm tắt các quan hệ mà chúng ta đã thu được cho thuật toán lan truyền
ngược. Đầu tiên, hiệu chỉnh ! Wji (n) áp dụng cho trọng số khớp thần kinh kết nối neu ron i
với neuron j được xác định bởi quy tắc delta:
điều chỉnh dốc của nơron j, (4,27)
° Trọng
lượng ¢ wji (n) ¢ số
= °tốc
tham
độ học ¢ * ° cục bộj (n) ¢ * ° tín hiệu
vào đầu
yi (n) ¢
Thứ hai, gradient cục bộ j (n) phụ thuộc vào việc nơron j là nút đầu ra
hay nút ẩn:
1. Nếu nơron j là một nút đầu ra, (n) bằng tích của đạo hàm j (vj (n)) và tín
j
hiệu lỗi ej (n), cả hai đều được liên kết với nơron j; xem Eq. (4,16).
2. Nếu nơron j là một nút ẩn, (n) bằng tích của đạo hàm liên kết j (vj (n))
j
và tổng trọng số của s được tính cho các nơron trong lớp ẩn hoặc lớp
đầu ra tiếp theo được kết nối với nơron cái j; xem Eq. (4,26).
Hai vượt qua của tính toán
Trong ứng dụng của thuật toán lan truyền ngược, người ta phân biệt được hai đường chuyền
khác nhau của computa tion. Đường chuyền đầu tiên được gọi là đường chuyền tiến, và đường
chuyền thứ hai được gọi là đường chuyền lùi.
Trong quá trình chuyển tiếp, trọng số của khớp thần kinh vẫn không thay đổi trong
suốt quá trình hoạt động của mạng, và các tín hiệu chức năng của mạng được tính toán
trên cơ sở từng nơ-ron. Tín hiệu hàm xuất hiện ở đầu ra của nơron j được tính là
yj (n) = (vj (n)) (4,28)
trong đó vj (n) là trường cục bộ cảm ứng của nơron j, được xác định bởi
m
v (4,29)
j (n) = a wji (n) yi (n)
i = 0
trong đó m là tổng số đầu vào (không bao gồm độ lệch) được áp dụng cho nơron j; wji (n) là
trọng số tiếp hợp nối nơron i với nơron j; và yi (n) là tín hiệu đầu vào của neu ron j, hay
tương đương, là tín hiệu hàm xuất hiện ở đầu ra của neuron i. Nếu nơron j nằm trong lớp ẩn đầu
tiên của mạng, thì m m0 và chỉ số i tham chiếu đến đầu vào thứ i của mạng mà chúng ta viết
yi (n) = xi (n) (4,30)
trong đó xi (n) là phần tử thứ i của vectơ đầu vào (mẫu). Mặt khác, nếu neu ron j nằm trong
lớp đầu ra của mạng, thì m mL và chỉ số j đề cập đến đầu ra thứ j của mạng mà chúng ta viết
yj (n) = oj (n) (4,31)
trong đó oj (n) là phần tử thứ j của vectơ đầu ra của perceptron nhiều lớp. Kết quả đưa ra
này được so sánh với phản hồi mong muốn dj (n), thu được tín hiệu lỗi ej (n) cho nơron đầu ra
thứ j . Do đó, giai đoạn chuyển tiếp của tính toán bắt đầu ở lớp ẩn đầu tiên bằng cách trình
bày nó với vector đầu vào và kết thúc ở lớp đầu ra bằng cách com đặt tín hiệu lỗi cho mỗi nơ-
ron của lớp này.
Ngược lại, ngược lại, bắt đầu từ lớp đầu ra bằng cách truyền các tín hiệu lỗi sang trái
qua mạng, từng lớp, và tính toán đệ quy (tức là gradient cục bộ) cho mỗi nơ-ron. Quá trình đệ
quy này cho phép các trọng số tiếp hợp của mạng trải qua những thay đổi phù hợp với quy tắc
delta của Eq. (4,27).
Đối với một nơ-ron nằm trong lớp đầu ra, đơn giản bằng tín hiệu lỗi của nơ-ron đó nhân với đạo
hàm đầu tiên của tính phi tuyến của nó. Do đó, chúng tôi sử dụng Eq. (4.27) để tính toán các
thay đổi đối với trọng lượng của tất cả các kết nối đưa vào lớp đầu ra.
Với s cho các nơron của lớp đầu ra, tiếp theo chúng ta sử dụng Eq. (4.26) để tính toán s cho
tất cả các nơ-ron ở lớp áp chót và do đó thay đổi trọng số của tất cả các kết nối cung cấp
cho nó. .
Lưu ý rằng đối với việc trình bày từng ví dụ đào tạo, mẫu đầu vào là cố định - nghĩa là,
được “kẹp chặt” trong suốt quá trình khứ hồi, bao gồm chuyển tiếp tiến, sau là chuyển lùi.
Chức năng kích hoạt
Việc tính toán cho mỗi neuron của perceptron đa lớp yêu cầu biết cạnh của đạo hàm của hàm kích
hoạt (·) được liên kết với neuron đó. Để đạo hàm này tồn tại, chúng ta yêu cầu hàm (·) phải
liên tục. Theo thuật ngữ cơ bản, khả năng hấp thụ khác nhau là yêu cầu duy nhất mà một chức
năng kích hoạt phải đáp ứng.
1 hai dạng trong số đó được mô tả ở đây:

lớp perceptron là phi tuyến sigmoidal,
1. Chức năng Logistic. Dạng phi tuyến sigmoidal này, ở dạng tổng quát, được định nghĩa
bởi
1
một 7 0 (4,32)
j (vj (n))
= 1 + exp (-avj (n)),
trong đó vj (n) là trường cục bộ cảm ứng của nơron j và a là tham số dương có thể điều chỉnh.
Theo tính phi tuyến này, biên độ của đầu ra nằm trong phạm vi 0 yj 1.
Phân biệt Eq. (4.32) đối với vj (n), chúng ta nhận được exp (-
avj (n)) ¿ j (vj (n)) = [1

+ exp (-avj (n))] 2 (4,33)
Với yj (n) j (vj (n)), chúng ta có thể loại bỏ số hạng mũ exp (-avj (n)) khỏi phương trình. (4.33)
và do đó biểu diễn đạo hàm j (vj (n)) dưới dạng
¿ J (vj (n)) = ayj (n) [1 - yj (n)] (4,34)
Đối với một nơron j nằm trong lớp đầu ra, yj (n) oj (n). Do đó, chúng ta có thể biểu thị gradient
cục bộ cho nơron j như
j (n) = ej (n) ¿ j (vj

(4,35)
(n)) = a [dj (n) - oj (n)] oj (n) [1 - oj (n)], nơron j là một nút đầu ra
trong đó oj (n) là tín hiệu hàm ở đầu ra của nơron j, và dj (n) là phản hồi mong muốn cho nó. Mặt
khác, đối với một nơron ẩn j tùy ý, chúng ta có thể biểu thị gradient cục bộ dưới dạng
j (n) = ¿ J (vj (n)) a k (n) wkj (n)

k (4,36)
= ayj (n) [1 - yj (n)] a k (n) wkj (n), nơron j bị ẩn

k
Lưu ý từ Eq. (4.34) rằng đạo hàm j (vj (n)) đạt giá trị lớn nhất tại yj (n) 0,5 và giá trị nhỏ
nhất (không) tại yj (n) 0 hoặc yj (n) 1,0. Vì lượng thay đổi j (vj (n)), trọng số tiếp hợp của mạng
hàm nên đối với chức năng kích hoạt sigmoid, trọng số tiếp hợp được thay đổi nhiều
tỷ nhất
lệ thuận
đối với các
đạo
nơron trong mạng mà hàm tín hiệu ở mức trung bình của chúng. Theo Rumelhart et al. (1986a), chính
tính năng này của việc học truyền ngược đã đánh dấu sự ổn định của nó như một thuật toán học tập.
2. Hàm số tiếp tuyến hypebol. Một dạng khác thường được sử dụng của hàm số không
tuyến tính sigmoidal là hàm tiếp tuyến hyperbol, ở dạng tổng quát nhất, được định nghĩa bởi
j (vj (n)) = a tanh (bvj (n)) (4,37)
trong đó a và b là các hằng số dương. Trong thực tế, hàm tiếp tuyến hyperbol chỉ là một hàm logistic
được thay đổi tỷ lệ và sai lệch. Đạo hàm của nó đối với vj (n) được cho bởi
¿ J (vj (n)) = ab sech2 (bvj
(n)) = ab (1 - tanh2 (bvj (n))) (4,38)
b
=
[a - yj (n)] [a + yj (n)]
một
Đối với một nơron j nằm trong lớp đầu ra, gradient cục bộ là
j (n) = ej (n) ¿ j (vj (n))
b (4,39)
=
[dj (n) - oj (n)] [a - oj (n)] [a + oj (n)]
một
Đối với một nơron j trong một lớp ẩn, chúng ta có
j (n) = ¿ J (vj (n)) a k (n) wkj (n)

k
b (4,40)
=
[a - yj (n)] [a + yj (n)] a k (n) wkj (n), nơron j bị ẩn
một
k
Bằng cách sử dụng Eqs. (4,35) và (4,36) cho hàm logistic và Eqs. (4.39) và (4.40) đối với hàm
tiếp tuyến hyperbol, chúng ta có thể tính toán gradient cục bộ j mà không yêu
rõ ràng
cầu kiến
về hàm
thức
kích
hoạt.
Tỷ lệ học tập
Thuật toán lan truyền ngược cung cấp "tính gần đúng" cho quỹ đạo trong không gian trọng lượng
được tính bằng phương pháp dốc xuống nhất. Chúng tôi thực hiện việc học càng nhỏ thì các thay
lần lặp này sang lầnđổi
lặpđối
tiếp
vớitheo,
trọngvàsốquỹ
khớp
đạothần
trong
kinh
không
trong
gian
mạng
trọng
sẽ là
số tham
sẽ càng
số tốc
mượtđộ,
mà.từ
Tuy nhiên, sự cải tiến này đạt được với cái giá phải trả là tốc độ học tập chậm hơn. Mặt khác,
nếu chúng ta đặt tham số tốc độ học quá lớn để tăng tốc độ học, thì kết quả là những thay đổi
lớn trong trọng số synap sẽ giả định rằng mạng có thể trở nên không ổn định (tức là dao động).
Một phương pháp đơn giản để tăng tỷ lệ học tập trong khi tránh nguy cơ mất ổn định là sửa đổi
quy tắc đồng bằng của Eq. (4.15) bằng cách bao gồm một số hạng động lượng, như được hiển thị
bởi
¢ wji (n) = ¢ wji (n - 1) + j (n) yi (n) trong đó (4,41)
thường là một số dương được gọi là hằng số động lượng. Nó điều khiển vòng lặp ngược nguồn cấp dữ liệu
hoạt động xung quanh ! Wji (n), như được minh họa trong Hình 4.6, trong đó z-1 là toán tử thời gian trễ
đơn vị. Phương trình (4.41) được gọi là quy tắc đồng bằng tổng quát2 ; nó bao gồm quy tắc đồng bằng của
Eq. (4.15) như một trường hợp đặc biệt (tức là, 0).
Để thấy ảnh hưởng của chuỗi trình bày mẫu đối với trọng số của khớp thần kinh do hằng
số xung lượng, chúng tôi viết lại Eq. (4.41) như ,một chuỗi
đi từ thờithời
điểmgian
ban với
đầu chỉ số thời
0 đến t. Chỉ số hiện
điểm t
tại n. Phương trình (4.41)
dj (n) yi (n) HÌNH 4.6 Đồ thị dòng

tín hiệu minh họa ảnh
hưởng của hằng số xung ,
lượng nằm bên trong vòng
z1 h phản hồi.
một
! wji (n 1) ! wji (n)

¢
có thể được xem như một phương trình sai phân bậc nhất trong wji (n) hiệu chỉnh trọng lượng.
¢
Giải phương trình này cho wji (n), chúng ta có
N
nt
¢ wji (n) = a j (t) yi (t) (4,42)
t = 0
đại diện cho một chuỗi thời gian có độ dài n 1. Từ Eqs. (4.13) và (4.16), chúng tôi lưu ý rằng
sản phẩm j (n) yi (n) bằng -0e (n) 0wji (n) . Do đó, chúng tôi có thể viết lại Eq. (4,42) trong
hình thức tương đương
N
nt 0e (t)
¢ wji (n) = - a (4,43)
t = 0 0wji (t)
Dựa trên mối quan hệ này, chúng tôi có thể đưa ra những nhận xét sâu sắc sau:
¢
1. Điều chỉnh hiện tại wji (n) đại diện cho tổng của một trọng số theo cấp số nhân
chuỗi thời gian. Để chuỗi thời gian là hội tụ, hằng số động lượng phải là
giới hạn trong phạm vi 0 6 1. Khi bằng 0, thuật toán lan truyền ngược
hoạt động mà không có động lượng. Ngoài ra, hằng số xung lượng có thể là dương hoặc nega
tive, mặc dù không chắc là âm sẽ được sử dụng trong thực tế.
2. Khi đạo hàm riêng có cùng dấu đại số trên

0e (t) 0wji các
(t) lần lặp cụ thể, tổng trọng số theo
¢
cấp số nhân wji (n) tăng theo độ lớn, và
do đó trọng lượng wji (n) được điều chỉnh một lượng lớn. Việc đưa momen tum vào thuật toán
lan truyền ngược có xu hướng tăng tốc quá trình xuống dốc ổn định
hướng.
3. Khi đạo hàm riêng 0e (t) 0wji (t) có các dấu hiệu trái ngược nhau liên tiếp
¢
lặp lại, tổng trọng số theo hàm mũ wji (n) co lại về độ lớn, và nghĩa là trọng lượng wji (n)
được điều chỉnh một lượng nhỏ.
thuật toán lan truyền ngược có tác dụng ổn định theo các hướng dao động cùng dấu.
Việc kết hợp động lượng trong thuật toán lan truyền ngược biểu thị một
sửa đổi nhỏ đối với bản cập nhật trọng lượng; tuy nhiên, nó có thể có một số tác dụng có lợi
về hành vi học tập của thuật toán. Thuật ngữ động lượng cũng có thể có lợi ích trong việc
ngăn quá trình học tập kết thúc ở mức tối thiểu cục bộ nông trên
bề mặt lỗi.
Khi suy ra thuật toán lan truyền ngược, người ta giả định rằng tốc độ học
tham số là một hằng số được ký hiệu là. Tuy nhiên, trong thực tế, nó nên được định nghĩa là ji;
nghĩa là, tham số tốc độ học phải phụ thuộc vào kết nối. Thật vậy, nhiều thứ lồng vào nhau
có thể được thực hiện bằng cách làm cho thông số tốc độ học khác nhau cho các
các bộ phận của mạng. Chúng tôi cung cấp thêm chi tiết về vấn đề này trong các phần tiếp theo.
Cũng cần lưu ý rằng trong việc áp dụng thuật toán lan truyền ngược,
chúng tôi có thể chọn tất cả các trọng số tiếp hợp trong mạng để có thể điều chỉnh hoặc chúng
tôi có thể điều chỉnh bất kỳ số trọng số nào trong mạng để duy trì cố định trong quá trình điều chỉnh
quá trình. Trong trường hợp thứ hai, các tín hiệu lỗi được truyền ngược lại qua mạng
theo cách thông thường; tuy nhiên, trọng lượng khớp thần kinh cố định không bị thay đổi. Điều này có thể là
được thực hiện đơn giản bằng cách đặt tham số tốc độ học ji cho wji trọng lượng khớp thần kinh bằng
số không.
Tiêu chí đang dừng
Nói chung, thuật toán lan truyền ngược không thể được hiển thị để hội tụ và không có
tiêu chí xác định rõ ràng để dừng hoạt động của nó. Thay vào đó, có một số tiêu chí
hợp lý, mỗi tiêu chí có giá trị thực tế riêng, có thể được sử dụng để chấm dứt việc
điều chỉnh trọng lượng. Để hình thành một tiêu chí như vậy, hợp lý là phải suy nghĩ
về các thuộc tính duy nhất của một điểm tối thiểu cục bộ hoặc toàn cục của bề mặt
lỗi . * tối thiểu là vectơ gradient g (w) (tức là đạo hàm riêng bậc nhất) của bề mặt
lỗi đối với vectơ trọng số w phải bằng 0 tại w w *. Do đó, chúng tôi có thể xây dựng
một tiêu chí hội tụ hợp lý cho việc học truyền ngược như sau (Kramer và Sangiovanni-
Vincentelli, 1989):
Thuật toán lan truyền ngược được coi là đã hội tụ khi chuẩn Euclide của vector gradient
đạt đến ngưỡng gradient đủ nhỏ.
Hạn chế của tiêu chí hội tụ này là đối với các thử nghiệm thành công, thời gian học
tập có thể kéo dài. Ngoài ra, nó yêu cầu tính toán vector gradient g (w).
Một thuộc tính duy nhất khác của mức tối thiểu mà chúng ta có thể sử dụng là
thực tế là hàmmột
xuất chitiêu
phí chí
eav hội
(w) tụ
đứng yên tại điểm w w *. Do đó, chúng tôi có thể đề
khác:
Thuật toán lan truyền ngược được coi là đã hội tụ khi tốc độ thay đổi tuyệt đối trong sai
số bình phương trung bình trên mỗi kỷ nguyên là đủ nhỏ.
Tỷ lệ thay đổi trong sai số bình phương trung bình thường được coi là đủ nhỏ nếu nó
nằm trong khoảng 0,1 đến 1 phần trăm mỗi kỷ nguyên. Đôi khi, một giá trị nhỏ tới 0,01
phần trăm mỗi kỷ nguyên được sử dụng. Thật không may, tiêu chí này có thể khiến quá
trình học tập bị chấm dứt sớm.
Có một tiêu chí hữu ích và được hỗ trợ về mặt lý thuyết cho sự hội tụ: Sau mỗi
lần lặp lại việc học, mạng được kiểm tra về hiệu suất tổng quát hóa của nó.
Quá trình học tập bị dừng lại khi hiệu suất tổng quát hóa đã đủ hoặc khi rõ ràng rằng
hiệu suất tổng quát hóa đã đạt đến đỉnh điểm; xem Phần 4.13 để biết thêm chi tiết.
Tóm tắt về thuật toán lan truyền ngược
Hình 4.1 trình bày bố cục kiến trúc của perceptron nhiều lớp. Biểu đồ luồng tín hiệu
tương ứng cho việc học truyền ngược, kết hợp cả giai đoạn phường và giai đoạn lùi
của các phép tính liên quan đến quá trình học tập, được trình bày trong Hình 4.7 cho
trường hợp L 2 và m0 m1 m2 3. Phần trên một phần của biểu đồ luồng tín hiệu chiếm
đường truyền tới. Phần dưới của đồ thị luồng tín hiệu chiếm đường truyền lùi, được
gọi là đồ thị độ nhạy để tính toán các gradient cục bộ trong thuật toán lan truyền
ngược (Narendra và Parthasarathy, 1990).
Trước đó, chúng tôi đã đề cập rằng cập nhật tuần tự các trọng số là phương pháp
ưu tiên để triển khai trực tuyến thuật toán lan truyền ngược. Đối với chế độ này
1 (1) (1) 1 (2) (2)

w10 b w10 b
(1) (1) (2)
v1 w () y1 v1 w () o1 1 d1
x1
(1) (1) (2)

v2 w () y2 v2 w () o2 1 e1 d2
x2
(1) (1) (2)

v3 w () y3 v3 w () o3 1 e2 d3
x3
(2)
(1) w13 w13
e3
(1) (1) (1) (2) (2) (2)
v1 v2 v3 v1 v2 v3
w () w ()
e1
w () w ()
e2
w () w ()
e3
(2)
w31
(1) (1) (1) d1 (2) (2)

d2 d3 (2) d1 d2 d3
HÌNH 4.7 Tóm tắt đồ họa luồng tín hiệu của quá trình học truyền ngược.
đồ thị: chuyển tiếp. Phần dưới cùng của biểu đồ: chuyền lùi.
của hoạt động, thuật toán quay vòng qua mẫu huấn luyện {(x (n), d (n))} N n 1 as
sau:
1. Khởi tạo. Giả sử rằng không có sẵn thông tin trước đó, hãy chọn trọng số và ngưỡng
synap tic từ một phân phối thống nhất có giá trị trung bình bằng 0 và có
phương sai được chọn để làm cho độ lệch chuẩn của các trường cục bộ cảm ứng của neu
rons nằm ở phần chuyển tiếp giữa các phần tuyến tính và tiêu chuẩn của hàm sigmoid
activa tion.
2. Trình bày Ví dụ về Đào tạo. Trình bày cho mạng một kỷ nguyên đào tạo
Đối với mỗi ví dụ trong mẫu, được sắp xếp theo thứ tự nào đó, hãy thực hiện trình tự
tính toán tiến và lùi tương ứng được mô tả trong các điểm 3 và 4.
3. Tính toán chuyển tiếp. Hãy để một ví dụ đào tạo trong kỷ nguyên được ký hiệu là (x (n),
d (n)), với vectơ đầu vào x (n) được áp dụng cho lớp đầu vào của các nút cảm giác và
vectơ đáp ứng mong muốn d (n) được trình bày cho lớp đầu ra của các nút tính toán. Bắt đầu ngắt
các trường cục bộ được tạo ra và các tín hiệu chức năng của mạng bằng cách tiếp tục chuyển tiếp
thông qua mạng, từng lớp. Trường cục bộ cảm ứng cho nơron j trongv lớp
(l)
l
(N)
j là
v w (l)
j ji (n) y (l-1) i (n) (4,44)
(l) (n) = ai
Phần 4.5 XOR Vấn đề 141
trong đó yi (l-1) (n) là tín hiệu đầu ra (hàm) của nơron i trong lớp trước đó l - 1 at (l) (n) là
n, và (l -1) (n) 0,w ji
ta
trọng
có y0
số tiếp hợp của nơron j trong lớp l được cấp từ sự lặp lại của nơron.
ron i trong lớp l - 1. Với i (n) (n) là sai lệch w j0 được 1 (l)nơron
ápvàdụng dụng
cho b (l)j jnơron
đầutrong
một hàm
lớp
ra của sigmoid,
l. Giả sử
tín
sửhiệu
j trong lớp
l là
y j(l) = j (vj (n))
Nếu nơron j nằm trong lớp ẩn đầu tiên (tức là, l 1), hãy đặt
(0) yj
(n) = xj (n)
trong đó xj ( n) là phần tử thứ j của vectơ đầu vào x (n) .
y j(L) = oj (n)
Tính toán tín hiệu lỗi
ej (n) = dj (n) - oj (n) (4,45)
trong đó dj (n) là phần tử thứ j của vectơ đáp ứng mong muốn d (n).
4. Tính toán ngược. Tính toán các s (tức là các gradient cục bộ) của mạng, được xác định bởi
e(L)
j (n) j¿(v (L)
j (n)) cho nơron j trong lớp đầu ra L
j (4,46)
ja ¿(v
(l)
j (n)) k + 1) (n)w kj (l + 1) (n) cho nơron j trong lớp ẩn l
(l
(l) (n) = • k
trong đó số nguyên j () biểu thị sự khác biệt đối với đối số. Điều chỉnh
tố trong trọng số tiếp hợp của mạng ở lớp l theo quy tắc đồng bằng tổng quát
wji (l) (n + 1) = w ji
(l) (n) + [¢ wji (l) (n - 1)] + (l) (l-1)
j (n)(n) yi (4,47)
tham số tốc độ học ở đâu và là hằng số xung lượng.

5. Sự lặp lại. Lặp lại các tính toán tiến và lùi theo điểm 3 và 4 bằng cách
trình bày các kỷ nguyên mới của các ví dụ huấn luyện cho mạng cho đến khi đáp ứng
tiêu chí dừng ping đã chọn.
Lưu ý: Thứ tự trình bày các ví dụ đào tạo nên được sắp xếp ngẫu nhiên từ kỷ nguyên này sang kỷ nguyên khác.
Thông số động lượng và tốc độ học tập thường được điều chỉnh (và thường giảm) khi số lần lặp
lại đào tạo tăng lên. Sự biện minh cho những điểm này sẽ được trình bày ở phần sau.
4.5 VẤN ĐỀ XOR
Trong perceptron một lớp của Rosenblatt, không có tế bào thần kinh ẩn nào. Do đó, nó
không thể phân loại các mẫu đầu vào không thể phân tách tuyến tính. Tuy nhiên, các mẫu
có thể tách rời phi tuyến tính thường xảy ra. Ví dụ, tình huống này phát sinh trong bài
toán HOẶC (XOR) độc quyền, có thể được xem như một trường hợp đặc biệt của một bài toán
tổng quát hơn, cụ thể là phân loại điểm trong siêu khối đơn vị. Mỗi điểm trong siêu khối
đều thuộc lớp 0 hoặc lớp 1. Tuy nhiên, trong trường hợp đặc biệt của bài toán XOR, chúng ta cần
chỉ xem xét bốn góc của hình vuông đơn vị tương ứng với các mẫu đầu vào (0,0), (0,1), (1,1) và
(1,0), trong đó một bit duy nhất (tức là chữ số nhị phân) thay đổi khi chúng ta di chuyển từ góc
này sang góc tiếp theo. Các mẫu đầu vào đầu tiên và thứ ba nằm trong lớp 0, như được hiển thị bởi
0 0 0
và
1 1 0
trong đó biểu thị toán tử hàm Boolean độc quyền HOẶC Các mẫu đầu vào (0,0) và (1,1)
nằm ở các góc đối diện của hình vuông đơn vị, nhưng chúng tạo ra đầu ra giống hệt
nhau 0. Mặt khác, các mẫu đầu vào ( 0,1) và (1,0) cũng nằm ở các góc đối diện của
hình vuông, nhưng chúng thuộc loại 1, như được minh họa bởi
0 1 1
và
1 0 1
Đầu tiên, chúng tôi nhận ra rằng việc sử dụng một nơ-ron duy nhất với hai đầu vào dẫn đến
một đường thẳng cho một ranh giới quyết định trong không gian đầu vào. Đối với tất cả các điểm
trên một phía của đường thẳng này, nơron xuất ra 1; đối với tất cả các điểm ở phía bên kia của
đường thẳng, nó cho kết quả là 0. Vị trí và hướng của đường thẳng trong không gian đầu vào được
xác định bởi trọng số tiếp hợp của nơron nối với các nút đầu vào và độ lệch áp dụng cho nơron.
Với các mẫu đầu vào (0,0) và (1,1) nằm trên các góc đối diện của hình vuông đơn vị và
tương tự như vậy đối với hai mẫu đầu vào khác (0,1) và (1,0), rõ ràng là chúng ta
không thể dựng một đường thẳng cho ranh giới quyết định sao cho (0,0) và (0,1) nằm
trong một vùng deci sion và (0,1) và (1,0) nằm trong vùng quyết định khác. Nói cách
khác, perceptron lớp đơn không thể giải quyết vấn đề XOR.
Tuy nhiên, chúng ta có thể giải quyết vấn đề XOR bằng cách sử dụng một lớp ẩn duy nhất
có hai nơ-ron, như trong Hình 4.8a (Touretzky và Pomerleau, 1989). Biểu đồ luồng tín hiệu
của mạng được thể hiện trong Hình 4.8b. Các giả định sau được thực hiện ở đây:
• Mỗi nơ-ron được biểu diễn bằng mô hình McCulloch – Pitts, mô hình này sử dụng hàm
ngưỡng cho chức năng kích hoạt của nó.
• Bit 0 và 1 được đại diện bởi các mức 0 và 1 tương ứng.
Nơron trên cùng, được gắn nhãn là "Nơron 1" trong lớp ẩn, được đặc trưng như
w11 = w12 = +1
3 b1 = -
2
Độ dốc của ranh giới quyết định được xây dựng bởi nơ-ron ẩn này bằng -1 và được định
vị như trong Hình 4.9a. Nơron dưới cùng, được gắn nhãn là "Nơron 2" trong lớp ẩn,
được đặc trưng như
w21 = w22 = + 1
1 b2 = - 2
Phần 4.5 XOR Bài toán 143
Neuron 1 HÌNH 4.8 (a) Đồ thị kiến trúc

của mạng để giải bài toán XOR.
(b) Đồ thị luồng tín hiệu của
Neuron 3
mạng.
Neuron 2
Lớp Lớp ẩn Lớp đầu

đầu vào (a) ra
1,5
1 w ()
x1
2
1
w ()
o3
1 1
0,5
w ()
x2
1
1
0,5
(b)
Định hướng và vị trí của ranh giới quyết định được xây dựng bởi nơ-ron ẩn den thứ hai này
được thể hiện trong Hình 4.9b.
Nơron đầu ra, được gắn nhãn là “Nơron 3” trong Hình 4.8a, được đặc trưng như
w31 = -2
w32 = + 1
1 b3 = - 2
Chức năng của nơ-ron đầu ra là xây dựng một tổ hợp tuyến tính của các ranh giới quyết định
được hình thành bởi hai nơ-ron ẩn. Kết quả của phép tính này được thể hiện trong Hình 4.9c.
đặt nơ-ron, trong khi nơ-ron ẩn trên cùng có kết nối ức chế (tiêu cực) với nơ-ron đầu ra.
Khi cả hai nơ-ron ẩn đều tắt, điều này xảy ra khi ký hiệu đầu vào là (0,0), nơ-ron đầu ra
vẫn tắt. Khi bật cả hai nơ-ron ẩn, xảy ra khi mẫu đầu vào là (1,1), nơ-ron đầu ra lại bị tắt
vì tác dụng ức chế của trọng số âm lớn hơn nối với nơ-ron ẩn trên cùng lấn át tác dụng kích
thích của trọng số dương. kết nối với nơron ẩn dưới cùng. Khi nơ-ron ẩn trên tắt và nơ-ron
ẩn dưới cùng bật, xảy ra khi mẫu đầu vào là (0,1) hoặc (1,0), nơ-ron đầu ra được bật do hiệu
ứng kích thích của trọng số dương được kết nối đến nơron ẩn dưới cùng.
Do đó, mạng của Hình 4.8a thực sự giải quyết được vấn đề XOR.
HÌNH 4.9 (a) Ranh giới (0,1) (1,1)
quyết định được xây dựng Đầu ra 1
bởi nơron ẩn 1 của mạng

trong Hình 4.8. (b) Ranh
giới quyết định được xây Đầu vào Đầu ra 0
dựng bởi nơron ẩn 2 của x2
mạng. (c) Ranh giới quyết

định được xây dựng bởi
mạng hoàn chỉnh.
(0,0) (1,0)
Đầu vào
x1 (a)
(0,1) (1,1)

1
x2
Đầu ra 0
(0,0) (1,0)
Đầu vào
x1 (b)
(0,1) (1,1)
Đầu ra 0
Đầu vào Đầu ra 1

x2
Đầu ra 0
(0,0) (1,0)
Đầu vào x1
(c)
4.6 NGHIÊN CỨU ĐỂ THỰC HIỆN THUẬT TOÁN DỰ PHÒNG TRỞ LẠI
THỰC HIỆN TỐT HƠN
Người ta thường nói rằng việc thiết kế mạng nơ-ron bằng cách sử dụng thuật toán lan truyền ngược là một nghệ thuật
hơn là một khoa học, theo nghĩa là nhiều yếu tố liên quan đến thiết kế là kết quả của kinh nghiệm cá nhân của mỗi
người. Có một số sự thật trong tuyên bố này. Tuy nhiên, có những phương pháp sẽ cải thiện đáng kể hiệu suất của thuật
toán lan truyền ngược, như được mô tả ở đây:
1. Stochastic so với cập nhật hàng loạt. Như đã đề cập trước đây, chế độ ngẫu nhiên (tuần tự) của việc học
truyền ngược (liên quan đến việc cập nhật mẫu theo từng mẫu) nhanh hơn về mặt tính toán so với chế độ hàng loạt. Điều
này đặc biệt đúng khi

Phần 4.6 Heuristics để làm cho thuật toán lan truyền ngược hoạt động tốt hơn 145
mẫu dữ liệu đào tạo lớn và dư thừa cao. (Dữ liệu dư thừa cao gây ra các vấn đề tính toán đối
với việc ước tính Jacobian cần thiết cho cập nhật hàng loạt.)
2. Tối đa hóa nội dung thông tin. Theo nguyên tắc chung, mọi ví dụ huấn luyện
được gửi trước cho thuật toán lan truyền ngược phải được chọn trên cơ sở nội dung
thông tin của nó là lớn nhất có thể cho nhiệm vụ đang thực hiện (LeCun, 1993). Hai
cách để nhận ra sự lựa chọn này như sau: • Sử dụng một ví dụ dẫn đến sai số đào tạo
lớn nhất. • Sử dụng một ví dụ hoàn toàn khác với tất cả những ví dụ được sử dụng
trước đó.
Hai phương pháp heuristics này được thúc đẩy bởi mong muốn tìm kiếm nhiều hơn không gian trọng lượng.
Trong các nhiệm vụ phân loại mẫu bằng cách sử dụng học truyền ngược tuần tự, một kỹ thuật
phổ biến và thường được sử dụng là ngẫu nhiên hóa (tức là xáo trộn) thứ tự trong đó các ví dụ
được trình bày cho perceptron đa lớp từ kỷ nguyên này sang kỷ nguyên tiếp theo. Đồng minh lý
tưởng, việc ngẫu nhiên hóa đảm bảo rằng các ví dụ liên tiếp trong một kỷ nguyên được trình bày
cho tác phẩm ròng hiếm khi thuộc cùng một lớp.
3. Chức năng kích hoạt. Trong chừng mực có liên quan đến tốc độ học tập, lựa chọn ưu
tiên là sử dụng một hàm kích hoạt sigmoid là một hàm kỳ quặc của đối số của nó, như được
hiển thị bằng
(-v) = - (v)
Điều kiện này được thỏa mãn bởi hàm hyperbolic
(v) = a tanh (bv)
như thể hiện trong Hình 4.10, nhưng không phải là chức năng logistic. Các giá trị thích hợp cho
các ràng buộc a và b trong công thức cho (v) như sau (LeCun, 1993):
a = 1.7159
và
2 b = 3
Hàm tiếp tuyến hypebol (v) của Hình 4.10 có các tính chất hữu ích sau:
• (1) 1 và (-1) -1. • Tại

điểm gốc, độ dốc (tức là độ lợi hiệu dụng) của hàm kích hoạt gần với sự thống nhất,
như được chỉ ra bởi
(0) = ab
b = 1.7159 a3 2
= 1,1424
• Đạo hàm cấp hai của (v) đạt giá trị lớn nhất tại v 1.
146 chương 4 Perceptron nhiều lớp
w (v)
a 1.7159
1,0
1,0 0
v
1,0
1,0
một 1.7159
HÌNH 4.10 Đồ thị của hàm số tiếp tuyến hyperbol (v) atanh (bv) cho 1,159 và
b 2/3. Các giá trị mục tiêu được đề xuất là 1 và -1.
4. Các giá trị mục tiêu. Điều quan trọng là các giá trị mục tiêu (phản hồi mong
muốn) phải được cho sen trong phạm vi của chức năng kích hoạt sigmoid. Cụ thể hơn, mong muốn
phản hồi dj cho nơron j trong lớp đầu ra của perceptron đa lớp nên được bù đắp
bằng một số lượng khác với giá trị giới hạn của chức năng kích hoạt sigmoid,
tùy thuộc vào việc giá trị giới hạn là dương hay âm. Mặt khác, thuật toán lan truyền
ngược có xu hướng điều khiển các tham số tự do của mạng đến vô cùng và
do đó làm chậm quá trình học tập bằng cách đưa các tế bào thần kinh tiềm ẩn vào trạng thái bão hòa.
Để cụ thể, hãy xem xét hàm tiếp tuyến hypebol của Hình 4.10. Đối với giới hạn
giá trị a, chúng tôi đặt
dj = a -
và đối với giá trị giới hạn của -a, chúng tôi đặt
dj = -a +
ở đâu là một hằng số dương thích hợp. Đối với sự lựa chọn của 1.7159 được sử dụng trong Hình 4.10 ,
định, chúng tôi có thể

0,7159,
đặt thuần
trongtúy
trường
được hợp
chọnđólàgiá
"1,trị
nhưmục
được
tiêu
chỉ(phản
ra trong
hồi mong
hình.muốn) dj có thể được xác
5. Chuẩn hóa các đầu vào. Mỗi biến đầu vào phải được xử lý trước để
giá trị trung bình, được tính trung bình trên toàn bộ mẫu đào tạo, gần bằng 0, hoặc nếu không, nó sẽ là
nhỏ so với độ lệch chuẩn của nó (LeCun, 1993).
tích cực. Trong tình huống này, trọng số tiếp hợp của một nơ-ron ở lớp ẩn đầu tiên có thể
chỉ cùng tăng hoặc cùng giảm. Theo đó, nếu vectơ trọng lượng của
nơ-ron là thay đổi hướng, nó có thể làm như vậy chỉ bằng cách chạy ngoằn ngoèo qua bề mặt
lỗi, điều này thường chậm và do đó nên tránh.
Để đẩy nhanh quá trình học truyền ngược, việc chuẩn hóa các đầu vào cũng nên bao gồm
hai biện pháp khác (LeCun, 1993): • Các biến đầu vào có trong tập huấn luyện không được
tương quan với nhau; điều này có thể được thực hiện bằng cách sử dụng phân tích các
thành phần chính, sẽ được thảo luận trong Chương 8. • Các biến đầu vào liên quan đến
trang trí phải được chia tỷ lệ sao cho hiệp phương sai của chúng xấp xỉ bằng nhau, do
đó đảm bảo rằng các trọng số khớp thần kinh khác nhau trong mạng học với tốc độ xấp
xỉ như nhau .
Hình 4.11 minh họa kết quả của ba bước chuẩn hóa: loại bỏ giá trị trung bình, loại bỏ phân
tử và cân bằng hiệp phương sai, được áp dụng theo thứ tự đó.
'
x2 x2
Loại
bỏ trung bình
'
x1 x1
Tập hợp các điểm
dữ liệu ban đầu

Sự tương quan
'' ''
x2 x2
Cân bằng hiệp
phương sai
'' ''
x1 x1
HÌNH 4.11 Minh họa hoạt động của phép loại bỏ trung bình, tương quan và cân bằng hiệp phương sai cho không gian
đầu vào hai chiều.

Cũng cần lưu ý rằng khi các đầu vào được biến đổi theo cách được minh họa trong Hình
4.11 và được sử dụng kết hợp với hàm tiếp tuyến hyperbol được chỉ định trong Hình 4.10,
phương sai của các đầu ra thần kinh riêng lẻ trong perceptron nhiều lớp sẽ gần để thống
nhất (Orr và Müller, 1998). Cơ sở lý luận cho trạng thái này là mức tăng hiệu quả của hàm
sigmoid trên phạm vi hữu ích của nó gần như là sự thống nhất.
6. Khởi tạo. Một lựa chọn tốt cho các giá trị ban đầu của trọng số và ngưỡng
khớp thần kinh của mạng có thể giúp ích rất nhiều cho việc thiết kế mạng thành công.
Câu hỏi quan trọng là: Lựa chọn tốt là gì?
Khi trọng số của khớp thần kinh được gán giá trị ban đầu lớn, rất có thể các nơ-
ron trong mạng sẽ bị bão hòa. Nếu điều này xảy ra, các gradient cục bộ trong thuật
toán lan truyền ngược giả định các giá trị nhỏ, do đó sẽ khiến quá trình học tập chậm
lại. Tuy nhiên, nếu trọng số tiếp hợp được gán giá trị ban đầu nhỏ, thuật toán lan
truyền ngược có thể hoạt động trên một vùng rất phẳng xung quanh điểm gốc của bề mặt
lỗi; điều này đặc biệt đúng trong trường hợp của các hàm sigmoid chẳng hạn như hàm
tiếp tuyến hyperbol. Thật không may, nguồn gốc là điểm yên ngựa, dùng để chỉ một điểm
đứng yên mà độ cong của bề mặt lỗi trên yên là âm và độ cong dọc theo yên là dương.
Đối với những con lai này, nên tránh sử dụng cả giá trị lớn và nhỏ để khởi tạo trọng
số khớp thần kinh. Sự lựa chọn khởi tạo thích hợp nằm ở đâu đó giữa hai trường hợp
cực đoan này.
Để cụ thể, hãy xem xét một perceptron nhiều lớp sử dụng hàm tiếp tuyến hyperbolic
cho các chức năng kích hoạt của nó. Đặt độ lệch áp dụng cho mỗi nơ-ron trong mạng bằng
0. Sau đó, chúng ta có thể biểu diễn trường cục bộ cảm ứng của nơron j như
m
vj = a wjiyi
i = 1
Giả sử rằng các đầu vào được áp dụng cho mỗi nơ-ron trong mạng không có phương sai đơn vị và giá trị trung
bình bằng không, như được hiển thị bằng
y
= [yi ] = 0 cho tất cả tôi
và
2
= [(yi - i ) 2 ] = [yi ] = 1
2
cho tất cả tôi
năm
Giả sử thêm rằng các đầu vào không có mối liên hệ với nhau, như được hiển thị bằng
[yi yk] = e 01 cho

cho kk Z= ii
và trọng số của khớp thần kinh được rút ra từ một tập hợp các số được phân phối đồng đều với giá trị
trung bình bằng 0, nghĩa là
w = [wji] = 0 cho tất cả các cặp (j, i)
và phương sai
2
w = [(wji - w) 2 ] = [w2 ji] cho tất cả các cặp (j, i)
Do đó, chúng tôi có thể biểu thị giá trị trung bình và phương sai của trường cục bộ được quy nạp vj dưới dạng
m m
v [wji] [yi ] = 0
= [vj] = c a wjiyi d = a
i = 1 i = 1
và
2 2
v = [(vj - v) 2 ] = [vj ]
m m
một
= c a
i = 1 k = 1 wjiwjkyi yk d
m m
= a một [wjiwjk] [yi yk]
i = 1 k = 1
m
2
= a [wji ]
i = 1
= m 2
w
trong đó m là số lượng kết nối tiếp hợp của một tế bào thần kinh.
Dựa trên kết quả này, bây giờ chúng ta có thể mô tả một chiến lược tốt để khởi tạo
trọng số synap sao cho độ lệch chuẩn của trường cục bộ cảm ứng của nơron nằm trong vùng
chuyển tiếp giữa phần tuyến tính và phần bão hòa của chức năng kích hoạt sigmoid của nó.
Ví dụ, đối với trường hợp của một hàm tiếp tuyến hyperbol với các tham số a và b được sử
dụng trong Hình 4.10, mục tiêu này được thỏa mãn bằng cách đặt v 1 đó,
trong dấu trường
trong bằng trước
hợp đó
chúng ta thu được kết quả sau (LeCun, 1993):
= m-1 2 (4,48)
w
Do đó, mong muốn phân bố đồng đều, từ đó trọng số của synap được chọn, có giá trị
trung bình bằng 0 và phương sai bằng nghịch đảo của số lượng kết nối synap của
một tế bào thần kinh.
7. Học từ những gợi ý. Học tập từ một mẫu ví dụ huấn luyện đề cập đến một
hàm ánh xạ đầu vào-đầu ra chưa biết f (·). Trên thực tế, quá trình học tập khai
thác thông tin có trong các ví dụ về hàm f (·) để suy ra một cách triển khai gần
đúng của nó. Quá trình học từ các ví dụ có thể được khái quát hóa để bao gồm việc
học từ các gợi ý, điều này đạt được bằng cách cho phép đưa thông tin trước đó mà
chúng ta có thể có về hàm f (·) trong quá trình học (Abu-Mostafa, 1995). Thông tin
đó có thể bao gồm các thuộc tính bất biến, tính đối xứng hoặc bất kỳ kiến thức
nào khác về hàm f (·) có thể được sử dụng để đẩy nhanh việc tìm kiếm nhận thức
gần đúng của nó và quan trọng hơn là để cải thiện chất lượng của đối tượng cuối
cùng. Việc sử dụng Eq. (4.48) là một ví dụ về cách đạt được điều này.
8. Tỷ lệ học tập. Tất cả các tế bào thần kinh trong perceptron nhiều lớp lý
tưởng nên học với tốc độ như nhau. Các lớp cuối cùng thường có độ dốc cục bộ lớn
hơn các lớp ở đầu trước của mạng. Do đó, thông số tốc độ học tập phải được chỉ định
giá trị nhỏ hơn ở các lớp cuối cùng so với các lớp phía trước của perceptron nhiều lớp.
Tế bào thần kinh có nhiều đầu vào nên có tham số tốc độ học tập nhỏ hơn tế bào thần kinh
với ít đầu vào để duy trì thời gian học giống nhau cho tất cả các nơ-ron trong mạng.
Trong LeCun (1993), người ta đề xuất rằng đối với một tế bào thần kinh nhất định, tốc độ học tập nên
tỷ lệ nghịch với căn bậc hai của các kết nối synap được tạo ra với nơron đó.
Trong thí nghiệm máy tính này, chúng tôi tiếp tục trình tự các thí nghiệm phân loại mẫu được thực
hiện đầu tiên trong Chương 1 bằng cách sử dụng perceptron của Rosenblatt và sau đó trong Chương 2
sử dụng phương pháp bình phương nhỏ nhất. Đối với cả hai thử nghiệm, chúng tôi đã sử dụng dữ liệu đào tạo và kiểm tra
được tạo ra bằng cách lấy mẫu ngẫu nhiên cấu trúc hai mặt trăng trong hình 1.8. Trong mỗi
trong số các thử nghiệm, chúng tôi đã xem xét hai trường hợp, một trường hợp sử dụng các mẫu có thể phân tách tuyến tính
và cái khác sử dụng các mẫu có thể phân tách phi tuyến tính. Perceptron hoạt động tốt theo từng
chi tiết đối với thiết lập có thể phân tách tuyến tính của d 1, nhưng phương pháp bình phương nhỏ nhất
yêu cầu một khoảng cách lớn hơn giữa hai mặt trăng để phân loại hoàn hảo. Trong bất kỳ
sự kiện, cả hai đều không thành công trong cài đặt phân tách phi tuyến tính của d -4.
Mục tiêu của thí nghiệm máy tính được trình bày ở đây gồm hai phần:
1. để chứng minh rằng perceptron nhiều lớp, được đào tạo với sự lan truyền ngược
thuật toán, có khả năng phân loại dữ liệu thử nghiệm có thể phân tách phi tuyến tính;
2. để tìm một trường hợp khó hơn về các mẫu có thể phân tách phi tuyến tính mà perceptron đa lớp
không đạt trong bài kiểm tra phân loại hai mặt trăng.
Các thông số kỹ thuật của perceptron nhiều lớp được sử dụng trong thử nghiệm như sau:
Kích thước của lớp đầu vào: m0 2

Kích thước của lớp ẩn (duy nhất): m1 20
Kích thước của lớp đầu ra: m2 1
1 - điểm kinh nghiệm (-2v)
Chức năng kích hoạt: chức năng tiếp tuyến hyperbol (v) =
1 + exp (-2v)
Cài đặt ngưỡng: không
Tham số tốc độ học tập: được ủ tuyến tính từ 10-1 xuống 10-5
Thí nghiệm được thực hiện thành hai phần, một phần tương ứng với sự phân tách theo chiều dọc
d -4 và cái kia tương ứng với d -5:
(a) Khoảng cách theo chiều 4.
dọc d Hình 4.12 trình bày kết quả của thí nghiệm MLP cho độ dài khoảng cách giữa hai mặt
trăng là d 4. Phần (a) của hình hiển thị đường cong
rằng rút cong
đường ra từhọc
buổi
tậpđào tạo. Chúng tôi thấy
đạt đến sự hội tụ một cách hiệu quả trong khoảng 15 kỷ nguyên đào tạo. Phần (b) của
hình hiển thị ranh giới quyết định phi tuyến tối ưu được tính toán bởi MLP.
Quan trọng nhất, phân loại hoàn hảo của hai mẫu đã đạt được, không có
lỗi phân loại. Hiệu suất hoàn hảo này được cho là do lớp ẩn của
MLP.
Đường cong học tập

0,4
0,35
0,3
0,25
MSE 0,2
0,15
0,1
0,05
0
0 10 20 30 40 50
Số kỷ nguyên
(a) Đường cong học tập
Phân loại sử dụng MLP với khoảng cách 4, bán kính 10 và chiều rộng 6
12
10
số 8
4
2x
2
số 8
10 5 0 5 10 15 20
x1
(b) Kết quả thử nghiệm
HÌNH 4.12 Kết quả của thí nghiệm máy tính về thuật toán lan truyền ngược được áp dụng
tới MLP với khoảng cách d 4. MSE là viết tắt của lỗi bình phương trung bình.

0,45
0,4
0,35
0,3
0,25
MSE
0,2
0,15
0,1
0,05
0
0 10 20 30 40 50
Số kỷ nguyên
Phân loại sử dụng MLP với khoảng cách 5, bán kính 10 và chiều rộng 6
12
10
số 8
4
x2
10 5 0 5 10 15 20
x1
HÌNH 4.13 Kết quả của thí nghiệm máy tính về thuật toán lan truyền ngược được áp dụng
tới MLP với khoảng cách d -5.
Phần 4.8 Tuyên truyền trở lại và phân biệt 153
(b) Tách dọc d 5.

Để thách thức perceptron nhiều lớp với một nhiệm vụ phân loại mẫu khó hơn, chúng tôi đã
giảm khoảng cách theo chiều dọc giữa hai mặt trăng xuống d -5. thuật toán lan truyền ngược,
được vẽ ở phần (a) của hình, cho thấy tốc độ hội tụ chậm hơn, gần gấp ba lần so với trường
hợp d -4 dễ dàng hơn.
Hơn nữa, kết quả thử nghiệm được vẽ ở phần (b) của hình cho thấy ba lỗi cation
phân loại trong bộ thử nghiệm gồm 2.000 điểm dữ liệu, chiếm tỷ lệ lỗi là 0,15
phần trăm.
x1đầu vào
Ranh giới quyết định được tính bằng cách tìm tọa độ và gắn liền với vectơ x2x, mà
phản ứng của nơ-ron đầu ra bằng 0 với tiền đề rằng hai lớp của thử nghiệm có khả năng như nhau.
Theo đó, khi vượt quá ngưỡng 0, một quyết định được đưa ra có lợi cho một lớp; nếu không, quyết
định được đưa ra có lợi cho lớp khác. Quy trình này được tuân theo trên tất cả các thí nghiệm
phân loại trăng đôi được báo cáo trong cuốn sách.
4.8 DỰ PHÒNG VÀ SỰ KHÁC BIỆT
Truyền ngược là một kỹ thuật cụ thể để thực hiện giảm độ dốc trong không gian trọng số cho một
perceptron nhiều lớp . vectơ trọng lượng có thể điều chỉnh w cho một giá trị nhất định của vectơ
đầu vào x. Ở đây nói lên sức mạnh tính toán của thuật toán lan truyền ngược.4 Để cụ thể, hãy xem
xét một thụ thể đa lớp với một lớp đầu vào là m0 nút, hai lớp ẩn và một nơ-ron đầu ra duy nhất,
như được mô tả trong Hình 4.14. vectơ trọng số w được sắp xếp theo lớp ( bắt đầu từ lớp ẩn đầu
tiên), sau đó theo các tế bào thần kinh trong một lớp và sau đó là số lượng khớp thần kinh
trong một tế bào thần kinh . lớp l 1, 2, .... Đối với l tương ứng với lớp ẩn đầu tiên, chỉ số i
đề cập đến một nút nguồn chứ không phải là một
chứng tỏ
ji
1, sửa chữa
HÌNH 4.14 Perceptron đa

x1
lớp với hai lớp ẩn và một
nơron đầu ra.
x2
• • •
• • •
• • •
xm0
Lớp Lớp Lớp ẩn Lớp
đầu vào ẩn đầu thứ hai đầu ra
tiên
nơron. Đối với l 3, tương ứng với lớp đầu ra trong Hình 4.14, chúng ta có j 1. Chúng ta muốn
để đánh giá các đạo hàm của hàm F (w, x) đối với tất cả các phần tử của
T
vectơ trọng lượng w cho một vectơ đầu vào được chỉ định. Chúng
x = [x1, x2,tôi đãxm0
..., bao] gồm
vectơ trọng lượng w như là một đối số của hàm F để tập trung sự chú ý vào nó. Vì
ví dụ, đối với l 2 (tức là, một lớp ẩn duy nhất và một lớp đầu ra tuyến tính), chúng ta có
m1 m0
F (w, x) = a (4,49)
j = 0 woj a a i = 0 wjixi b
trong đó w là vectơ trọng số có thứ tự và x là vectơ đầu vào.

Perceptron nhiều lớp của Hình 4.14 được tham số hóa bởi một kiến trúc a (đại diện
cho một tham số rời rạc) và một vectơ trọng số w (được tạo thành từ các phần tử liên tục).
(l) biểu thị rằng một phần của kiến trúc mở rộng từ lớp đầu vào (l Cho aj 0) đến
nút j trong lớp l 1, 2, 3. Theo đó, chúng ta có thể viết
(3)
F (w, x) = (a1 ) (4,50)
chức năng kích hoạt ở đâu. Tuy nhiên, a1 (3) chỉ được hiểu là một biểu tượng kiến trúc lưu
trữ hơn là một biến. (4.2), (4.4), (4.13) và (4.25)
để sử dụng trong tình huống mới này, chúng tôi có được các công thức
0F (w, x)
= ¿(A (3)1 ) (a (2)
k ) (4,51)
0w (3)
1k
0F (w, x)
= ¿(A (3)1 ) ¿(A (2)
k ) (a (1)
j ) w 1k
(3) (4,52)
0w (2)
kj
0F (w, x)
= ¿(A (3)1 ) ¿(A (1) w (3) (4,53)
j ) 1k k ) w (2)
¿(A (2)
0w (1) xi c k
a kj d
ji
đâu là đạo hàm riêng của tính phi tuyến đối với đối số của nó và
xi là phần tử thứ i của vectơ đầu vào x. Theo cách tương tự, chúng ta có thể suy ra các phương trình
cho các đạo hàm riêng của một mạng tổng quát có nhiều lớp ẩn hơn và nhiều nơ-ron hơn
trong lớp đầu ra.
Các phương trình (4.51) đến (4.53) cung cấp cơ sở để tính toán độ nhạy của
hàm mạng F (w, x) liên quan đến các biến thể trong các phần tử của trọng số vec
tor w. Hãy #biểu thị một phần tử của vectơ trọng lượng w. Độ nhạy của F (w, x) với
kính trọng # ,được chính thức xác định bởi
0F F
SF# =
0 # #
Chính vì lý do này mà chúng tôi đề cập đến phần dưới của biểu đồ luồng tín hiệu trong Hình 4.7 như
"đồ thị độ nhạy".
Người Jacobian
Gọi W biểu thị tổng số tham số tự do (tức là trọng số và độ lệch của khớp thần kinh) của
một perceptron nhiều lớp, được sắp xếp theo cách được mô tả để tạo thành trọng số
vec tor w. Gọi N là tổng số ví dụ được sử dụng để huấn luyện mạng. Sử dụng lại
Phần 4.9 Hessian và vai trò của nó trong việc học trực tuyến 155
truyền, chúng ta có thể tính tập hợp các đạo hàm riêng W của hàm gần đúng F [w, x (n)] đối với các
phần tử của vectơ trọng số w cho một bài kiểm tra cụ thể x (n) trong mẫu huấn luyện. Lặp lại các
phép tính này cho n 1, 2, ..., N, chúng ta kết thúc với ma trận N-x-W của các đạo hàm riêng. Ma
trận này được gọi là Jacobian J của perceptron nhiều lớp được đánh giá tại x (n). Mỗi hàng của
Jacobian tương ứng với một ví dụ cụ thể trong mẫu đào tạo.
Có bằng chứng thực nghiệm cho thấy rằng nhiều vấn đề huấn luyện mạng nơron về bản chất là
không có điều kiện, dẫn đến Jacobian J gần như bị thiếu cấp bậc (Saarinen và cộng sự, 1991). Bậc
của ma trận bằng số cột độc lập tuyến tính hoặc các hàng trong ma trận, chọn hàng nào nhỏ nhất.
Jacobian J được cho là thiếu thứ hạng nếu thứ hạng của nó nhỏ hơn min (N, W). Bất kỳ sự thiếu hụt
thứ hạng nào trong Jacobian đều khiến thuật toán lan truyền ngược chỉ thu được thông tin một phần
về các hướng tìm kiếm có thể có. Thiếu cấp bậc cũng khiến thời gian đào tạo kéo dài.
4.9 CON NGƯỜI VÀ VAI TRÒ CỦA NÓ TRONG HỌC TẬP TRỰC TUYẾN
Ma trận Hessian, hay đơn giản là Hessian, của hàm chi phí eav (w) ký hiệu là H, ,được định nghĩa là
đạo hàm cấp hai của eav (w) đối với vectơ trọng số w, như được hiển thị bằng
02 eav
H = (4,54)
(w) 0w2
Hessian đóng một vai trò quan trọng trong việc nghiên cứu mạng nơ-ron; cụ thể, chúng tôi đề cập đến
những điểm sau đây5 :
1. Các giá trị riêng của Hessian có ảnh hưởng sâu sắc đến động lực của
học truyền ngược.
2. Nghịch đảo của Hessian cung cấp cơ sở để cắt bớt (tức là xóa) các trọng số tiếp hợp không
thể phù hợp khỏi một perceptron nhiều lớp; vấn đề này sẽ được thảo luận trong Phần 4.14.
3. Hessian là cơ bản để xây dựng các phương pháp tối ưu hóa bậc hai như một giải pháp thay thế
cho việc học truyền ngược, sẽ được thảo luận trong Phần 4.16.
Trong phần này, chúng tôi giới hạn sự chú ý của chúng tôi vào điểm 1.
Trong Chương 3, chúng tôi đã chỉ ra rằng cấu trúc eigens của Hessian có ảnh hưởng chuyên
nghiệp đến các thuộc tính hội tụ của thuật toán LMS. Vì vậy, nó cũng là với thuật toán lan truyền
ngược, nhưng theo một cách phức tạp hơn nhiều. Thông thường, Hessian của bề mặt lỗi liên quan đến
perceptron nhiều lớp được đào tạo với thuật toán lan truyền ngược có thành phần giá trị riêng như
sau (LeCun và cộng sự, 1998):
• một số lượng nhỏ các giá trị riêng nhỏ, •
một số lượng lớn các giá trị riêng cỡ trung bình và • một
số lượng nhỏ các giá trị riêng lớn.
Do đó, có một sự phổ biến rộng rãi trong các giá trị riêng của người Hessian.
Các yếu tố ảnh hưởng đến thành phần của các giá trị riêng có thể được nhóm lại như sau:
• tín hiệu đầu vào không trung bình hoặc tín hiệu đầu ra thần kinh cảm ứng không trung bình;
• mối tương quan giữa các phần tử của vectơ tín hiệu đầu vào và các mối tương quan
giữa các tín hiệu đầu ra thần kinh cảm ứng;
• nhiều biến thể trong các dẫn xuất bậc hai của hàm chi phí liên quan đến
trọng số khớp thần kinh của các nơ-ron trong mạng khi chúng ta tiến hành từ lớp này đến lớp
tiếp theo. Các dẫn xuất này thường nhỏ hơn ở các lớp dưới, với các tiếp hợp
trọng số ở lớp ẩn đầu tiên học chậm và những trọng số ở lớp cuối học nhanh chóng.
Tránh các đầu vào không có ý nghĩa
Từ Chương 3, chúng ta nhớ lại rằng thời gian học của thuật toán LMS nhạy cảm với các biến đổi trong số
điều kiện max / min, trong đó giá trị eigen lớn nhất
của của
nó. Hes
Kết sian
quả thử
tối đa
và là
nghiệm
eigenvalue
cho thấy
khác
mộtkhông nhỏ nhất
min
tình huống xảy ra đối với thuật toán lan truyền ngược, là sự tổng quát hóa của LMS
thuật toán. Đối với các đầu vào có giá trị trung bình khác, tỷ lệ tối đa / phút lớn hơn giá trị tương ứng
tương ứng của nó đối với các đầu vào có giá trị trung bình bằng 0: Giá trị trung bình của các đầu vào càng lớn,
tỷ lệ tối đa / tối thiểu sẽ là. Quan sát này có ý nghĩa nghiêm trọng đối với động lực của
học truyền ngược.
Để thời gian học tập được giảm thiểu, việc sử dụng các đầu vào không có giá trị trung bình nên được
tránh được. Bây giờ, trong chừng mực vectơ tín hiệu x được áp dụng cho một tế bào thần kinh trong lớp ẩn đầu tiên
của một perceptron nhiều lớp (tức là vectơ tín hiệu được áp dụng cho lớp đầu vào) có liên quan,
có thể dễ dàng loại bỏ giá trị trung bình khỏi mỗi phần tử của x trước khi ứng dụng của nó vào mạng.
Nhưng những tín hiệu được áp dụng cho các nơ-ron ở phần ẩn và đầu ra còn lại thì sao
các lớp của mạng? Câu trả lời cho câu hỏi này nằm ở loại chức năng kích hoạt
được sử dụng trong mạng. Trong trường hợp của hàm logistic, đầu ra của mỗi nơ-ron là
bị giới hạn trong khoảng [0, 1]. Sự lựa chọn như vậy đóng vai trò như một nguồn gốc của sự thiên vị có hệ thống cho những
các tế bào thần kinh nằm ngoài lớp ẩn đầu tiên của mạng. Để khắc phục sự cố này,
chúng ta cần sử dụng hàm tiếp tuyến hypebol là đối xứng lẻ. Với cái này sau
lựa chọn, đầu ra của mỗi nơ-ron được phép giả sử cả giá trị dương và giá trị âm trong khoảng [-1, 1],
trong trường hợp này, giá trị trung bình của nó có khả năng bằng 0. Nếu mạng
kết nối lớn, học tập lan truyền ngược với các chức năng kích hoạt đối xứng kỳ lạ
có thể mang lại sự hội tụ nhanh hơn so với một quá trình tương tự với các chức năng kích hoạt không đối xứng.
Điều kiện này cung cấp lý do cho phương pháp heuristic 3 được mô tả trong Phần 4.6.
Hành vi tiệm cận của Học trực tuyến
Để hiểu rõ về việc học trực tuyến, chúng ta cần biết cách tính trung bình của nhóm
đường cong học tập phát triển theo thời gian. Không giống như thuật toán LMS, phép tính này không quá
khó để thực hiện. Nói chung, mặt vượt hiệu suất lỗi có thể có nhiều cực tiểu cục bộ và nhiều cực tiểu
toàn cục theo cấp số nhân vì
tính chất đối xứng của mạng. Đáng ngạc nhiên, đặc điểm này của bề mặt hiệu suất lỗi có thể trở thành một
tính năng hữu ích theo nghĩa sau:
rằng một phương pháp dừng sớm được sử dụng để đào tạo mạng (xem Phần 4.13) hoặc
Phần 4.10 Ủ nhiệt tối ưu và kiểm soát thích ứng tốc độ học tập 157
mạng được chính thức hóa (xem Phần 4.14), chúng ta có thể gần như luôn thấy mình "đóng"
ở mức tối thiểu cục bộ.
Trong mọi trường hợp, do tính chất phức tạp của bề mặt hiệu suất lỗi, chúng tôi
thấy rằng trong tài liệu, phân tích thống kê của đường cong học tập được giới hạn trong hành vi
nghiêng của nó trong vùng lân cận của mức tối thiểu cục bộ. Trong bối cảnh này, chúng tôi có thể đánh dấu
một số khía cạnh quan trọng của hành vi tiệm cận này, giả định rằng tốc độ học tập cố định
tham số như sau (Murata, 1998):
(i) Đường cong học tập bao gồm ba thuật ngữ:
• tổn thất tối thiểu, được xác định bởi tham số tối ưu w *, liên quan đến một địa phương
hoặc mức tối thiểu toàn cầu;
• mất thêm, gây ra bởi sự biến động trong quá trình tiến hóa của esti vector trọng lượng
mator w (n) xung quanh trung bình
limnS
[wˆ (n)] = w *
q
• một thuật ngữ phụ thuộc vào thời gian, mô tả ảnh hưởng của việc giảm tốc độ liên kết
lỗi đối với hiệu suất thuật toán.
(ii) Để đảm bảo tính ổn định của thuật toán học trực tuyến, tham số tốc độ học
phải được gán một giá trị nhỏ hơn nghịch đảo của giá trị riêng lớn nhất của
Hessian, 1 / bị tối đa Mặt khác, tốc độ hội tụ của thuật toán
chi phối bởi giá trị riêng nhỏ nhất của Hessian, tối thiểu
(iii) Nói một cách đại khái, nếu tham số tốc độ học tập được gán một giá trị lớn, thì
tốc độ hội tụ nhanh, nhưng sẽ có biến động lớn xung quanh cục bộ
hoặc tối thiểu toàn cục, ngay cả khi số lần lặp, n, tiến tới vô cùng.
Ngược lại, nếu nhỏ thì mức độ dao động nhỏ, nhưng tốc độ
sự hội tụ sẽ chậm.
4.10 KIỂM SOÁT TỐI ƯU VÀ KIỂM SOÁT TỐI ƯU
CỦA TỶ LỆ HỌC TẬP
Trong Phần 4.2, chúng tôi đã nhấn mạnh sự phổ biến của thuật toán học trực tuyến cho hai
lý do chính:
(i) Thuật toán đơn giản, trong đó việc triển khai nó yêu cầu một lượng tối thiểu
bộ nhớ, được sử dụng đơn thuần để lưu trữ giá trị cũ của trọng lượng ước tính vec tor từ
lần lặp này sang lần lặp tiếp theo.
(ii) Với mỗi ví dụ {x, d} chỉ được sử dụng một lần tại mỗi bước thời gian, việc học
tỷ lệ giả định một vai trò quan trọng hơn trong học trực tuyến hơn là học theo lô,
trong đó thuật toán học trực tuyến có khả năng tích hợp để theo dõi thống kê
các biến thể trong môi trường chịu trách nhiệm tạo ra tập hợp đào tạo
các ví dụ.
Trong Amari (1967) và gần đây, Opper (1996), nó được chỉ ra rằng
học trực tuyến được kích hoạt để hoạt động nhanh như học theo lô theo nghĩa tiệm cận.
vấn đề được khám phá trong những gì sau đây.
Sự ủ nhiệt tối ưu của Tỷ lệ Học tập
Gọi w biểu thị vectơ trọng số tiếp hợp trong mạng, xếp chồng lên nhau
khác trong một số thời trang có trật tự. wˆ
Với (n) biểu thị ước lượng cũ của vectơ trọng lượng
w tại bước thời gian n, giả sử ( wˆ n 1) biểu thị ước tính cập nhật của w khi nhận được ví dụ
“phản hồi mong muốn đầu vào” {x (n 1), d (n 1)}. Tương ứng, đặt F (x (n 1); ( wˆ n)) biểu thị
đầu ra có giá trị vectơ của mạng được tạo ra tương ứng với đầu vào x (n 1); natu tập hợp thứ
nguyên của hàm F phải giống với thứ nguyên của phản hồi mong muốn
vectơ d (n). Theo phương trình xác định của Eq. (4.3), chúng ta có thể biểu thị năng lượng tức
thời dưới dạng định mức Euclid bình phương của sai số ước lượng, như được hiển thị bằng
1
2
e (x (n), d (n); w) = 7d (n) - F (x (n); w) 7 (4,55)
2
Sai số bình phương trung bình hoặc rủi ro dự kiến của vấn đề học trực tuyến được xác định bởi
J (w) = x, d [e (x, d; w)] (4,56)
trong đó là toán tử kỳ vọng được thực hiện đối với ví dụ {x, d}.
x, d
giải pháp
w * = arg minw [J (w)] (4,57)
xác định véc tơ tham số tối ưu.

Vectơ gradient tức thời của quá trình học tập được xác định bởi
0
g (x (n), d (n); w) = e (x (n), d (n); w)
0w
(4,58)
= - (d (n) - F (x (n); w) F¿ (x (n); w)
ở đâu
0
F¿ (x; w) = F (x; w) (4,59)
0w
Với định nghĩa của vectơ gradient vừa được trình bày, bây giờ chúng ta có thể biểu diễn thuật
toán học trực tuyến dưới dạng
wˆ (n + 1) = wˆ (n) - (n) g (x (n + 1), d (n + 1); wˆ (n)) (4,60)
wˆ (n + 1) = wˆ (n) + (n) [d (n + 1) - F (x (n + 1); wˆ (n))] F¿ (x (n + 1); wˆ ( N)) (4,61)

¯˚˘˚˙ ¯˘˙ ¯˘˙ ¯˚˚˚˚˚˚˚˚˘˚˚˚˚˚˚˚˚˙ ˚˚˘˚˚˚˚˙ ¯˚˚
Đã cập nhật Cũ Học tập Tín hiệu lỗi Đạo hàm một phần của
ước tính ước tính tỷ lệ chức năng mạng F
tham số
Với phương trình chênh lệch này, chúng tôi có thể tiếp tục mô tả giá trị trung bình cộng gộp
động của vectơ trọng số w trong vùng lân cận của tham số tối ưu w * bằng
phương trình vi phân liên tục
d
wˆ (t) = - (t) x, d [g (x (t), d (t); wˆ (t))] (4,62)
dt
trong đó t biểu thị thời gian liên tục. Theo Murata (1998), giá trị kỳ vọng của vectơ
gra dient được tính gần đúng bằng
x, d [g (x, d; wˆ (t))] L -K * (w * - wˆ (t)) (4,63)
trong đó ma trận trung bình tổng hợp K * được chính nó xác định bởi
K * = x, d c 0
0w g (x, d; w) d
(4,64)
= x, d c
02 0w2
e (x, d; w) d
Hessian K * mới là một ma trận xác định dương được định nghĩa khác với Hessian H của
phương trình. (4,54). Tuy nhiên, nếu môi trường chịu trách nhiệm tạo ra các ví dụ huấn
luyện {x, d} là sai, thì chúng tôi có thể thay thế Hessian H, dựa trên sự lão hóa của
thời gian, cho Hessian K *, dựa trên trung bình cộng. Trong mọi trường hợp, sử dụng Eq.
(4,63) trong Eq. (4.62), chúng tôi thấy rằng phương trình vi phân liên tục mô tả sự phát
triển của công cụ ước lượng wˆ (t) có thể gần đúng như
d wˆ (t) L - (t) K * (w * - wˆ (t)) dt (4,65)
Gọi vectơ q biểu thị một ký tự riêng của ma trận K *, như được hiển thị trong phương
trình xác định
K * q = q (4.66) trong đó giá trị riêng được kết
hợp với giá trị riêng q. Sau đó, chúng tôi có thể giới thiệu hàm mới
(t) = x, d [qTg (x, d; wˆ (4,67)
(t))], theo phương trình. (4.63), bản thân nó có thể gần đúng là (t)
L -qTK * (w * - wˆ (t)) = - qT
(w * - wˆ (t)) (4,68)
Tại mỗi thời điểm t, hàm (t) nhận một giá trị vô hướng, có thể được xem như
là một số đo gần đúng của khoảng cách Euclid giữa hai phép chiếu lên
eigenvector q, một do tham số tối ưu w * và một do tham số tối ưu. cho người
ước lượng
Giá trị wˆ
của (t)
(t) do đó bị giảm xuống 0 nếu và khi nào, công cụ ước lượng wˆ (t) tiến tới w *. con lừa
Từ Eqs. (4,65), (4,66) và (4,68), chúng tôi thấy rằng hàm (t) có liên quan đến
tham số tốc độ học thay đổi theo thời gian (t) như sau:
(t) = - (t) (t) (4,69)

d dt
Phương trình vi phân này có thể được giải quyết để mang lại
(t) = c exp (- (t) dt) (4,70)
trong đó c là hằng số tích phân dương.

Theo lịch trình ủ do Darken và Moody (1991) đã bị loại bỏ trong Chương 3 về thuật toán
LMS, hãy cho công thức
(t) = 0 (4,71)
t +
tính đến sự phụ thuộc của tốc độ học vào thời gian t, trong đó và 0 là các tham số tun ing dương.
Sau đó, thay thế công thức này thành Eq. (4.70), chúng tôi thấy rằng công thức tương ứng với hàm
(t) là
(t) = c (t + ) - 0 (4,72)
Để (t) biến mất khi thời gian t tiến đến vô cùng, chúng ta yêu cầu tích số mũ phải lớn so Trong
với thống nhất, điều này có thể được thỏa mãn bằng cách đặt 0 cho số dương. 0 /
Bây giờ, chỉ còn lại vấn đề là làm thế nào để chọn eigenvector q. Từ
phần trước, chúng ta nhớ lại rằng tốc độ hội tụ của đường cong học tập bị ảnh hưởng
bởi giá trị riêng nhỏ nhất tối thiểu của Hessian H. Với Hessian này và mới
Hessian K * có xu hướng hành xử tương tự, một lựa chọn thông minh là đưa ra giả thuyết rằng
số lần lặp đủ lớn, sự phát triển của công cụ ước lượng (t) theo thời gian t wˆ
có thể
được coi là một quá trình một chiều, chạy “gần như song song” với bộ định vị
của Hessian K * được liên kết với giá trị riêng nhỏ nhất min, như được minh họa trong Hình 4.15.
Do đó, chúng tôi có thể thiết lập
x, d [g (x, d; wˆ )]
q = (4,73)
7 x, d [g (x, d; wˆ)] 7
nơi chuẩn hóa được giới thiệu để làm cho eigenvector q giả sử đơn vị Euclidean
chiều dài. Tương ứng, việc sử dụng công thức này trong Eq. (4,67) sản lượng
(t) = 7 x, d [g (x, d; wˆ (t))] 7 (4,74)
Bây giờ chúng tôi có thể tóm tắt kết quả của cuộc thảo luận được trình bày trong phần này bằng cách
đưa ra các tuyên bố sau:
1. Sự lựa chọn của lịch ủ được mô tả trong Eq. (4,71) thỏa mãn hai con
bữa ăn
một (t) 7 q, như t S q (4,75)

t (t) S q và tại 2
Quỹ đạo
trong tổng số wˆ (t)
w *
HÌNH 4.15 Sự phát triển của công cụ ước lượng wˆ (t) theo thời gian t. Hình elip đại diện cho
đường bao của rủi ro dự kiến đối với các giá trị khác nhau của w, được giả định là hai chiều.
Nói cách khác, (t) thỏa mãn các yêu cầu của lý thuyết xấp xỉ ngẫu nhiên
(Robbins và Monro, 1951).
2. Khi thời gian t tiến đến vô cùng, hàm (t) tiến tới tiệm cận 0. Trong
phù hợp với Eq. (4.68), theo đó công cụ ước lượng wˆ (t) tiếp cận công cụ ước
lượng opti mal w * khi t tiến tới vô hạn.
3. Quỹ đạo trung bình tổng hợp của công cụ ước lượng wˆ (t) gần như song song với
eigenvector của Hessian K * được liên kết với eigenvalue nhỏ nhất min sau một
số lần lặp đủ lớn.
4. Thuật toán học trực tuyến được ủ tối ưu cho một mạng được đặc trưng bởi
vectơ trọng lượng w được mô tả chung bởi bộ ba phương trình sau:
wˆ (n + 1) = wˆ (n) + (n) (d (n + 1) - F (x (n) + 1; wˆ (n)) F¿ (x (n + 1); wˆ (n ))

¯˚˘˚˙ ¯˘˙ ¯˘˙ ¯˚˚˚˚˘˚˚˚˚˙ ¯˚˚˚˚˚˚˚˘˚˚˚˚˚˚˚˙
Đã cập nhật Cũ Tỷ lệ học Tín hiệu lỗi Đạo hàm một phần của
ước tính ước tính chức năng mạng F
tham số
(4,76)
nswitch
(n) = 0
n + nswitch
=
0 , = hằng số dương
min
Ở đây, người ta giả định rằng môi trường chịu trách nhiệm tạo ra quá trình đào tạo
ví dụ {x, d} là sai, do đó Hessian K * được tính trung bình theo tổng thể giả định
cùng giá trị với Hessian H trung bình theo thời gian .
5. Khi tham số tốc độ học 0 được cố định trong học trực tuyến dựa trên độ dốc dốc stochas
tic, tính ổn định của thuật toán yêu cầu chúng ta chọn đâu là giá trị riêng lớn 0nhấtl của
$
tối đa,
Hessian H. Mặt khác, trong

tối đa
trường hợp giảm độ dốc ngẫu nhiên được ủ tối ưu, theo dòng thứ ba
của Eq. (4,76), sự lựa chọn là 0giá trị riêng nhỏ nhất
mincủa H.
1 đô la
tối thiểu,
6. Hằng số thời gian nswitch, một số nguyên dương, xác định sự chuyển đổi từ một chế độ
cố định 0cho chế độ ủ, trong đó tham số tốc độ học thay đổi theo thời gian
(n) giả sử dạng mong muốn c / n, trong đó c là hằng số, phù hợp với lý thuyết xấp xỉ
đặc biệt.
Kiểm soát thích ứng tỷ lệ học tập
Lịch ủ tối ưu, được mô tả trong dòng thứ hai của Eq. (4,76), cung cấp một
bước quan trọng trong việc cải thiện việc sử dụng học trực tuyến. Tuy nhiên, một hạn chế thực
tế của lịch trình ủ này là yêu cầu chúng ta phải biết tiên nghiệm hằng số thời gian. một môi công tắc
trường không cố định trong đó các đặc điểm của trình tự huấn luyện thay đổi từ ví dụ này sang
ví dụ tiếp theo, việc sử dụng
nswitch hằng số thời gian quy định có thể không còn là một lựa chọn thực tế. Trong tình huống này
loại, thường xuyên xảy ra trong thực tế, thuật toán học trực tuyến cần phải
được trang bị một cơ chế tích hợp để kiểm soát tốc độ học tập một cách thích ứng . Như là
một cơ chế lần đầu tiên được mô tả trong tài liệu bởi Murata (1998), trong đó cái gọi
là học thuật toán học (Sompolinsky và cộng sự, 1995) đã được sửa đổi một cách thích hợp.
Thuật toán thích ứng do Murata được cấu hình để đạt được hai mục tiêu:
1. tự động điều chỉnh tỷ lệ học tập, tính đến các biến thể thống kê trong môi
trường chịu trách nhiệm tạo ra chuỗi đào tạo của các ví dụ; 2. khái quát hóa
thuật toán học trực tuyến để khả năng ứng dụng của nó được rộng rãi
bổ sung bằng cách tránh sự cần thiết của một hàm chi phí quy định.
Cụ thể, động lực học trung bình tổng thể của vectơ trọng lượng w, được định nghĩa trong
Phương trình (4,62), hiện được viết lại thành 6
d
wˆ (t) = - (t) x, d [f (x (t), d (t); wˆ (t))] (4,77)
dt
trong đó hàm giá trị vectơ f (·, ·; ·) biểu thị luồng xác định sự thay đổi được áp dụng
cho công cụ ước lượng
thỏa wˆ
mãn(t) theo
điều ví dụ đến {x (t), d (t)}. Lưu lượng f được yêu cầu để
kiện
x, d [f (x, d; w *)] = 0 (4,78)
trong đó w * là giá trị tối ưu của vectơ trọng số w, như đã định nghĩa trước đó trong Phương trình. (4,57).
Nói cách khác, luồng f phải hội tụ tiệm cận đến tham số tối ưu w * theo thời gian t.
Hơn nữa, để ổn định, chúng ta cũng yêu cầu rằng gradient của f phải là một ma trận xác
định dương. Luồng f bao gồm véc tơ gradient g trong phương trình. (4.62) như một trường
hợp đặc biệt.
Các phương trình được xác định trước đó của Eqs. (4,63) đến (4,69) áp dụng tốt như
nhau cho thuật toán của Murata. Tuy nhiên, sau đó, giả thiết được đưa ra là sự tiến hóa
của tốc độ học tập (t) theo thời gian t được điều chỉnh bởi một hệ động lực bao gồm các
cặp phương trình vi phân
d
(t) = - (t) (t) (4,79)
dt
và
(t) = (t) ((t) - (t)) (4,80)

d dt
trong đó cần lưu ý rằng (t) luôn dương và và là các hằng số dương.
Phương trình đầu tiên của hệ thống động này là một lặp lại của Eq. (4.69). Phương trình
thứ hai của hệ thống được thúc đẩy bởi phương trình vi phân tương ứng trong quá trình
học của thuật toán học được mô tả trong Sompolinsky et al. (1995) .7 Như trước đây,
trong Eq. (4,79) là giá trị riêng được liên kết với hiệu riêng q của Hessian K *.
Hơn nữa, giả thuyết rằng q được chọn làm vectơ riêng biệt cụ thể được liên kết với giá
trị riêng nhỏ nhất min . được mô tả trong Hình 4.15.
Hành vi tiệm cận của hệ thống động được mô tả trong Eqs. (4,79) và (4,80)
được cho bởi cặp phương trình tương ứng
- 7
(t) = , (4,81)
1 chọi 1 1 b t1
và
c -1
(t) = , c = (4,82)
t
Điểm quan trọng cần lưu ý ở đây là hệ thống động mới này thể hiện khả năng ủ mong
muốn của tốc độ học (t) — cụ thể là c / t đối với t lớn — tối ưu cho bất kỳ esti wˆ
mator (t) nào hội tụ thành w *, như trước đây thảo luận.
Dựa trên những cân nhắc vừa được trình bày, bây giờ chúng ta có thể chính thức mô tả
thuật toán thích ứng Murata cho việc học trực tuyến trong thời gian rời rạc như sau (Murata,
1998; Müller et al., 1998):
wˆ (n + 1) = wˆ (n) - (n) f (x (n + 1), d (n + 1); wˆ (n)) (4,83)
r (n + 1) = r (n) + f (x (n + 1), d (n + 1); wˆ (n)), 0 6 6 1 (4,84)
(n + 1) = (n) + (n) ( 7r (n + 1) 7 - (n)) (4,85)
Những điểm sau đây đáng chú ý trong công thức của hệ phương trình thời gian rời rạc
này:
• Phương trình (4.83) chỉ đơn giản là phiên bản thời gian rời rạc tức thời của
phương trình tial sai phân của phương trình. (4,77). • Phương trình (4.84) bao
gồm một vectơ phụ r (n), đã được giới thiệu để tính cho hàm thời gian liên tục (t).
Hơn nữa, phương trình thứ hai này của thuật toán thích ứng Murata bao gồm một hệ
số rò rỉ mà giá trị của nó kiểm soát giá trị trung bình chạy của luồng f.
• Phương trình (4.85) là phiên bản thời gian rời rạc của phương trình vi phân Eq. (4.80). Vectơ
phụ được cập nhật r (n 1) được bao gồm trong phương trình. (4.85) liên kết nó với Eq. (4,84);
khi làm như vậy, phụ cấp được thực hiện cho mối liên hệ giữa các hàm thời gian liên tục (t)
và (t) đã được xác định trước đó trong Eqs. (4,79) và (4,80).
Không giống như hệ thống động thời gian liên tục được mô tả trong Eqs.
(4,79) và (4,80), hành vi tiệm cận của tham số tốc độ học (t) trong phương
trình. (4.85) không hội tụ về 0 vì số lần lặp, n, tiến đến vô cùng, do đó vi
phạm yêu cầu về ủ tối ưu. Theo đó, trong vùng lân cận của tham số tối ưu w *,
bây giờ chúng ta thấy rằng đối với thuật toán thích ứng Murata:
lim wˆ (n) Z w * (4,86)
N S q
Hành vi tiệm cận này khác với hành vi của thuật toán học trực tuyến được ủ tối ưu
của Eq. (4,76). Về cơ bản, độ lệch so với ủ tối ưu được cho là do việc sử dụng
đường trung bình của dòng chảy trong Eq. (4.77), việc đưa vào đó được thúc đẩy bởi
sự cần thiết phải tính đến việc thuật toán không có quyền truy cập vào chi phí quy định
, như trường hợp của thuật toán học trực tuyến được ủ tối ưu của Eq. (4,76). wˆ * Việc
học quy tắc học rất hữu ích khi tối ưu thay đổi chậm theo thời gian n (tức là, môi trường
ra các ví dụ là không cố định) hoặc nó thay đổi đột ngột. Mặt chịu
khác,trách nhiệm
quy tắc 1 /tạo
n
không phải là một lựa chọn tốt trong môi trường như vậy, vì nó trở nên rất nhỏ đối với n
lớn, khiến quy tắc 1 / n mất khả năng học tập của nó. Về cơ bản, sự khác biệt giữa thuật
toán được ủ tối ưu khi học của Eq. (4.76) và thuật toán học trực tuyến được mô tả trong
N Eqs. (4,83) đến (4,85) là cơ chế thứ hai có cơ chế tích hợp để
kiểm soát thích ứng tốc độ học tập - do đó có khả năng theo dõi các biến thể ở mức tối
ưu.
Nhận xét cuối cùng là theo thứ tự: Mặc dù thuật toán thích ứng Murata thực sự là
không tối ưu trong điều kiện có liên quan đến việc ủ thông số tốc độ học tập, nhưng ưu
điểm quan trọng của nó là khả năng áp dụng rộng rãi của việc học trực tuyến theo cách
thực tế có thể nhắc đến.
4.11 TỔNG HỢP
Trong quá trình học truyền ngược, chúng tôi thường bắt đầu với một mẫu đào tạo và sử
dụng thuật toán truyền ngược để tính trọng số tiếp hợp của perceptron nhiều lớp bằng
cách tải (mã hóa) càng nhiều ví dụ đào tạo vào mạng càng tốt. Hy vọng rằng mạng nơ-ron
được thiết kế như vậy sẽ tổng quát hóa tốt. Một mạng được cho là tổng quát hóa tốt khi
ánh xạ đầu vào - đầu ra được mạng tính toán là chính xác (hoặc gần như vậy) đối với dữ
liệu thử nghiệm chưa bao giờ được sử dụng trong việc tạo hoặc huấn luyện mạng; thuật ngữ
"gener alization" được mượn từ tâm lý học. Ở đây, giả định rằng dữ liệu thử nghiệm được
lấy từ cùng một tập hợp được sử dụng để tạo dữ liệu huấn luyện.
Quá trình học tập (ví dụ, đào tạo mạng nơ-ron) có thể được xem như là một bài toán
“điều chỉnh đường cong”. Bản thân mạng có thể được coi đơn giản như một ánh xạ đầu vào -
đầu ra phi tuyến. Khi đó, quan điểm như vậy cho phép chúng ta nhìn tổng quát hóa không
phải là một tính chất huyền bí của mạng nơ-ron, mà chỉ đơn giản là ảnh hưởng của một phân
cực liên phi tuyến tốt của dữ liệu đầu vào. để xuất ra các hàm liên tục.
Hình 4.16a minh họa cách tổng quát hóa có thể xảy ra trong một mạng giả định.
Ánh xạ đầu vào - đầu ra phi tuyến được biểu diễn bằng đường cong mô tả trong hình này
được mạng tính toán do kết quả của việc học các điểm được gắn nhãn là “dữ liệu đào tạo”.
Do đó, điểm được đánh dấu màu đỏ trên đường cong là "tổng quát hóa" được coi là kết quả
của phép nội suy được thực hiện bởi mạng.
Một mạng nơron được thiết kế để tổng quát hóa tốt sẽ tạo ra ánh xạ đầu vào - đầu
ra chính xác ngay cả khi đầu vào hơi khác so với các ví dụ được sử dụng để huấn luyện
mạng, như minh họa trong hình. –Các ví dụ đầu ra, mạng có thể kết thúc việc ghi nhớ dữ
liệu đào tạo. Nó có thể làm như vậy bằng cách tìm một tính năng (ví dụ: do nhiễu) có
trong dữ liệu huấn luyện, nhưng không đúng với chức năng cơ bản sẽ được mô hình hóa.
Cách gọi như vậy được gọi là trang bị quá sức hoặc luyện tập quá sức. Khi mạng bị giới
hạn quá mức, nó sẽ mất khả năng tổng quát hóa giữa các mẫu đầu vào - đầu ra tương tự.
Phần 4.11 Tổng quát hóa 165
Điểm dữ liệu đào tạo

Điểm tổng quát
Đầu ra
Lập bản đồ phi

tuyến đã học qua
đào tạo
0 Đầu vào
(a)
Điểm dữ liệu đào tạo

Điểm tổng quát
Đầu ra
Lập bản đồ phi

tuyến đã học qua đào tạo
0 Đầu
vào (b)
HÌNH 4.16 (a) Ánh xạ phi tuyến được trang bị phù hợp với khả năng tổng quát hóa tốt. (b) Ánh xạ phi tuyến
được trang bị quá mức với khả năng tổng quát hóa kém.
Thông thường, việc tải dữ liệu vào perceptron nhiều lớp theo cách này yêu
cầu sử dụng nhiều nơ-ron ẩn hơn mức thực tế cần thiết, với kết quả là các hàm
không mong muốn trong không gian đầu vào do nhiễu được lưu trữ trong các trọng số
tiếp hợp của mạng. khả năng tổng quát hóa kém do ghi nhớ trong mạng nơ-ron có thể
xảy ra được minh họa trong Hình 4.16b cho dữ liệu tương tự như được mô tả trong
Hình 4.16a. “Sự ghi nhớ” về cơ bản là một “bảng tra cứu”, ngụ ý rằng ánh xạ đầu
vào - đầu ra được tính toán bởi mạng nơron là không trơn tru. liên quan đến các
tiêu chí lựa chọn mô hình như Occam's
dao cạo, bản chất của nó là chọn chức năng “đơn giản nhất” mà ngược lại, không có bất
kỳ kiến thức nào trước đó. Trong bối cảnh cuộc thảo luận hiện tại của chúng ta, hàm
đơn giản nhất có nghĩa là hàm mượt mà nhất xấp xỉ ánh xạ cho một tiêu chí lỗi nhất
định, bởi vì một lựa chọn như vậy thường đòi hỏi ít tài nguyên tính toán nhất. Sự mịn
màng cũng là điều đương nhiên trong nhiều ứng dụng, tùy thuộc vào quy mô của hiện tượng
đang được nghiên cứu. Do đó, điều quan trọng là phải tìm kiếm một ánh xạ phi tuyến mượt
mà cho các mối quan hệ đầu vào - đầu ra sai lệch, để mạng có thể phân loại các mẫu mới
một cách chính xác đối với các mẫu huấn luyện (Wieland và Leighton, 1987).
Đủ kích thước mẫu-đào tạo cho một Tổng quát hợp lệ
Tổng quát hóa bị ảnh hưởng bởi ba yếu tố: (1) kích thước của mẫu đào tạo và cách
đại diện của mẫu đào tạo đối với môi trường quan tâm, (2) cấu trúc lưu trữ của
mạng nơ-ron và (3) độ phức tạp vật lý của vấn đề trong tầm tay.
Rõ ràng, chúng tôi không kiểm soát được yếu tố cuối cùng. Trong bối cảnh của hai yếu
tố còn lại, chúng ta có thể nhìn vấn đề khái quát từ hai khía cạnh khác nhau:
• Kiến trúc của mạng là cố định (hy vọng là phù hợp với độ phức tạp vật lý của
vấn đề cơ bản) và vấn đề cần giải quyết là ngăn chặn việc khai thác kích
thước của mẫu huấn luyện cần thiết để xảy ra tổng quát hóa tốt. • Kích thước
của mẫu đào tạo là cố định và vấn đề quan tâm là ngăn chặn việc khai thác kiến
trúc mạng tốt nhất để đạt được tổng quát hóa tốt.
Cả hai quan điểm này đều có giá trị theo cách riêng của chúng.
Trong thực tế, có vẻ như tất cả những gì chúng ta thực sự cần để tổng quát hóa tốt là
có kích thước của mẫu huấn luyện, N, thỏa mãn điều kiện
(4,87)
N = Oa W b
trong đó W là tổng số tham số tự do (tức là trọng số và độ lệch khớp thần kinh)

trong mạng, biểu thị phần nhỏ lỗi phân loại được phép trên dữ liệu thử nghiệm (như
trong phân loại pat nhạn) và O (·) biểu thị thứ tự của đại lượng kèm theo ở trong.
Đối với đề thi, với sai số là 10 phần trăm, số lượng ví dụ huấn luyện cần thiết
phải gấp khoảng 10 lần số lượng tham số tự do trong mạng.
Phương trình (4.87) phù hợp với quy tắc ngón tay cái của Widrow đối với nhịp
điệu thuật toán LMS, trong đó nói rằng thời gian giải quyết cho sự thích ứng trong
tering thời gian thích ứng tuyến tính xấp xỉ bằng khoảng thời gian bộ nhớ của bộ lọc
dòng trễ chạm khai thác thích ứng chia cho điều chỉnh sai (Widrow và Stearns, 1985;
Haykin, 2002). Chỉ báo sai trong thuật toán LMS đóng một vai trò tương tự như lỗi
trong Eq. (4,87). Giải thích thêm cho quy tắc thực nghiệm này được trình bày trong phần tiếp th
4.12 PHÊ DUYỆT CÁC CHỨC NĂNG
Perceptron đa lớp được đào tạo với thuật toán lan truyền ngược có thể được xem
như một phương tiện thực tế để thực hiện ánh xạ đầu vào - đầu ra phi tuyến tính
có tính chất chung.
Phần 4.12 Các hàm gần đúng 167
perceptron, và đặt M mL biểu thị số lượng tế bào thần kinh trong lớp đầu ra của
mạng. Mối quan hệ đầu vào - đầu ra của mạng xác định ánh xạ từ một
không gian đầu vào Euclid m0 chiều thành không gian đầu ra Euclid M chiều,
mà có thể phân biệt liên tục vô hạn khi chức năng kích hoạt cũng tương tự như vậy. Trong
đánh giá khả năng của perceptron đa lớp từ quan điểm đầu vào-đầu ra này
lập bản đồ, câu hỏi cơ bản sau đây nảy sinh:
Số lớp ẩn tối thiểu trong perceptron nhiều lớp có đầu vào-đầu ra là bao nhiêu
ánh xạ cung cấp nhận thức gần đúng của bất kỳ ánh xạ liên tục nào?
Định lý xấp xỉ phổ quát
Câu trả lời cho câu hỏi này được thể hiện trong định lý xấp xỉ phổ quát8 cho một
ánh xạ đầu vào-đầu ra phi tuyến tính, có thể được phát biểu như sau:
Cho (·) là một hàm liên tục không thuận, có giới hạn và tăng đơn điệu. Hãy để Im0
biểu thị siêu khối đơn vị m0 chiều [0, 1] m0 . Không gian của các hàm liên tục trên Im0 được
ký hiệu là ) C (Im 0
. Khi đó, với bất kỳ hàm f C nào (Im và
0 ) 0, tồn tại một số nguyên 1, m0
m1 và tập hợp các hằng số thực i, bi và wij, trong đó tôi 1, ...,

m1 và j sao...,
cho chúng ta
có thể xác định
m1 m0
F (x1, ... , xm0 ) = a (4,88)
i = 1 = 1 wijxj + bi b
tôi làj một
như một thực hiện gần đúng của hàm f (·); đó là,
F (x1, ..., xm0 ) - f (x1, ..., xm0 ) 6 ε
cho tất cả x1,

nhữngx2, ...,
gì nằm xm0không gian đầu vào.
trong
Định lý xấp xỉ phổ quát có thể áp dụng trực tiếp cho trons percep nhiều lớp. Trước
tiên, chúng tôi lưu ý rằng, ví dụ, hàm tiếp tuyến hyperbol được sử dụng làm tuyến tính
không tuyến tính trong mô hình thần kinh để xây dựng perceptron nhiều lớp thực sự là một
chức năng tăng dần không bị ràng buộc, bị giới hạn và đơn điệu; Do đó, nó thỏa mãn các khái
niệm áp đặt cho hàm (·) Tiếp theo, chúng ta lưu ý rằng phương trình. (4.88) đại diện cho
việc đưa ra một perceptron nhiều lớp được mô tả như sau:
1. Mạng có m0 nút đầu vào và một lớp ẩn duy nhất bao gồm m1 neu x1, ..., xm0
rons; các đầu vào được biểu thị bằng .
2. Nơron ẩn i có trọng số tiếp hợp wi1 , ..., wm0 , và bias bias .
3. Đầu ra của mạng là sự kết hợp tuyến tính của các đầu ra của các nơron ẩn,
với 1, ..., m1 xác định trọng số khớp thần kinh của lớp đầu ra.
Định lý xấp xỉ phổ quát là một định lý tồn tại theo nghĩa là nó
cung cấp sự biện minh toán học cho sự xấp xỉ của một hàm ous liên tục tùy ý thay vì biểu
diễn chính xác. Phương trình (4.88), là xương sau của định lý, chỉ đơn thuần tổng quát các
phép gần đúng bằng chuỗi Fourier hữu hạn. Trong
hiệu quả, định lý nói rằng một lớp ẩn duy nhất là đủ để một tron percep nhiều lớp tính
toán một xấp xỉ thống nhất cho một tập huấn luyện nhất định được biểu diễn bởi
và nhiên,
tập hợp các yếu tố đầu vào . 0Tuy một đầuđịnh
ra (mục tiêu)
lý x1, ..., mong
xm muốn f (x1, ..., xm0 )
không nói rằng một lớp ẩn duy nhất là tối ưu về thời gian học, dễ thực hiện hoặc
(quan trọng hơn) tổng quát hóa.
Giới hạn về lỗi ước tính
Barron (1993) đã thiết lập các đặc tính gần đúng của perceptron nhiều lớp, giả định
rằng mạng có một lớp nơron ẩn duy nhất sử dụng các hàm sigmoid và một nơron đầu ra
tuyến tính. Mạng được đào tạo bằng cách sử dụng thuật toán lan truyền ngược và sau
đó được thử nghiệm với dữ liệu mới. Trong quá trình huấn luyện, mạng học các điểm
cụ thể của hàm mục tiêu f phù hợp với dữ liệu huấn luyện và do đó tạo ra hàm xấp xỉ
F được xác định trong Eq. (4,88). Khi mạng tiếp xúc với dữ liệu thử nghiệm chưa
từng được nhìn thấy trước đây, chức năng mạng F hoạt động như một "công cụ ước lượng" mới
F = fˆ .
điểm của hàm mục tiêu; nghĩa là, một
thuộc tính trơn tru của hàm mục tiêu f được biểu diễn dưới dạng biểu diễn
Fourier của nó. Đặc biệt, giá trị trung bình của chuẩn của vectơ tần số có trọng số
bởi phân bố độ lớn Fourier
~ được sử dụng làm thước đo cho mức độ dao động của hàm
f . Gọi f () biểu thị biến
vectơ
Fourier
đổi tần
Fourier
của
số. nó
Hàm
nhiều
f f()(x)
chiều
bằng
được
công
củaxác
hàm
thức
định
f nghịch
(x),
theovectơ
phép
đảo m0
biến
x 1đổi
là
m0
x ; ~
~
() exp (j Tx) df (4,89)
f (x) = 3 m0
~ ~
trong đó
j =f 2-1 . tích
() là Đối với hàmchúng
phân, có giá
ta trị
xác phức f () điểm
định thời mà tuyệt đối đầu tiên của phân bố
độ lớn Fourier của hàm f là
~ 1 2
f () * 7 7
d (4,90)
Cf = 3 m0
~ ~
nơi 7 7 là tiêu chuẩn Euclide của và f ( là giá trị tuyệt đối của f () . Các
) mômen tuyệt đối đầu tiên Cf định lượng độ trơn của hàm f.
Thời điểm tuyệt đối đầu tiên Cf cung cấp cơ sở cho một ràng buộc về lỗi là
kết quả của việc sử dụng perceptron nhiều lớp được biểu diễn bằng hàm ping ánh xạ
đầu vào - đầu ra F (x) của Eq. (4.88) để tính gần đúng f (x). Sai số xấp xỉ được
xác định bằng sai số bình phương tích hợp đối với một phép đo xác suất tùy ý trên
quả bóng Brbiểu
= {x: 7x đề
mệnh 7 r} bán
sau kính
cho mộtr(1993):
Barron 0. Trên
giới cơ sởsai
hạn trên này,
sốchúng tôi
xấp xỉ có đưa
được thể ra
phát
bởi
Với mọi hàm liên tục f (x) với thời điểm đầu tiên hữu hạn Cf và mọi m1 1, tồn tại một tổ hợp tuyến tính của
các hàm dựa trên sigmoid F (x) có dạng được xác định trong phương trình. (4.88) sao cho khi hàm f (x) được
quan sát tại một tập hợp các giá trị của vectơ đầu vào x được biểu thị bằng {xi } giới hạn thấp hơn về rủi
N
tôi 1 bị
ro thực hạn
nghiệm: chế nằm bên trong quả bóng bán kính r được quy định, kết quả cung cấp
1
N
C¿ f
eav (N) = a (f (xi ) - F (xi )) 2
N i = 1
m1
(4,91)
¿
ở đâu Cf = (2rCf) 2 .
Phần 4.12 Các hàm gần đúng 169
Trong Barron (1992), kết quả gần đúng của Eq. (4.91) được sử dụng để thể hiện sự ràng buộc về
rủi ro do
eavsử(N)
dụng perceptron nhiều lớp với m0 nút đầu vào
và m1 tế bào thần kinh ẩn như sau:
C2f
(4,92)
eav (N) Oa N log N b
m1 b + Oa m0m1
Hai điều khoản trong ràng buộc về rủi roeav

thể(N)
hiện sự cân bằng giữa hai yêu cầu mâu
thuẫn về kích thước của lớp ẩn:
1. Độ chính xác của phép gần đúng tốt nhất. Để đáp ứng yêu cầu này, kích thước của
lớp ẩn, m1, phải lớn theo định lý xấp xỉ phổ quát.
2. Độ chính xác của phù hợp thực nghiệm với giá trị gần đúng. Để đáp ứng yêu cầu thứ hai này,
chúng ta phải sử dụng một tỷ lệ nhỏ m1 / N. Đối với kích thước cố định của mẫu đào tạo, N, kích thước của
lớp ẩn, m1, nên được giữ nhỏ, xung đột với lớp đầu tiên
yêu cầu.
Ràng buộc về rủi ro eav (N) được mô tả trong Eq. (4.92) có các cation hàm ý thú
vị khác. Cụ thể, chúng tôi thấy rằng kích thước mẫu lớn theo cấp số nhân, lớn trong phạm
vi góc m0 của không gian đầu vào, không cần thiết để có được ước tính chính xác về mục tiêu
, với điều kiện là thời điểm tuyệt đối đầu tiên Cf vẫn là hữu hạn. Kết quả này làm cho
perceptron nhiều lớp như là bộ xấp xỉ phổ quát thậm chí còn quan trọng hơn trong thực tế
điều kiện.
Sai số giữa sự phù hợp theo kinh nghiệm và giá trị gần đúng nhất có thể được xem là
một lỗi ước tính. Hãy biểu thị giá trị bình phương trung bình của sai số ước tính này.
0
bỏ qua thừa số logarit logN trong số hạng thứ hai của giới hạn trong phương trình. (4,92), chúng tôi
có thể suy ra rằng kích thước N của mẫu đào tạo cần thiết để tổng quát hóa tốt là
khoảng m0m1 / 0.Kết quả này có cấu trúc toán học tương tự như quy tắc thực nghiệm
của Eq. (4.87), lưu ý rằng m0m1 bằng tổng số param W tự do trong mạng. Nói cách
khác, chúng ta có thể nói chung rằng để có sự thay đổi gener tốt, số lượng N của
các ví dụ đào tạo phải lớn hơn tỷ lệ của
tổng số tham số miễn phí trong mạng thành giá trị bình phương trung bình của
sai số ước lượng.
Lời nguyền của chiều không gian
Một kết quả thú vị khác xuất hiện từ các giới hạn được mô tả trong (4.92) là khi
kích thước của lớp ẩn được tối ưu hóa (tức là eav rủi ro (N) được giảm thiểu với sự tôn trọng
đến N) bằng cách thiết lập

1 2
m1
M Cf a m0
N log N b
(N) thì rủi eav

ro bị ràng buộc O (Cf2m0 (logN N) .Một khía cạnh đáng ngạc nhiên của kết
bởi xét theo hành vi bậc nhất của rủi ro eav (N) ,quả này là tốc độ hội tụ được thể hiện
1/2
như một hàm của kích thước mẫu đào tạo N có thứ tự (1 / N) (nhân với hệ số logarit).
Ngược lại, đối với các hàm trơn truyền thống (ví dụ: đa thức và lượng giác
chức năng), chúng tôi có một hành vi khác nhau. Gọi s là đại lượng đo độ trơn, được định nghĩa
là số đạo hàm liên tục của một hàm quan tâm. Sau đó, đối với các hàm trơn truyền thống, chúng ta
thấy rằng tỷ lệ hội tụ tối thiểu của tổng rủi ro eav (N) có thứ tự (1 / N) 2 giây / (2 giây
tháng) . , m0, chịu trách nhiệm về lời nguyền về chiều, hạn chế nghiêm trọng ứng dụng thực tế
của các hàm này. Việc sử dụng perceptron nhiều lớp để xấp xỉ hàm dường như mang lại lợi thế hơn
so với việc sử dụng các hàm trơn truyền thống.
Tuy nhiên, lợi thế này phụ thuộc vào điều kiện thời điểm tuyệt đối đầu tiên Cf vẫn là hữu hạn;
đây là một hạn chế về độ trơn tru.
Lời nguyền về chiều được Richard Bellman đưa ra trong các nghiên cứu của ông về các quá
trình điều khiển thích ứng (Bellman, 1961). Để giải thích hình học cho khái niệm này, hãy đặt x
biểu thị một vectơ đầu vào m0 chiều và {(xi , di )}, i 1, 2, ..., N, biểu
m0 thị
. Mật
mẫuđộhuấn
lấy luyện
mẫu tỷN1lệ
một bề mặt nằm trong không gian đầu vào m0 chiều đi qua gần các với.
điểm Cho một hàm
dữ liệu {(xif ,(x)
di rep
)} Nlại
i 1.
Bây giờ, nếu hàm f (x) phức tạp tùy ý và (phần lớn) hoàn toàn không xác
định, chúng ta cần các điểm mẫu (dữ liệu) dày đặc để học tốt nó.
Thật không may, rất khó tìm thấy các mẫu dày đặc ở "kích thước cao" - dẫn đến lời nguyền về chiều
không gian. Đặc biệt, có sự gia tăng theo cấp số nhân về độ phức tạp do sự gia tăng về số chiều,
do đó, dẫn đến sự suy giảm các thuộc tính lấp đầy không gian cho các điểm phân bố ngẫu nhiên đồng
nhất trong các không gian có chiều cao hơn. Lý do cơ bản cho lời nguyền về chiều không gian như
sau (Friedman, 1995):
Một chức năng được xác định trong không gian chiều cao có thể phức tạp hơn nhiều so với
một chức năng được xác định trong không gian chiều thấp hơn, và những biến chứng đó khó
phân biệt hơn.
Về cơ bản, chỉ có hai cách để giảm thiểu vấn đề về lời nguyền không chiều:
1. Kết hợp kiến thức trước đây về hàm chưa biết để được tính gần đúng.
Kiến thức này được cung cấp nhiều hơn và cao hơn dữ liệu đào tạo. Đương nhiên, việc tiếp
thu kiến thức phụ thuộc vào vấn đề. Ví dụ, trong phân loại theo mẫu, kiến thức có thể thu
được từ việc hiểu các lớp (danh mục) thích hợp của dữ liệu đầu vào.
2. Thiết kế mạng để tăng độ mượt mà của func chưa biết

với kích thước đầu vào ngày càng tăng.
Cân nhắc thực tế
Định lý xấp xỉ phổ quát rất quan trọng trên quan điểm lý thuyết vì nó cung cấp công cụ toán học
cần thiết cho khả năng tồn tại của mạng truyền thẳng với một lớp ẩn duy nhất là một lớp các
nghiệm gần đúng. Nếu không có một định lý như vậy, có thể hình dung chúng ta đang tìm kiếm một
giải pháp không thể tồn tại. Tuy nhiên, theo rem không mang tính xây dựng; nghĩa là nó không thực
sự chỉ định cách xác định perceptron nhiều lớp với các thuộc tính gần đúng đã nêu.
Định lý xấp xỉ phổ quát giả định rằng hàm liên tục được xấp xỉ đã cho và một lớp ẩn có
kích thước không giới hạn có sẵn cho
Phần 4.13 Xác thực chéo 171
sự gần đúng. Cả hai giả định này đều bị vi phạm trong hầu hết các ứng dụng thực tế của perceptron
nhiều lớp.
Vấn đề với các perceptron nhiều lớp sử dụng một lớp ẩn duy nhất là các neuron trong đó có
xu hướng tương tác với nhau trên toàn cầu. Trong các tình huống phức tạp, hành động liên kết này
gây khó khăn cho việc cải thiện giá trị gần đúng tại một thời điểm mà không làm xấu đi ở một số
điểm khác. Mặt khác, với hai lớp ẩn, quá trình xấp xỉ (điều chỉnh đường cong) trở nên dễ quản lý
hơn. Đặc biệt, chúng tôi có thể tiến hành theo mức thấp của fol (Funahashi, 1989; Chester, 1990):
1. Các tính năng cục bộ được trích xuất trong lớp ẩn đầu tiên. Cụ thể, một số tế bào thần kinh
trong lớp ẩn đầu tiên được sử dụng để phân vùng không gian đầu vào thành các vùng, và các
tế bào thần kinh khác trong lớp đó học các tính năng cục bộ đặc trưng cho các vùng đó.
2. Các tính năng toàn cục được trích xuất trong lớp ẩn thứ hai. Cụ thể, một tế bào thần kinh
trong lớp ẩn thứ hai kết hợp đầu ra của các tế bào thần kinh trong lớp ẩn đầu tiên hoạt
động trên một vùng cụ thể của không gian đầu vào và do đó học các đặc điểm chung cho vùng
đó và kết quả đầu ra bằng không ở nơi khác.
Giải thích thêm cho việc sử dụng hai lớp ẩn được trình bày trong Sontag (1992) trong bối cảnh của
các bài toán nghịch đảo.
4.13 XÁC NHẬN CROSS-VALIDATION
Bản chất của việc học truyền ngược là mã hóa ánh xạ đầu vào - đầu ra (được gửi lại bởi một tập
hợp các ví dụ được gắn nhãn) thành các trọng số và ngưỡng của khớp thần kinh của một perceptron
nhiều lớp. Hy vọng là mạng được đào tạo tốt để nó học đủ về quá khứ để tổng quát hóa cho tương
lai. Từ quan điểm như vậy, quá trình học tập dẫn đến sự lựa chọn tham số hóa mạng cho một tập dữ
liệu nhất định. Cụ thể hơn, chúng ta có thể xem vấn đề lựa chọn mạng là lựa chọn trong một tập
hợp các cấu trúc mô hình ứng viên (tham số hóa), mô hình "tốt nhất" theo một tiêu chí nhất định.
Trong bối cảnh này, một công cụ tiêu chuẩn trong thống kê, được gọi là xác nhận chéo, cung
cấp một nguyên tắc hướng dẫn hấp dẫn9 (Stone, 1974, 1978). Đầu tiên, tập dữ liệu có sẵn được phân
chia ngẫu nhiên thành một mẫu huấn luyện và một tập thử nghiệm. Mẫu huấn luyện được chia thành hai
tập con rời rạc:
• một tập hợp con ước tính, được sử dụng để chọn mô hình; •
một tập hợp con xác nhận, được sử dụng để kiểm tra hoặc xác nhận mô hình.
Động lực ở đây là xác thực mô hình trên một tập dữ liệu khác với tập dữ liệu được sử dụng để ước
lượng tham số. Bằng cách này, chúng tôi có thể sử dụng mẫu đào tạo để đánh giá mức độ phù hợp của
các mô hình ứng viên khác nhau và từ đó chọn mô hình “tốt nhất”. kết thúc việc trang bị quá tập
hợp con xác thực. Để đề phòng khả năng này, hiệu suất tổng quát hóa của mô hình đã chọn được đo
trên tập thử nghiệm, khác với tập hợp con xác nhận.
Việc sử dụng xác nhận chéo đặc biệt hấp dẫn khi chúng ta phải thiết kế một mạng nơ-ron lớn
với mục tiêu là tổng quát hóa tốt. Ví dụ, chúng tôi có thể sử dụng
xác thực chéo để xác định perceptron nhiều lớp có số ẩn tốt nhất
tế bào thần kinh và để tìm ra thời điểm tốt nhất để ngừng đào tạo, như được mô tả trong hai phần tiếp theo
các phần phụ.
Lựa chọn mô hình
Để mở rộng ý tưởng về việc chọn một mô hình phù hợp với xác thực chéo, hãy xem xét cấu
trúc lồng nhau của các lớp hàm Boolean được biểu thị bằng
f1 ( f2 (p ( fn (4,93)
fk = {Fk}
= {F (x, w); w wk}, k = 1, 2, ... ,N
Nói cách khác, lớp hàm thứ k bao fk

gồm một họ các perceptron nhiều lớp với
kiến trúc tương tự và vectơ trọng lượng w được vẽ từ không gian trọng lượng đa chiều
.
tuần Một thành viên của lớp này, được đặc trưng bởi hàm hoặc giả thuyết Fk F (x, w),
w wk , ánh xạ vectơ đầu vào x thành {0, 1}, trong đó x được vẽ từ không gian đầu vào xvới
một số xác suất chưa biết P. Mỗi perceptron nhiều lớp trong cấu trúc được mô tả là
được đào tạo với thuật toán lan truyền ngược, giải pháp này sẽ chăm sóc đào tạo các tham số
của perceptron nhiều lớp. Vấn đề lựa chọn mô hình về cơ bản là chọn lựa perceptron nhiều
lớp với giá trị tốt nhất của w, số lượng tham số tự do
(tức là trọng số và độ lệch tiếp hợp). Chính xác hơn, với điều kiện là phản hồi mong muốn vô hướng
đối với vectơ đầu vào x là d {0, 1}, chúng tôi xác định lỗi tổng quát hóa là xác suất
g (F) = P (F (x) Z d) cho x x
Chúng tôi được cung cấp một mẫu đào tạo gồm các ví dụ được gắn nhãn
t = {(xi , di )} N i = 1
Mục tiêu là chọn giả thuyết cụ thể F (x, w) để giảm thiểu sai số i hóa tổng quát g (F),
là kết quả khi nó được cung cấp các đầu vào từ tập thử nghiệm.
Trong những gì sau đây, chúng tôi giả định rằng cấu trúc được mô tả bởi Eq. (4.93) có
ưu điểm là, đối với bất kỳ cỡ mẫu N nào, chúng ta luôn có thể tìm thấy perceptron nhiều lớp với
đủ số lượng thông số tự do Wmax (N) để có thể lắp được mẫu huấn luyện t
Một cách đầy đủ, giả thiết này chỉ đơn thuần là trình bày lại định lý xấp xỉ phổ quát của
Mục 4.12. Chúng tôi gọi Wmax (N) là số phù hợp. Ý nghĩa của Wmax (N) là
rằng một thủ tục lựa chọn mô hình hợp lý sẽ chọn một giả thuyết F (x, w)
yêu cầu W Wmax (N); nếu không, độ phức tạp của mạng sẽ tăng lên.
Đặt một tham số r, nằm trong phạm vi từ 0 đến 1, xác định phần chia của
t tập con ước lượng và tập con xác thực. Với bao gồm N ví dụ, (1
mẫu huấn luyện giữa t r) N ví
dụ được phân bổ cho tập con ước lượng và
các ví dụ rN còn lại được phân bổ cho tập hợp con xác nhận. Tập hợp con ước tính,
t¿
ký hiệu là, được sử dụng để đào tạo một chuỗi các perceptron nhiều lớp lồng nhau, dẫn đến
giả thuyết f 1, f2, ..., fn với độ phức tạp ngày càng tăng.Với (1 - r) N kiểm tra các
Xin vui lòng, chúng tôi xem xét các giá trị của W nhỏ hơn hoặc bằng số phụ kiện tương ứng
Wmax ((1 r) N).
Phần 4.13 Xác thực chéo 173
Việc sử dụng xác nhận chéo dẫn đến sự lựa chọn
fcv = phút {et - (fk)} (4,94)

k = 1, 2, p ,
trong đó v tương ứng với Wv Wmax ((1 - r) N) và et - (fk) là lỗi phân loại do giả
fk
thuyết gây ra khi nó được kiểm tra trên tập hợp con xác nhận t–, bao gồm rN ví dụ.
Vấn đề quan trọng là làm thế nào để chỉ định tham số r xác định sự phân chia
t
phỏng máy tính của mẫu
chi tiết, một số đặc tính định thử
tính nghiệm
của r tốigiữa
ưu tập
tậpcon
được conxác
xác ướcnhận.
tính mô
định: và
• Khi độ phức tạp của hàm mục tiêu, xác định phản hồi mong muốn d theo vectơ đầu
vào x, nhỏ so với kích thước mẫu N, thì trên mỗi hình thức xác nhận chéo tương
đối không nhạy cảm với sự lựa chọn của r. • Khi hàm mục tiêu trở nên phức tạp
hơn so với cỡ mẫu N, việc lựa chọn r tối ưu có ảnh hưởng rõ rệt hơn đến tính xác
thực chéo đối với mance và giá trị của chính hàm mục tiêu sẽ giảm. • Một giá
trị cố định duy nhất của r hoạt động gần như tối ưu cho nhiều loại chức năng mục
tiêu
sự phức tạp.
Trên cơ sở các kết quả được báo cáo trong Kearns (1996), giá trị cố định của r bằng
0,2 dường như là một lựa chọn hợp lý, có nghĩa là 80 phần trăm mẫu huấn luyện t được
gán cho tập con ước lượng và 20 phần trăm còn lại là được gán cho tập hợp con xác thực.
Phương pháp đào tạo dừng lại sớm
Thông thường, một perceptron nhiều lớp được đào tạo với thuật toán lan truyền ngược
sẽ học theo từng giai đoạn, chuyển từ việc thực hiện các hàm ánh xạ khá đơn giản đến
phức tạp hơn khi phiên đào tạo diễn ra. sai số bình phương giảm với số lượng kỷ nguyên
được sử dụng để huấn luyện ngày càng tăng: Nó bắt đầu ở một giá trị lớn, giảm nhanh
chóng và sau đó tiếp tục giảm từ từ khi mạng đạt đến mức tối thiểu cục bộ trên bề mặt
lỗi. mục tiêu, rất khó để tìm ra khi nào là tốt nhất để dừng đào tạo nếu chúng ta chỉ
nhìn vào đường cong học tập để đào tạo một mình. Đặc biệt, theo những gì đã nói trong
Phần 4.11 về tổng quát hóa, mạng có thể kết thúc việc trang bị quá nhiều dữ liệu đào
tạo nếu phiên đào tạo không được dừng lại ở đúng điểm.
Chúng tôi có thể xác định sự bắt đầu của việc trang bị quá mức thông qua việc sử
dụng xác thực chéo, trong đó dữ liệu đào tạo được chia thành một tập con ước tính và một
tập con xác thực. Tập hợp con ước tính của các ví dụ được sử dụng để huấn luyện mạng theo
cách thông thường, ngoại trừ một sửa đổi nhỏ: Phiên huấn luyện bị dừng theo định kỳ (tức
là cứ nhiều kỷ nguyên như vậy) và mạng được kiểm tra trên tập hợp con xác thực sau mỗi
khoảng thời gian tập huấn. Cụ thể hơn, “quy trình ước tính-theo sau-xác thực” định kỳ diễn
ra như sau: • Sau một khoảng thời gian ước tính (đào tạo) — chẳng hạn như mỗi năm kỷ
nguyên — trọng số của khớp thần kinh và mức độ chệch của perceptron nhiều lớp đều được cố định
mạng được vận hành ở chế độ chuyển tiếp của nó. Do đó, lỗi xác thực được đo lường
cho mỗi ví dụ trong tập hợp con xác thực.
• Khi giai đoạn xác nhận hoàn thành, việc ước tính (đào tạo) được tiếp tục cho
một khoảng thời gian khác, và quá trình này được lặp lại.
Quy trình này được gọi là phương pháp đào tạo dừng sớm, đơn giản
để hiểu và do đó được sử dụng rộng rãi trong thực tế.
Hình 4.17 cho thấy các dạng khái niệm của hai đường cong học tập, một đường liên quan đến
các phép đo trên tập con ước lượng và các phép đo khác liên quan đến tập con xác nhận.
Thông thường, mô hình không hoạt động tốt trên tập hợp con xác nhận như nó làm trên tập con
estima tion, dựa trên thiết kế của nó . Ngược lại, việc xác nhận
đường cong học tập giảm đơn điệu đến mức tối thiểu và sau đó bắt đầu tăng lên khi
Khi chúng ta nhìn vào đường cong học tập ước tính, có thể thấy rằng chúng ta
có thể làm tốt hơn bằng cách vượt qua điểm tối thiểu trên đường cong học tập xác nhận. Trong
thực tế, tuy nhiên, những gì mạng đang học được ngoài thời điểm này về cơ bản là nhiễu tích hợp
trong dữ liệu đào tạo. Kinh nghiệm này gợi ý rằng điểm tối thiểu trên đường cong học tập hợp lệ
được sử dụng như một tiêu chí hợp lý để dừng buổi đào tạo.
Tuy nhiên, một lời cảnh báo là ở đây. Trong thực tế, lỗi mẫu xác thực
không phát triển theo số kỷ nguyên được sử dụng để luyện tập một cách trơn tru như đường cong
ized lý tưởng được thể hiện trong Hình 4.17. Thay vào đó, lỗi mẫu xác thực có thể biểu hiện một số
cực tiểu của chính nó trước khi nó bắt đầu tăng lên với số lượng kỷ nguyên ngày càng tăng. Trong
những tình huống như vậy, một tiêu chí dừng phải được lựa chọn một cách có hệ thống. Một
Điều tra thực nghiệm về perceptron nhiều lớp do Prechelt (1998) thực hiện cho thấy bằng thực
nghiệm rằng trên thực tế, có sự cân bằng giữa thời gian đào tạo và hiệu suất đồng hóa gener.
Dựa trên kết quả thực nghiệm thu được trong đó trên 1.296 khóa đào tạo
phiên, 12 vấn đề khác nhau và 24 kiến trúc mạng khác nhau, nó được kết luận
rằng, khi có hai hoặc nhiều cực tiểu cục bộ, việc lựa chọn điểm dừng "chậm hơn"
tiêu chí (tức là tiêu chí dừng muộn hơn các tiêu chí khác) cho phép đạt được
một sự cải thiện nhỏ về hiệu suất tổng quát hóa (thông thường, khoảng 4%, ở độ tuổi lớn hơn)
với chi phí là thời gian đào tạo dài hơn nhiều (trung bình khoảng một hệ số bốn).
HÌNH 4.17 Minh họa về
quy tắc dừng sớm dựa trên

về xác thực chéo.
Bần tiện
Xác thực-mẫu
Quảng trường lỗi
lỗi
Dừng Đào tạo-mẫu

sớm lỗi
điểm
0
Số kỷ nguyên
Phần 4.14 Điều chỉnh độ phức tạp và cắt tỉa mạng lưới 175
HÌNH 4.18 Minh họa về phương pháp xác nhận chéo nhiều lần. Đối
Thử nghiệm 1
với một thử nghiệm nhất định, tập hợp con dữ liệu được tô màu
đỏ được sử dụng để xác thực mô hình được đào tạo trên dữ liệu
còn lại.
Thử nghiệm 2
Thử nghiệm 3
Thử nghiệm 4
Các biến thể của xác thực chéo
Phương pháp xác nhận chéo vừa được mô tả còn được gọi là phương pháp giữ lại.
Có các biến thể khác của xác thực chéo có công dụng riêng của chúng trong thực tế, đặc biệt
là khi khan hiếm các ví dụ được gắn nhãn. Trong tình huống như vậy, chúng ta có thể sử dụng
xác nhận chéo nhiều lần bằng cách chia tập N mẫu có sẵn thành K tập con, trong đó K 1; thủ
tục này giả định rằng K chia hết cho N. Mô hình được huấn luyện trên tất cả các tập con ngoại
trừ một tập hợp con, và lỗi xác nhận được đo bằng cách kiểm tra nó trên tập con bị bỏ đi. Quy
trình này được lặp lại cho tổng số K thử nghiệm, mỗi lần sử dụng một tập hợp con khác nhau để
xác nhận, như được minh họa trong Hình 4.18 cho K 4. Hiệu suất của mô hình được đánh giá bằng
cách lấy trung bình sai số được xác nhận trên tất cả các thử nghiệm của Thử nghiệm Có một
nhược điểm đối với xác thực chéo nhiều lần: Nó có thể yêu cầu tính toán quá nhiều, vì mô hình
phải được huấn luyện K lần, trong đó 1 K N.
Khi số lượng các ví dụ được gắn nhãn, N, có sẵn bị hạn chế nghiêm trọng, chúng tôi có
thể sử dụng hình thức xác thực chéo nhiều lần cực đoan được gọi là phương pháp bỏ một. Trong
trường hợp này, N - 1 ví dụ được sử dụng để huấn luyện mô hình và mô hình được xác nhận bằng
cách thử nghiệm nó trên ví dụ bị bỏ sót. Thử nghiệm được lặp lại tổng cộng N lần, mỗi lần để
lại một ví dụ khác nhau để xác nhận. Sau đó, sai số bình phương theo định vị dũng cảm được
tính trung bình trên N lần thử nghiệm của thí nghiệm.
4.14 QUY ĐỊNH TOÀN DIỆN VÀ KHAI THÁC MẠNG
Trong việc thiết kế perceptron nhiều lớp theo bất kỳ phương pháp nào, chúng tôi thực sự đang
xây dựng một mô hình phi tuyến tính của hiện tượng vật lý chịu trách nhiệm về việc tạo ra các
ví dụ đầu vào - đầu ra được sử dụng để huấn luyện mạng. Trong chừng mực thiết kế mạng có bản
chất nghiêm ngặt, chúng ta cần có sự cân bằng thích hợp giữa độ tin cậy của dữ liệu huấn luyện
và độ tốt của mô hình (tức là, một phương pháp để giải quyết tình huống khó xử thiên lệch-
phương sai được thảo luận trong Chương 2). Trong bối cảnh học truyền ngược hoặc bất kỳ quy
trình học siêu nhìn nào khác cho vấn đề đó, chúng ta có thể nhận ra sự cân bằng này bằng cách
giảm thiểu tổng rủi ro, được biểu thị dưới dạng hàm của vectơ tham số w, như sau:
R (w) = eav (w) + ec (w) (4,95)
Thuật ngữ đầu tiên, eav ,(w) là số liệu hiệu suất tiêu chuẩn, phụ thuộc vào cả mạng (mô hình)
và dữ liệu đầu vào. Trong quá trình học truyền ngược, nó thường được định nghĩa
dưới dạng lỗi bình phương trung bình mà đánh giá của nó mở rộng trên các nơ-ron đầu ra của công
việc mạng và được thực hiện cho tất cả các ví dụ đào tạo trên cơ sở từng kỷ nguyên, xem
Phương trình (4,5). Số hạng thứ hai, ec (w) , là hình phạt phức tạp, trong đó khái niệm về com
tính phức tạp được đo lường riêng về mạng (trọng số); sự bao gồm của nó áp đặt lên
giải pháp kiến thức trước mà chúng tôi có thể có về các mô hình đang được xem xét. Cho
trình bày thảo luận, nó đủ để coi như một tham số chính quy hóa, đại diện cho
tầm quan trọng tương đối của thuật ngữ hình phạt phức tạp đối với thuật ngữ chỉ số hiệu suất.
Khi bằng không, quá trình học truyền ngược không bị hạn chế,
với mạng được xác định hoàn toàn từ các ví dụ đào tạo. Khi nào
Mặt khác, được tạo ra vô cùng lớn, hàm ý là sự ràng buộc áp đặt
bởi hình phạt phức tạp tự nó đã đủ để chỉ định mạng, là một mạng khác
cách nói rằng các ví dụ đào tạo là không đáng tin cậy. Trong các ứng dụng thực tế của
sự phức tạp hóa chính quy, tham số chính quy hóa được gán một giá trị ở giữa hai trường hợp
giới hạn này. Chủ đề của lý thuyết chính quy hóa được trình bày chi tiết trong Chương 7.
Quy trình giảm trọng lượng
Trong một hình thức đơn giản hóa, nhưng hiệu quả, của quy luật phức tạp được gọi là phân rã theo trọng lượng
thủ tục (Hinton, 1989), thuật ngữ hình phạt phức tạp được định nghĩa là tiêu chuẩn bình phương
của vectơ trọng số w (tức là, tất cả các tham số tự do) trong mạng, như được hiển thị bởi
2
ec (w) = 7 w7
(4,96)
tôi
= aiHctotal w2
nơi đặt ctotal đề cập đến tất cả các trọng số của khớp thần kinh trong mạng. Quy trình
này hoạt động bằng cách buộc một số trọng số khớp thần kinh trong mạng nhận các giá trị gần bằng 0,
đồng thời cho phép các trọng số khác giữ nguyên giá trị tương đối lớn của chúng. Theo đó,
trọng số của mạng được nhóm gần như thành hai loại:
(i) các trọng số có ảnh hưởng đáng kể đến hoạt động của mạng;
(ii) các trọng số thực tế có ảnh hưởng ít hoặc không ảnh hưởng đến hoạt động của mạng.
Các trọng lượng trong danh mục thứ hai được gọi là trọng lượng vượt quá. Trong trường hợp không
có quy định về tính linh hoạt chung, các trọng số này dẫn đến khả năng tổng quát hóa kém do
khả năng nhận các giá trị hoàn toàn tùy ý hoặc khiến mạng được trang bị quá mức
dữ liệu để giảm nhẹ lỗi huấn luyện (Hush và Horne,
Năm 1993). Việc sử dụng quy định phức tạp khuyến khích các trọng số dư thừa để giả định
giá trị gần bằng 0 và do đó cải thiện khả năng tổng quát hóa.
Tỉa mạng dựa trên Hessian: Bác sĩ phẫu thuật não tối ưu
Ý tưởng cơ bản của cách tiếp cận phân tích để cắt giảm mạng là sử dụng thông tin về
các dẫn xuất bậc hai của bề mặt lỗi để cân bằng giữa độ phức tạp của công việc thực và hiệu
suất lỗi đào tạo. Đặc biệt, một mô hình địa phương của
bề mặt lỗi được xây dựng để dự đoán phân tích ảnh hưởng của nhiễu loạn trong
trọng số synap. Điểm khởi đầu trong việc xây dựng mô hình như vậy là địa phương
xấp xỉ của hàm chi phí bằng cách sử dụng

eav chuỗi Taylor về điểm hoạt động, được mô tả là
1 3
eav (w + ¢ w) = eav (w) + gT (w) ¢ w + ¢ wTH ¢ w + O (7 ¢ w 7 ) (4,97)
2
trong đó ! w là nhiễu được áp dụng cho điểm hoạt động w và g (w) là gradient vec tor
được đánh giá tại w. Hessian cũng được đánh giá tại điểm w, và do đó, để chính xác,
chúng ta nên ký hiệu nó bằng H (w). Chúng tôi đã không làm như vậy trong Eq. (4.97)
chỉ để mô phỏng ký hiệu.
Yêu cầu là xác định một tập hợp các tham số mà việc xóa khỏi perceptron
nhiều lớp sẽ gây ra sự gia tăng giá trị của hàm chi phí ít nhất. eav
1. Phép Xấp xỉ Cực trị. Chúng tôi giả định rằng các tham số chỉ bị xóa khỏi công
việc ròng sau khi quá trình huấn luyện đã hội tụ (tức là mạng đã được huấn luyện đầy
đủ). Hàm ý của giả định này là các tham số có một bộ giá trị tương ứng với mức tối thiểu
cục bộ hoặc mức tối thiểu toàn cầu của bề mặt lỗi. Trong trường hợp này, vectơ gra dient
g có thể được đặt bằng 0 và thuật ngữ gT! W ở phía bên phải của Eq. (4,97) do đó có thể
bị bỏ qua; nếu không, các biện pháp độ mặn (được định nghĩa sau) sẽ không có giá trị đối
với vấn đề đang xảy ra.
2. Xấp xỉ bậc hai. Chúng tôi giả định rằng bề mặt lỗi xung quanh mức tối thiểu cục
bộ hoặc mức tối thiểu toàn cầu là "gần như bậc hai". Do đó, các thuật ngữ bậc cao hơn
trong Eq. (4,97) cũng có thể bị bỏ qua.
Theo hai giả định này, Eq. (4.97) được đơn giản hóa thành
¢ eav = e (w + ¢ w) - e (w)
(4,98)
= 1 ¢ wTH ¢ w
2
Phương trình (4.98) cung cấp cơ sở cho quy trình cắt tỉa được gọi là bộ não tối ưu
(OBS), do Hassibi và Stork (1993).
Mục tiêu của OBS là đặt một trong các trọng số của khớp thần kinh bằng 0 để
giảm
(n) biểu thị trọng lượng tic thiểu
synap cụ eav
thể mức
này.tăng
Việcgia tăng
loại bỏ trong
trọng Eq. (4,98).
lượng Gọi wi
này tương
đương với điều kiện
T
1i ¢ w + wi = 0 (4,99)
trong đó 1i là vectơ đơn vị mà các phần tử của nó đều bằng 0, ngoại trừ phần tử thứ i, bằng
đồng nhất. Bây giờ chúng tôi có thể trình bày lại mục tiêu của OBS như sau:
Tối thiểu hóa dạng bậc hai ! WTH!

1 2 W đối với sự thay đổi gia tăng trong 1T vectơ
trọng
rằng ¢ w + wi bằng 0, và sau đó thu nhỏ kết quả đối số
tôi
với,!chỉ
W, số
tuân
i. theo ràng buộc
Có hai mức độ giảm thiểu đang diễn ra ở đây. Một tối thiểu hóa là trên các vectơ
trọng số tiếp hợp còn lại sau khi vectơ trọng số thứ i được đặt bằng 0. Việc thu nhỏ
thứ hai là việc cắt bỏ vectơ cụ thể nào.
Để giải quyết vấn đề tối ưu hóa bị ràng buộc này, trước tiên chúng tôi xây dựng Lagrangian
1
S = ¢ wT H ¢ w - (1i T ¢ w + wi ) (4.100)
2
nhân Lagrange ở đâu . Sau đó, lấy đạo hàm của Lagrangian S đối với ! w, áp dụng ràng
buộc của phương trình. (4.99), và sử dụng phép nghịch đảo ma trận, chúng tôi thấy
rằng sự thay đổi tối ưu trong vectơ trọng số w được cho bởi
Wi
¢ w = - (4.101)
H-1 1i
[H-1 ] tôi, tôi
và giá trị tối ưu tương ứng của Lagrangian S cho phần tử wi là
2 wi
Si = (4.102)
2 [H-1 ]
i, i trong đó H1 là phần tử nghịch đảo của Hessian H, và [H1 ] i, i là phần tử thứ hai của ma
trận nghịch đảo này. Lagrangian Si được tối ưu hóa đối với ! W, tùy thuộc vào ràng buộc rằng trọng
lượng của synap thứ i sẽ bị loại bỏ, được gọi là độ mặn của wt . Trên thực tế, độ mặn Si
đại diện cho sự gia tăng sai số trung bình (thước đo hiệu suất) là kết quả của việc xóa wi . Lưu
2
ý rằng độ mặn Si , tỷ lệ với. Do đó, trọng số nhỏ có ảnh hưởng
bình.nhỏ
Tuyđến
nhiên,
sai số
từ bình
Eq.
Wi (4.102),
phương trung
chúng
ta thấy rằng độ mặn Si, cũng tỷ lệ nghịch với các phần tử đường chéo của nghịch đảo Hessian. Do
đó, nếu [H1 ] i, i nhỏ, thì ngay cả các trọng số nhỏ cũng có thể có ảnh hưởng đáng kể đến sai số
bình phương trung bình.
Trong quy trình OBS, trọng lượng tương ứng với độ mặn nhỏ nhất là trọng lượng
được chọn để xóa. Hơn nữa, các thay đổi tối ưu tương ứng trong phần còn lại của
các trọng số được cho trong phương trình. (4.101), cho thấy rằng chúng phải được
cập nhật dọc theo hướng của cột thứ i của nghịch đảo Hessian.
Theo Hassibi và các đồng nghiệp nhận xét về một số vấn đề điểm chuẩn, quy
trình OBS dẫn đến các mạng nhỏ hơn so với những mạng thu được bằng quy trình phân
rã theo trọng số. lớp ẩn và hơn 18.000 trọng lượng, mạng lưới được cắt giảm xuống
chỉ còn 1.560 trọng lượng, giảm đáng kể kích thước của lưới. NETtalk, do Sejnowski
và Rosenberg (1987), được mô tả trong Phần 4.18.
Tính toán nghịch đảo Hessian. Hessian H-1 nghịch đảo là nền tảng cho định dạng của quy trình
OBS. Khi số lượng các tham số tự do, W, trong mạng lớn, vấn đề tính toán H-1 có thể khó giải
quyết. Sau đây, chúng tôi mô tả một quy trình có thể quản lý để tính toán H-1 , giả sử rằng
perceptron đa lớp được huấn luyện đầy đủ đến mức tối thiểu
Stork, cục bộ trên bề mặt lỗi (Hassibi và
1993).
Để đơn giản hóa việc trình bày, giả sử rằng perceptron nhiều lớp có một nơron đầu ra duy
nhất. Sau đó, đối với một mẫu đào tạo nhất định, chúng tôi có thể xác định lại hàm chi phí của
Eq. (4.5) như
1 N
eav (w) = một (d (n) - o (n)) 2
2N n = 1
trong đó o (n) là đầu ra thực tế của mạng khi trình bày ví dụ thứ n,
d (n) là phản hồi mong muốn tương ứng và N là tổng số ví dụ trong
mẫu đào tạo. Bản thân đầu ra o (n) có thể được biểu thị bằng
o (n) = F (w, x)
trong đó F là hàm ánh xạ đầu vào - đầu ra được thực hiện bởi perceptron nhiều lớp, x
là vectơ đầu vào và w là vectơ trọng số tiếp hợp của mạng. Do đó, phái sinh đầu
tiên của eav liên quan đến w là
N
0eav 1 0F (w, x (n))
= -
một (d (n) - o (n)) (4.103)
0w N n = 1 0w
và đạo hàm thứ hai của eav đối với w hoặc Hessian là
02 eav
H (N) =
0w2
1
N
ea 0F (w, x (n)) 0F (w, x (n))
=
một (4.104)
N n = 1 0w ba 0w b T
- 02 F (w, x (n))
0w2 (d (n) - o (n)) f
nơi chúng tôi đã nhấn mạnh sự phụ thuộc của Hessian vào quy mô đào tạo
mẫu, N.
Theo giả định rằng mạng được đào tạo đầy đủ — nghĩa là, hàm chi phí
eav đã được điều chỉnh đến mức tối thiểu cục bộ trên bề mặt lỗi — có thể nói là hợp lý
mà o (n) gần với d (n). Với điều kiện này, chúng ta có thể bỏ qua thuật ngữ thứ hai và
gần đúng Eq. (4.104) như
N
1 một
0F (w, x (n)) 0F (w, x (n))
H (N) L một (4.105)
N n = 1 0w ba 0w b T
Để đơn giản hóa ký hiệu, hãy xác định vectơ W-x-1
1 0F (w, x (n))
(n) = (4.106)
2N 0w
có thể được tính bằng quy trình được mô tả trong Phần 4.8. Sau đó chúng tôi có thể
viết lại Eq. (4.105) ở dạng đệ quy như sau:
N
H (n) = a (k) T (k)

k = 1
= H (n - 1) + (n) T (n), n = 1, 2, ..., N (4.107)
Đệ quy này ở dạng phù hợp để áp dụng cái gọi là bổ đề nghịch đảo ma trận,
còn được gọi là bình đẳng của Woodbury.
Gọi A và B biểu thị hai ma trận xác định dương có liên quan bởi
A = B-1 + CDCT
trong đó C và D là hai ma trận khác. Theo bổ đề nghịch đảo ma trận, nghịch đảo của ma
trận A được xác định bởi
A-1 = B - BC (D + CTBC) -1 CTB
Đối với vấn đề được mô tả trong Eq. (4.107) chúng tôi có
A = H (n)
B-1 = H (n - 1)
C = (n)
D = 1
Do đó, ứng dụng của bổ đề nghịch đảo ma trận sẽ mang lại công thức mong muốn cho phép
tính đệ quy của Hessian nghịch đảo:
H-1 (n - 1) (n) T (n) H-1 (n - 1)

H-1 (n) = H-1 (n - 1) - 1 + (4.108)
T (n) H-1 (n - 1) (n)
Lưu ý rằng mẫu số trong Eq. (4.108) là một vô hướng; do đó nó dễ dàng để cal quy đổi đối ứng của
nó. Do đó, với giá trị quá khứ của nghịch đảo Hessian, H-1 (n - 1), chúng ta có thể tính giá trị
cập nhật Hl (n) của nó trên bản trình bày của ví dụ thứ n, được gửi bởi vector (n). Việc tính
toán đệ quy này được tiếp tục cho đến khi toàn bộ tập hợp N ví dụ được tính đến. Để khởi tạo
thuật toán, chúng ta cần làm cho H-1 (0) lớn, vì nó liên tục bị giảm theo phương trình (4.108).
Yêu cầu này được đáp ứng bằng cách thiết lập
-1
H-1 (0) = Tôi
đâu là một số dương nhỏ và I là ma trận nhận dạng. Dạng khởi tạo này đảm bảo rằng Hl (n) luôn
luôn là xác định dương, ảnh hưởng của trở nên nhỏ dần khi ngày càng có nhiều ví dụ được trình bày
trên mạng.
Tóm tắt về thuật toán tối ưu-não-phẫu thuật viên được trình bày trong Bảng 4.1.
4.15 RUNG ĐỘNG VÀ HẠN CHẾ CỦA VIỆC HỌC DỰA TRỞ LẠI
Trước hết, cần hiểu rằng thuật toán lan truyền ngược không phải là thuật toán dành
cho thiết kế tối ưu của perceptron nhiều lớp. Thay vào đó, cách chính xác để mô tả nó
là nói:
Thuật toán lan truyền ngược là một kỹ thuật hiệu quả về mặt tính toán để tính toán độ dốc
(tức là, đạo hàm bậc nhất) của hàm chi phí e (w), được biểu thị dưới dạng hàm của các tham
số có thể điều chỉnh (trọng số tiếp hợp và số hạng chệch) đặc trưng cho đa lớp perceptron.
Sức mạnh tính toán của thuật toán có được từ hai thuộc tính riêng biệt:
1. Thuật toán lan truyền ngược rất đơn giản để tính toán cục bộ.
2. Nó thực hiện giảm độ dốc ngẫu nhiên trong không gian trọng số, khi thuật toán
được thực hiện trong chế độ học trực tuyến (tuần tự) của nó.
Phần 4.15 Những điểm mạnh và hạn chế của việc học truyền ngược 181
BẢNG 4.1 Tóm tắt thuật toán tối ưu-não-phẫu thuật viên
1. Huấn luyện perceptron nhiều lớp đã cho thành sai số bình phương trung bình tối thiểu.
2. Sử dụng quy trình được mô tả trong Phần 4.8 để tính toán vectơ
1 0F (w, x (n))
(n) = 2N trong đó F (w, x
0w
(n)) là ánh xạ đầu
vào - đầu ra được thực hiện bởi perceptron nhiều lớp với véc tơ trọng số tổng thể w và x (n) là đầu vào vectơ.
3. Sử dụng đệ quy trong Eq. (4.108) để tính toán nghịch đảo Hessian H1 4. Tìm i .
tương ứng với độ mặn nhỏ nhất
2 wi
Si =
2 [H-1 ] tôi, tôi
ở đâu [H-1 ] i, i là phần tử thứ (i, i) của . Nếu độ mặn Si nhỏ hơn nhiều so với sai số bình phương trung bình
H-1 eav, sau đó xóa trọng số synap wi và chuyển sang bước 5. Nếu không, hãy chuyển sang bước 6.
5. Cập nhật tất cả các trọng số khớp thần kinh trong mạng bằng cách áp dụng điều chỉnh
Wi
¢ w = - H-1 1i
[H-1 ] tôi, tôi
Chuyển sang bước 2.
6. Dừng tính toán khi không có thêm trọng số nào có thể bị xóa khỏi mạng mà không có sự gia tăng lớn
trong lỗi bình phương trung bình. (Có thể mong muốn đào tạo lại mạng tại thời điểm này).
Chủ nghĩa kết nối
Thuật toán lan truyền ngược là một ví dụ về mô hình kết nối dựa vào tính toán cục bộ để
khám phá khả năng xử lý thông tin của mạng nơ-ron.
Dạng hạn chế tính toán này được gọi là ràng buộc cục bộ, theo nghĩa là tính toán được thực
hiện bởi mỗi nơ-ron trong mạng chỉ bị ảnh hưởng bởi những nơ-ron khác tiếp xúc vật lý với
nó. Việc sử dụng tính toán cục bộ trong thiết kế mạng nơ-ron (nhân tạo) thường được ủng hộ
vì ba lý do chính:
1. Mạng nơ-ron thực hiện các phép tính cục bộ thường được coi là phép ẩn dụ
cho mạng nơron sinh học.
2. Việc sử dụng các tính toán cục bộ cho phép giảm hiệu suất một cách dễ dàng do lỗi
phần cứng và do đó cung cấp cơ sở cho thiết kế công việc mạng chịu được lỗi .
3. Tính toán cục bộ ủng hộ việc sử dụng các kiến trúc song song như một phương pháp hiệu quả
để triển khai mạng nơ-ron.
Bản đồ Replicator (Identity)
Các tế bào thần kinh ẩn của một perceptron nhiều lớp được đào tạo bằng thuật toán lan
truyền ngược đóng vai trò quan trọng như bộ phát hiện tính năng. Một cách mới để có thể
khai thác đặc tính quan trọng này của perceptron nhiều lớp là sử dụng nó như một bản sao
hoặc bản đồ nhận dạng (Rumelhart và cộng sự, 1986b; Cottrel và cộng sự, 1987). Hình 4.19 minh họa
Tín
Ước tính tín
hiệu đầu vào
x hiệu đầu vào,
xˆ
Tín hiệu
được mã hóa
S
(một)
Tín hiệu được
S giải mã, xˆ
x Perceptron
nhiều lớp
Σ
x
xˆ
(b) (c)
HÌNH 4.19 (a) Mạng sao chép (bản đồ nhận dạng) với một lớp ẩn duy nhất được sử dụng làm
bộ mã hóa. (b) Sơ đồ khối cho việc đào tạo có giám sát của mạng bản sao. (c) Một phần của
mạng sao chép được sử dụng làm bộ giải mã.
làm thế nào điều này có thể được thực hiện đối với trường hợp perceptron nhiều lớp sử
dụng một lớp ẩn duy nhất. Cách bố trí mạng thỏa mãn các yêu cầu cấu trúc sau đây, như
được minh họa trong Hình 4.19a:
• Các lớp đầu vào và đầu ra có cùng kích thước, m. •
Kích thước của lớp ẩn, M, nhỏ hơn m. • Mạng được kết
nối đầy đủ.
Một mẫu x nhất định được áp dụng đồng thời cho lớp đầu vào làm tác nhân kích thích và
lớp đầu ra x là phản hồi mong muốn. Phản hồi thực tế của lớp đầu ra, cho
Phần 4.15 Những điểm mạnh và hạn chế của việc học truyền bá ngược lại 183
dự định là một "ước tính" của x. Mạng được huấn luyện bằng cách sử dụng thuật toán
lan truyền ngược theo cách thông thường, với vectơ lỗi ước lượng
là tín(họa
hiệu
x -trong
xˆ
lỗi,
) Hình
được
như minh
coi
4.19b. Việc đào tạo được thực hiện một cách không giám sát (tức là không cần giáo
viên). Nhờ cấu trúc đặc biệt được tích hợp trong thiết kế của perceptron nhiều lớp,
mạng bị ràng buộc phải thực hiện ping bản đồ nhận dạng thông qua lớp ẩn của nó. Một
phiên bản mã hóa của mẫu đầu vào, ký hiệu là s, được tạo ra ở đầu ra của lớp ẩn, như
được chỉ ra trong Hình 4.19a. Trên thực tế, perceptron đa lớp được đào tạo đầy đủ
thực hiện vai trò của một “bộ mã hóa”. Để tái tạo lại đối tác cũ của mẫu đầu vào ban
đầu x xˆ(tức là để thực hiện giải mã), chúng tôi áp dụng tín hiệu được mã hóa cho lớp
ẩn của mạng bản sao, như minh họa trong Hình 4.19c. Trên thực tế, mạng thứ hai này
thực hiện vai trò của một “bộ giải mã.” Chúng ta đặt kích thước M của lớp ẩn càng nhỏ
so với kích thước m của lớp đầu vào - đầu ra, thì cấu hình của Hình 4.19a sẽ càng
hiệu quả. như một hệ thống nén dữ liệu.10
Xấp xỉ hàm
Perceptron nhiều lớp được đào tạo với thuật toán lan truyền ngược thể hiện dưới dạng
cấu trúc sigmoidal lồng nhau, được viết cho trường hợp một đầu ra duy nhất ở dạng nhỏ gọn
(4.109)
F (x, w) = aa wok
k aa wkjj a p aai wlixi bbbb
trong đó (·) là hàm kích hoạt sigmoid; wok là trọng số tiếp hợp từ nơ-ron k ở lớp ẩn cuối cùng
đến nơ-ron đầu ra duy nhất o, v.v. đối với các trọng số tiếp hợp khác; và xi là phần tử thứ i
của vector đầu vào x. Vectơ trọng số w biểu thị toàn bộ tập hợp các trọng số của khớp thần
kinh được sắp xếp theo lớp, sau đó là các nơ-ron trong một lớp và sau đó là khớp thần kinh
trong một nơ-ron. Lược đồ các hàm phi tuyến lồng nhau được mô tả trong Eq. (4.109) là bất
thường trong lý thuyết xấp xỉ cổ điển. Nó là một công cụ xấp xỉ phổ quát, như đã thảo luận trong Phần 4.1
Hiệu quả tính toán
Độ phức tạp tính toán của một thuật toán thường được đo bằng số lượng các phép
nhân, phép cộng và yêu cầu lưu trữ liên quan đến việc thực hiện nó.
Một thuật toán học tập được cho là hiệu quả về mặt tính toán khi độ phức tạp com
tính toán của nó là đa thức với số lượng các tham số có thể điều chỉnh được sẽ
được cập nhật từ lần lặp này sang lần tiếp theo. Trên cơ sở này, có thể nói rằng
thuật toán truyền ngược là hiệu quả về mặt tính toán, như đã nêu trong mô tả tóm
tắt ở đầu phần này. Cụ thể, khi sử dụng thuật toán để đào tạo perceptron nhiều lớp
chứa tổng trọng số tiếp hợp W (bao gồm cả độ lệch), phức tính toán của nó là tuyến
tính trong W. trong việc thực hiện các đường chuyền về phía trước và phía sau được
tóm tắt trong Phần 4.4. Trong chuyển tiếp, các phép tính duy nhất liên quan đến
trọng số của khớp thần kinh là các phép tính liên quan đến các trường cục bộ cảm
ứng của các nơ-ron var ious trong mạng. Ở đây, chúng ta thấy từ Eq. (4.44) rằng
các phép tính này đều tuyến tính theo trọng số khớp thần kinh của mạng. Trong quá
trình ngược lại, các phép tính tổng hợp duy nhất liên quan đến trọng số của khớp
thần kinh là các phép tính liên quan đến (1) các gradient cục bộ của các nơ-ron ẩn
và (2) việc cập nhật các trọng số khớp thần kinh, như được hiển thị trong Eqs.
(4,46) và (4,47), tương ứng. Ở đây một lần nữa, chúng ta cũng thấy rằng những tính toán này
tất cả tuyến tính trong trọng số tiếp hợp của mạng. Do đó, kết luận là độ phức tạp
đặt com của thuật toán lan truyền ngược là tuyến tính inW; nghĩa là, nó là O (W).
Phân tích độ nhạy
Một lợi ích tính toán khác thu được từ việc sử dụng học truyền ngược là cách thức
hiệu quả mà chúng ta có thể thực hiện phân tích độ nhạy của ánh xạ đầu vào - đầu ra
được thực hiện bởi thuật toán . tham số của hàm, ký hiệu là #, được xác định bởi
0F F
=
SF# (4.110)
0 # #
Sau đó, hãy xem xét một perceptron nhiều lớp được đào tạo với thuật toán lan truyền
ngược. Gọi hàm F (w) là ánh xạ đầu vào - đầu ra được thực hiện bởi mạng này; w biểu
thị vectơ của tất cả các trọng số tiếp hợp (bao gồm cả độ lệch) có trong mạng. Trong
Phần 4.8, chúng tôi đã chỉ ra rằng các đạo hàm riêng của hàm F (w) đối với tất cả các
phần trăm của vectơ trọng số w có thể được tính toán một cách hiệu quả. Đặc biệt, chúng
ta thấy rằng độ phức tạp liên quan đến việc tính toán mỗi đạo hàm riêng này là tuyến
tính tính bằng W, tổng số trọng số chứa trong mạng. Tính tuyến tính này không phụ thuộc
vào vị trí trọng số tiếp hợp được đề cập xuất hiện trong chuỗi tính toán.
Mạnh mẽ
Trong Chương 3, chúng tôi đã chỉ ra rằng thuật toán LMS mạnh mẽ theo nghĩa là các
lệnh cấm với năng lượng nhỏ chỉ có thể làm phát sinh các lỗi ước lượng nhỏ. Nếu mô
hình quan sát cơ bản là tuyến tính, thì thuật toán LMSHqlà một bộ lọc tối ưu (Hassibi
và cộng sự, 1993, 1996) .
Mặt khác, nếu mô hình quan sát cơ bản là phi tuyến tính, Hassibi và Kailath
(1995) đã chỉ ra rằng thuật toán lan truyền ngược là một bộ lọc tối ưu cụcHqbộ . Thuật
ngữ “cục bộ” có nghĩa là giá trị ban đầu của vectơ trọng số được sử dụng trong thuật
toán lan truyền ngược đủ gần với giá trị tối ưu w * của trọng số vec tor để đảm bảo
rằng thuật toán không bị mắc kẹt trong mức tối thiểu cục bộ kém. Về mặt khái niệm,
thật thỏa mãn khi thấy rằng các thuật toán LMS và thuật toán lan truyền ngược thuộc
cùng một lớp bộ lọc-tối ưu. Hq
Sự hội tụ
Thuật toán lan truyền ngược sử dụng "ước tính tức thời" cho gradient của bề mặt lỗi
trong không gian trọng số. Do đó, thuật toán có bản chất ngẫu nhiên; nghĩa là, nó có
xu hướng ngoằn ngoèo về hướng thực đến mức tối thiểu trên mặt sai số. Thật vậy, học
truyền ngược là một ứng dụng của một phương pháp thống kê được gọi là xấp xỉ ngẫu
nhiên được đề xuất ban đầu bởi Robbins và Monro (1951).
Do đó, nó có xu hướng hội tụ chậm. Chúng tôi có thể xác định hai nguyên nhân cơ bản cho
tính chất này (Jacobs, 1988):
1. Bề mặt sai số khá phẳng dọc theo một chiều trọng lượng, có nghĩa là đạo hàm
của bề mặt sai số đối với trọng lượng đó có độ lớn nhỏ. Trong như vậy
Phần 4.15 Những điểm mạnh và hạn chế của việc học truyền bá ngược 185
một tình huống, điều chỉnh áp dụng cho trọng số là nhỏ, và do đó, nhiều lần lặp lại của thuật
toán có thể được yêu cầu để làm giảm đáng kể hiệu suất lỗi của mạng. Ngoài ra, bề mặt lỗi rất
cong dọc theo một kích thước trọng lượng, trong trường hợp đó đạo hàm của bề mặt lỗi đối với
trọng lượng đó có độ lớn lớn. Trong tình huống thứ hai này, sự điều chỉnh áp dụng cho trọng số
lớn, có thể làm cho thuật toán vượt quá mức tối thiểu của bề mặt lỗi.
2. Hướng của vectơ gradient âm (tức là đạo hàm âm của hàm chi phí đối với vectơ trọng
lượng) có thể hướng ra xa bề mặt sai số nhỏ nhất: do đó, các điều chỉnh được áp dụng cho các
trọng số có thể tạo ra thuật toán di chuyển sai hướng.
Để tránh tốc độ hội tụ chậm của thuật toán lan truyền ngược được sử dụng để đào tạo
perceptron nhiều lớp, chúng tôi có thể chọn thuật toán học trực tuyến được ủ tối ưu được mô tả
trong Phần 4.10.
Cực tiểu cục bộ
Một đặc điểm khác của bề mặt lỗi ảnh hưởng đến hiệu suất của thuật toán lan truyền ngược là sự
hiện diện của cực tiểu cục bộ (tức là các thung lũng cô lập) ngoài cực tiểu toàn cục; nói chung,
rất khó xác định số lượng của cực tiểu cục bộ và toàn cục. Vì việc học truyền ngược về cơ bản
là một kỹ thuật leo đồi, nó có nguy cơ bị mắc kẹt ở mức tối thiểu cục bộ nơi mọi thay đổi nhỏ
trong trọng số khớp thần kinh đều làm tăng hàm chi phí. Nhưng ở một nơi khác trong không gian
trọng số, tồn tại một tập hợp trọng số tiếp hợp khác mà hàm chi phí nhỏ hơn mức tối thiểu cục
bộ mà mạng bị kẹt. Rõ ràng là không mong muốn có quá trình học tập kết thúc ở mức tối thiểu cục
bộ, đặc biệt là nếu nó nằm trên mức tối thiểu toàn cầu.
Mở rộng quy mô
Về nguyên tắc, các mạng nơ-ron như các perceptron nhiều lớp được huấn luyện với thuật toán lan
truyền ngược có tiềm năng trở thành các máy tính toàn cầu. Tuy nhiên, để tiềm năng đó được thực
hiện đầy đủ, chúng ta phải khắc phục vấn đề mở rộng, giải quyết vấn đề mạng hoạt động tốt như
thế nào (ví dụ: được đo bằng thời gian cần thiết để đào tạo hoặc hiệu suất tổng quát hóa tốt
nhất có thể đạt được). nhiệm vụ tăng về kích thước và độ phức tạp. Trong số nhiều cách có thể
để xác định kích thước hoặc độ phức tạp của một tác vụ tính toán, thứ tự vị từ được Minsky và
Papert (1969, 1988) xác định là thước đo hữu ích và quan trọng nhất.
Để giải thích ý của chúng tôi về một vị từ, hãy để % (X) biểu thị một hàm chỉ có thể có
hai giá trị. Thông thường, chúng ta nghĩ về hai giá trị của % (X) là 0 và 1. Nhưng bằng cách
nhập các giá trị là FALSE hoặc TRUE, chúng ta có thể coi % (X) là một vị từ — nghĩa là, một câu
lệnh biến có độ sai hay sự thật phụ thuộc vào sự lựa chọn của đối số X. Ví dụ, chúng ta có thể
viết
% CIRCLE (X) = e 1 0
nếu hình
nếu X X
hình làkhông
hình phải
tròn là hình tròn
Sử dụng ý tưởng về một vị từ, Tesauro và Janssens (1988) đã thực hiện một nghiên cứu thực
nghiệm liên quan đến việc sử dụng một perceptron nhiều lớp được đào tạo với sự lan truyền ngược
thuật toán để học tính toán hàm chẵn lẻ .
nếu X là số lẻ
% PARITY (X) = e 10 nếu không
và thứ tự của nó bằng số lượng đầu vào. Các thí nghiệm được thực hiện bởi Tesauro
và Janssens dường như cho thấy rằng thời gian cần thiết để mạng học cách tính
hàm chẵn lẻ mở rộng theo cấp số nhân với số lượng đầu vào (tức là vị từ
thứ tự tính toán) và dự đoán về việc sử dụng thuật toán truyền ngược để học các
hàm phức tạp tùy ý có thể quá lạc quan.
Người ta thường đồng ý rằng không thể dự đoán được một perceptron nhiều lớp có đầy đủ
được kết nối. Trong bối cảnh này, do đó chúng tôi có thể nêu ra câu hỏi sau: Cho rằng một
perceptron nhiều lớp không nên được kết nối đầy đủ, làm thế nào để phân bổ các tions
kết nối synap của mạng? Câu hỏi này không có gì đáng lo ngại trong trường hợp
các ứng dụng quy mô nhỏ, nhưng nó chắc chắn rất quan trọng đối với việc áp dụng thành công việc
học truyền ngược để giải quyết các vấn đề quy mô lớn trong thế giới thực.
Một phương pháp hiệu quả để giảm bớt vấn đề mở rộng quy mô là phát triển cái nhìn sâu sắc về
vấn đề đang xảy ra (có thể thông qua phép loại suy sinh học thần kinh) và sử dụng nó
để đưa sắc thái thay đổi vào thiết kế kiến trúc của perceptron nhiều lớp. Cụ thể,
kiến trúc công việc ròng và các ràng buộc áp đặt đối với trọng số tiếp hợp của mạng phải
được thiết kế để kết hợp thông tin trước đó về nhiệm vụ vào cấu trúc của
mạng. Chiến lược thiết kế này được minh họa trong Phần 4.17 cho vấn đề nhận lại
ký tự quang học.
4.16 BÀI HỌC ĐƯỢC GIÁM SÁT ĐƯỢC XEM LÀ MỘT VẤN ĐỀ TỐI ƯU
Trong phần này, chúng tôi có một quan điểm về học tập có giám sát khác với
đã theo đuổi trong các phần trước của chương. Cụ thể, chúng tôi xem người được giám sát
đào tạo perceptron nhiều lớp như một vấn đề trong tối ưu hóa số. Trong văn bản lừa
đảo này, trước tiên chúng tôi chỉ ra rằng bề mặt lỗi của perceptron nhiều lớp có giám sát
học là một hàm phi tuyến của một vectơ trọng số w; trong trường hợp đa lớp trên mỗi
ceptron, w đại diện cho trọng số tiếp hợp của mạng được sắp xếp theo một số fash eav (w)
ion. Hãy có
biểu thị
trật tựhàm chi phí, được tính trung bình trên mẫu đào tạo. Sử dụng
Chuỗi Taylor, chúng tôi có thể eav
mở rộng
(w) về điểm hoạt động hiện tại trên mặt sai số như
trong Eq. (4.97), được sao chép ở đây dưới dạng:
1
eav (w (n) + ¢ w (n)) = eav (w (n)) + gT (n) ¢ w (n) + ¢ wT (n) H (n) ¢ w (n)
2
+ (điều khoản thứ ba trở lên) (4.111)
trong đó g (n) là vectơ gradient cục bộ, được xác định bởi
0eav (w)
g (n) = (4.112)
0w † w = w (n)
Phần 4.16 Học tập có giám sát được xem như một vấn đề tối ưu hóa 187
Ma trận H (n) là Hessian cục bộ đại diện cho "độ cong" của bề mặt hiệu suất lỗi,
02 eav (w)
H (n) = (4.113)
0w2 †
w = w (n)
Việc sử dụng hàm chi phí trung bình theo tổng thể giả
eav định
(w) một chế độ học tập theo đợt .
Trong phương pháp dốc nhất, được minh họa bằng thuật toán lan truyền ngược,
điều chỉnh ! w (n) được áp dụng cho vectơ trọng lượng tiếp hợp w (n) được xác định bởi
¢ w (n) = - g (n) (4.114)
đâu là thông số tốc độ học tập cố định. Trên thực tế, phương pháp dốc nhất hoạt
động dựa trên cơ sở xấp xỉ lớp lót của hàm chi phí trong vùng lân cận cục bộ của
điểm hoạt động w (n). Khi làm như vậy, nó dựa vào vectơ gradient g (n) như là
nguồn duy nhất của thông tin bậc nhất cục bộ về bề mặt lỗi. Thật không may, nó
cũng có một tác động bất lợi: tốc độ hội tụ chậm, có thể rất nghiêm trọng, đặc
biệt là trong trường hợp các vấn đề quy mô lớn. Việc đưa thuật ngữ động lượng vào
phương trình cập nhật cho vectơ trọng lượng khớp thần kinh là một nỗ lực thô thiển
nhằm sử dụng thông tin bậc hai về bề mặt lỗi, điều này giúp ích một số. Tuy nhiên,
việc sử dụng nó làm cho quá trình đào tạo trở nên tinh vi hơn để quản lý bằng
cách thêm một mục nữa vào danh sách các thông số phải được "điều chỉnh" bởi nhà
thiết kế.
Để tạo ra sự cải thiện đáng kể trong hiệu suất hội tụ của perceptron nhiều
lớp (so với học truyền ngược), chúng ta phải sử dụng thông tin bậc cao hơn trong
quá trình đào tạo. Chúng ta có thể làm như vậy bằng cách gọi xấp xỉ bậc hai của
bề mặt lỗi xung quanh điểm hiện tại w (n). Sau đó, chúng tôi tìm thấy từ Eq.
(4.111) rằng giá trị tối ưu của điều chỉnh ! W (n) được áp dụng cho vectơ trọng
lượng tiếp hợp w (n) được cho bởi
¢ w * (n) = H-1 (n) g (n) (4.115)
trong đó H-1 (n) là nghịch đảo của Hessian H (n), giả sử rằng nó tồn tại. Phương trình (4.115) eav
là bản chất của phương pháp Newton. Nếu hàm chi phí (w) là bậc
hạng
haibậc
(tức
ba là,
và bậc
các cao
số
hơn trong phương trình (4.109) bằng 0), phương pháp của Newton hội tụ đến nghiệm tối ưu trong một
lần lặp. Tuy nhiên, ứng dụng thực tế của phương pháp Newton vào việc đào tạo có giám sát của
perceptron nhiều lớp bị hạn chế bởi ba yếu tố:
(i) Phương pháp Newton yêu cầu tính toán nghịch đảo Hessian H-1 (n), có thể
tốn kém về mặt tính toán.
(ii) Để H-1 (n) có thể tính toán được, H (n) phải không cần chú ý. Trong trường
hợp H (n) là xác định dương, bề mặt lỗi xung quanh điểm hiện tại w (n) có thể
mô tả được bằng một “cái tô lồi”. Thật không may, không có gì đảm bảo rằng
Hessian của bề mặt lỗi của perceptron nhiều lớp sẽ luôn phù hợp với mô tả này.
Hơn nữa, có một vấn đề tiềm ẩn là Hessian bị thiếu cấp bậc (tức là, không phải tất cả
các cột của H là độc lập tuyến tính), là kết quả của bản chất tự nhiên không có điều kiện
của các vấn đề học tập có giám sát (Saarinen và cộng sự, 1992); yếu tố này chỉ làm cho
nhiệm vụ tính toán khó khăn hơn. eav (w) (iii) Khi hàm chi phí là không bậc, không có gì
nó không phù hợp để đào tạo một perceptron

đảm bảo chonhiều
hàm hội
lớp.tụ của phương pháp Newton, điều này làm cho
Để khắc phục một số khó khăn này, chúng ta có thể sử dụng phương pháp quasi-Newton, chỉ yêu cầu
ước lượng vectơ gradient g. Việc sửa đổi phương pháp Newton này duy trì ước lượng xác định dương
của ma trận nghịch đảo H-1 trực tiếp mà không cần đảo ngược ma trận. Bằng cách sử dụng một ước
tính như vậy, một phương pháp gần như Newton được đảm bảo sẽ đi xuống đồi trên bề mặt sai số.
Tuy nhiên, chúng ta vẫn có độ phức tạp tính toán là O (W2 ), trong đó W là kích thước của vectơ
trọng lượng w. Do đó, các phương pháp Quasi-Newton là không thực tế về mặt tính toán, ngoại trừ
việc đào tạo các công trình mạng nơ ron quy mô rất nhỏ. Phần mô tả về các phương pháp gần như
Newton sẽ được trình bày ở phần sau.
Một loại phương pháp tối ưu hóa bậc hai khác bao gồm phương pháp gradient liên
hợp, có thể được coi là hơi trung gian giữa phương pháp dốc nhất và phương pháp
Newton. Việc sử dụng phương pháp gradient liên hợp được thúc đẩy bởi mong muốn tăng
tốc độ thử nghiệm hội tụ thường chậm hơn so với phương pháp giảm độ dốc cao nhất,
đồng thời tránh các yêu cầu tính toán liên quan đến việc đánh giá, lưu trữ và đảo
ngược của Hessian trong phương pháp của Newton .
Phương pháp Conjugate-Gradient11
Phương pháp gradient liên hợp thuộc về một lớp meth tối ưu hóa bậc hai được gọi chung là phương
pháp hướng liên hợp.
(x) = 2 1 xTAx - bTx + c f (4.116)
trong đó x là vectơ tham số W-x-1; A là ma trận đối xứng W-by-W , xác định dương; b là một vectơ
W-x-1; và c là một đại lượng vô hướng. Cực tiểu của hàm số bậc hai f (x) đạt được bằng cách gán
cho x giá trị duy nhất x * = A-1 b
(4.117)
Như vậy, cực tiểu f (x) và giải hệ phương trình tuyến tính Ax * b là các bài toán tương đương.
Cho ma trận A, chúng ta nói rằng tập các vectơ khác s (0), s (1), s (W - 1) ...,
là liên hợp A
(tức là không tương tác với nhau trong ngữ cảnh của ma trận A) nếu sau điều kiện được thỏa mãn:
s T (n) As (j) = 0 với mọi n và j sao cho n Z j (4.118)
Nếu A bằng với ma trận nhận dạng, liên hợp tương đương với khái niệm thông thường về tính trực
giao.
VÍ DỤ 1 Giải thích vectơ liên hợp A
Để giải thích các vectơ liên hợp A, hãy xem xét tình huống được mô tả trong Hình 4.20a, liên
quan đến một bài toán hai chiều. (4.116) cho
T
x = [x0, x1]
tại một giá trị không đổi nào đó được gán cho hàm bậc hai f (x). Hình 4.20a cũng bao gồm một cặp
vectơ hướng liên hợp với ma trận A. Giả sử rằng chúng ta xác định một vectơ tham số mới v liên
quan đến x bằng phép biến đổi
v = A1 2 x
Trong đó A1 / 2 là căn bậc hai của A. Khi đó quỹ tích hình elip của Hình 4.20a được biến đổi
thành quỹ tích hình tròn, như được chỉ ra trong Hình 4.20b. Tương ứng, cặp vectơ hướng liên hợp
A trong Hình 4.20a được biến đổi thành một cặp vectơ hướng trực giao trong Hình 4.20b. ■
Một tính chất quan trọng của vectơ liên hợp A là chúng độc lập tuyến tính.
Chúng tôi chứng minh tài sản này bằng mâu thuẫn. Giả sử một trong các vectơ này — giả sử, s
(0) —được biểu diễn dưới dạng kết hợp tuyến tính của các vectơ W -1 còn lại như sau:
W-1
s (0) = a js (j)
j = 1
Nhân với A rồi lấy tích bên trong của As (0) với s (0) sẽ thu được
W-1
s T (0) Như (0) = a js T (0) As (j) = 0
j = 1
Tuy nhiên, không thể để dạng bậc hai s T (0) As (0) bằng 0, vì hai lý do: Ma trận A là xác định
dương theo giả thiết, và vectơ s (0) là khác 0 theo xác định. Do đó, các vectơ liên hợp A s (0), s
(1), s (W - 1) không thể phụ thuộc tuyến tính; nghĩa là chúng phải độc lập tuyến
..., tính.
x1 v1 HÌNH 4.20 Giải thích vectơ

liên hợp A. (a) Quỹ tích
hình elip trong không gian
cân hai chiều. (b) Biến
quỹ tích elip thành quỹ
tích hình tròn.
x0 v0
0 0
(một) (b)
Đối với tập hợp các vectơ liên hợp A đã cho s (0),
..., s (1), s (W - 1), phương
pháp hướng liên hợp tương ứng để tối thiểu hóa lỗi bậc hai không bị giới hạn hàm f
(x) được xác định bởi
x (n + 1) = x (n) + (n) s (n), n = 0, 1, ..., W - 1 (4.119)
trong đó x (0) là một vectơ bắt đầu tùy ý và (n) là một đại lượng vô hướng được xác định bởi
f (x (n) + (n) s (n)) = min f (x (n) + s (n)) (4.120)
(Fletcher, 1987; Bertsekas, 1995). Quy trình chọn để tối thiểu hóa hàm f (x (n) s
(n)) cho một số n cố
tốiđịnh
thiểu
được
hóagọi
mộtlà
chiều.
tìm kiếm theo dòng, đại diện cho bài toán
Theo Eqs. (4.118), (4.119) và (4.120), bây giờ chúng tôi đưa ra một số quan sát:
1. Vì các vectơ liên hợp A s (0), s (1), s (W - 1) là độc lập tuyến tính, chúng tạo
...,
thành một cơ sở kéo dài trong không gian vectơ của w.

2. Phương trình cập nhật (4.119) và dòng cực tiểu của phương trình. (4.120) dẫn đến
cùng một công thức cho thông số tốc độ học tập, cụ thể là
-s T (n) Ae (n)
(n) = s T (n) As (n), n = 0, 1, ..., W - 1 (4.121)
trong đó e (n) là vectơ lỗi được xác định bởi
e (n) = x (n) - x * (4.122)
3. Bắt đầu từ một điểm tùy ý x (0), phương pháp liên hợp được đảm bảo sẽ tìm ra
nghiệm tối ưu x * của phương trình bậc hai f (x) 0 trong nhiều nhất W lần lặp.
Tính chất chính của phương pháp hướng liên hợp được mô tả trong phát biểu
sau (Fletcher, 1987; Bertsekas, 1995):
Tại các lần lặp liên tiếp, phương pháp hướng liên hợp tối thiểu hóa hàm bậc hai f (x) trên
một không gian vectơ tuyến tính mở rộng dần dần mà cuối cùng bao gồm tổng cực tiểu toàn
cục của f (x).
Đặc biệt, đối với mỗi lần lặp n, lần lặp x (n 1) tối thiểu hóa hàm f (x) trên một
không gian vectơ tuyến
vectơ
tínhliên
đi qua
hợp một
A s số
(0 điểm
), s tùy
(1),ý sx (n),
(0) và
nhưđược
đượckéo
hiển
dàithị
dn bởi
bởi
...,
x (n + 1) = arg min f (x) (4.123)

x dn
nơi không gian được dn

xác định bởi
d (4.124)
N
= e x (n) x (n) = x (0) + a (j) s (j) f
j = 0
Để phương pháp hướng liên hợp hoạt động, chúng ta yêu cầu sự sẵn có của một
tập các vectơ liên hợp A s (0), s...,
(1), s (W - 1). Trong một dạng đặc biệt của
12
phương pháp này được gọi là phương pháp gradient liên
hướng liên hợp
tiếp theo
được tỷra
tạo lệ, cácdạng
dưới vectơ
các
phiên bản liên hợp A của các vectơ gradient liên tiếp của hàm bậc hai f (x) khi
phương pháp tiến triển — do đó tên của Do đó, ngoại trừ n 0, tập các vectơ hướng {s
(n)} không được chỉ định trước, mà nó được xác định một cách tuần tự ở các bước
liên tiếp của phương pháp.
Đầu tiên, chúng tôi xác định phần dư là hướng xuống dốc nhất:
r (n) = b - Ax (n) (4.125)
Sau đó, để tiếp tục, chúng tôi sử dụng kết hợp tuyến tính của r (n) và s (n -
s (n) = r (n) + (n) s (n - 1), n = 1, 2, ..., W - 1 1), như
được chỉ ra bởi (4.126) trong đó (n) là hệ số tỷ lệ cần xác định. Nhân phương trình này
với A, lấy tích trong của biểu thức thu được với s (n - 1), gọi hàm prop erty liên hợp
A của các vectơ chỉ hướng, và sau đó giải biểu thức kết quả cho (n), chúng ta nhận được
s T (n - 1) Ar
(n) (n) = - s T (n - 1) As (n (4.127)
- 1)
Sử dụng Eqs. (4.126) và (4.127), chúng ta thấy rằng các vectơ s (0), s (1), s (W - 1) nên gen
...,
erated thực sự là liên hợp A.

Việc tạo ra các vectơ chỉ hướng theo phương trình đệ quy (4.126) phụ thuộc
vào hệ số ( n ). , nên đánh giá (n) mà không có kiến thức rõ ràng về A.Đánh giá
này có thể đạt được bằng cách sử dụng một trong hai công thức (Fletcher, 1987):
1. công thức Polak – Ribi`ère, trong đó (n) được xác định bởi r
T (n) (r (n) - r (n - 1))

(n) = r T (n - 1) r (n - 1) (4.128)
2. công thức Fletcher-Reeves, trong đó (n) được xác định bởi r T
(n) r (n) (n) =

r T (n - 1) r (n - 1) (4.129)
Để sử dụng phương pháp gradient liên hợp để tấn công sự tối thiểu hóa không bị giới hạn
của hàm chi phí eav (w)chúng
liên tôi
quanthực
đến hiện
việc hai
đào điều:
tạo không giám sát của đa lớp trên mỗi ceptron,
• Tính gần đúng hàm chi phí eav (w) theo một hàm bậc hai Nghĩa là, các số hạng bậc ba và
bậc cao hơn trong Phương trình (4.111) bị bỏ qua, có nghĩa là chúng ta đang hoạt động
gần với mức tối thiểu cục bộ trên bề mặt lỗi. Trên cơ sở này, so sánh các phương trình.
(4.111) và (4.116), chúng ta có thể thực hiện các liên kết được chỉ ra trong Bảng 4.2. •
Lập công thức tính toán các hệ số (n) và (n) trong gradi liên hợp
thuật toán ent để chỉ yêu cầu thông tin gradient.
BẢNG 4.2 Sự tương ứng giữa f (x) và eav (w)
Hàm bậc hai f (x) Hàm chi phí eav (w)
Vectơ tham số x (n) Vectơ trọng lượng synap w (n)

Vectơ gradient 0f (x) 0x Vectơ gradient g = 0eav 0w
Ma trận A Ma trận Hessian H
Điểm thứ hai đặc biệt quan trọng trong bối cảnh của các perceptron nhiều lớp vì
nó tránh sử dụng Hessian H (n), việc đánh giá nó bị cản trở bởi tính toán
nỗi khó khăn.
Để tính toán hệ số (n) xác định hướng tìm kiếm s (n) mà không
kiến thức rõ ràng về Hessian H (n), chúng ta có thể sử dụng công thức Polak – Ribière của
Phương trình (4.128) hoặc công thức Fletcher-Reeves của Eq. (4.129). Cả hai công thức này đều liên quan đến
chỉ sử dụng phần dư. Ở dạng tuyến tính của phương pháp gradient liên hợp, giả sử là một hàm bậc
hai, các công thức Polak – Ribière và Fletcher – Reeves là tương đương. Mặt khác, trong trường hợp
của một hàm chi phí không cấp bậc, chúng không giống như vậy.
Đối với các bài toán tối ưu hóa phi bậc, dạng Polak – Ribière của thuật toán gradient cổng
conju thường ưu việt hơn dạng Fletcher – Reeves của thuật toán, mà chúng tôi đưa ra giải thích
heuristic sau đây (Bertsekas, 1995): Do
sự hiện diện của các thuật ngữ bậc ba và bậc cao hơn trong hàm chi phí eav (w) và có thể
tính không chính xác trong tìm kiếm theo dòng, sự liên hợp của các hướng tìm kiếm đã tạo sẽ bị mất
một cách nghiêm trọng. Điều kiện này có thể khiến thuật toán "kẹt" theo nghĩa là
vectơ hướng sinh s (n) gần như trực giao với phần dư r (n) Khi phe nomenon này xảy ra, chúng ta có
r (n) r (n - 1), trong trường hợp đó thì độ vô hướng (n) sẽ gần bằng không.
Tương ứng, vectơ hướng s (n) sẽ gần với r (n), do đó phá vỡ
mứt. Ngược lại, khi công thức Fletcher-Reeves được sử dụng, thuật số liên hợp-gradient thường tiếp
tục mắc kẹt trong các điều kiện tương tự.
Tuy nhiên, trong một số trường hợp hiếm hoi, phương pháp Polak – Ribière có thể quay vòng vô thời hạn mà không
hội tụ. May mắn thay, sự hội tụ của phương pháp Polak – Ribière có thể được đảm bảo
băng cach cho n
= tối đa { PR, 0} (4.130)
đâu là giá trị được xác định bởi công thức Polak – Ribière của Eq. (4.128) (Shewchuk,
PR
Năm 1994). Sử dụng giá trị được xác định trong Eq. (4.130) tương đương với việc khởi động lại thuật
toán gradient cổng conju nếu 0. Để
PR khởi động lại thuật toán tương đương với việc quên
hướng tìm kiếm cuối cùng và bắt đầu lại nó theo hướng dốc nhất.
Tiếp theo hãy xem xét vấn đề tính toán tham số (n), tham số này xác định
tốc độ học của thuật toán gradient liên hợp. Như với (n), phương pháp ưu tiên
cho tính toán (n) là một trong những tránh phải sử dụng Hessian H (n). Chúng tôi nhớ lại rằng
tối thiểu hóa dòng dựa trên Eq. (4.120) dẫn đến cùng một công thức cho (n) như
12 các
xuất phát từ phương trình cập nhật Eq. (4.119). Do đó, chúng tôi cần tìm kiếm theo dòng,
mục đích của nó là để giảm thiểu hàm e av (w + s) đối với. Tức là, với các giá
trị cố định của vectơ w và s, vấn đề là phải thay đổi sao cho hàm số này được giảm thiểu. Khi thay
đổi, đối số ws theo dõi một dòng trong chiều W
không gian vectơ của w — do đó có tên là “tìm kiếm theo dòng”. Thuật toán tìm kiếm theo dòng là một thuật toán lặp lại
thủ tục tạo chuỗi ước lượng { (n)} cho mỗi lần lặp của thuật toán gradient liên hợp. Việc
tìm kiếm dòng được kết thúc khi tìm thấy một giải pháp thỏa đáng.
Việc tính toán tìm kiếm dòng phải được thực hiện dọc theo mỗi hướng tìm kiếm.
Một số thuật toán tìm kiếm theo dòng đã được đề xuất trong tài liệu, và
sự lựa chọn là quan trọng vì nó có tác động sâu sắc đến hiệu suất của thuật toán gradient
liên hợp mà nó được nhúng vào. Có hai giai đoạn cho bất kỳ tìm kiếm theo dòng nào
thuật toán (Fletcher, 1987):
• giai đoạn tiếp thị dấu ngoặc, tìm kiếm một dấu ngoặc vuông (nghĩa là, một khoảng thời gian quan trọng mà
được biết là chứa tối thiểu), và
• giai đoạn phân đoạn, trong đó dấu ngoặc được chia nhỏ (tức là được chia), do đó tạo ra
một chuỗi các dấu ngoặc có độ dài giảm dần.
Bây giờ chúng tôi mô tả một quy trình điều chỉnh đường cong xử lý hai giai đoạn này trong một
cách đơn giản.
Cho. eav
Giả (định
) biểu
rằng
thị
eav
hàm
( )
chi phí của perceptron nhiều lớp, được biểu thị dưới dạng hàm
hoàn toàn là đơn phương thức (tức là nó có một
trong vùng lân cận của điểm hiện tại w (n)) và có thể phân biệt hai lần liên tục.
Chúng tôi bắt đầu quy trình tìm kiếm bằng cách tìm kiếm dọc theo dòng cho đến khi chúng tôi tìm thấy ba điểm
1, 2, và 3 sao cho điều kiện sau được thỏa mãn, như minh họa trong Hình 4.21:
eav ( 1) eav ( 3) eav ( 2) vì 6 2 6 (4.131)

1 3
bảo Vì e av
là( một
) , sự3]lựa
hàm liên tục nên dấu ngoặc [ 1, chứa
chọn
giáđược
trị mô
nhỏtảnhất
trong
củaEq.
hàm(4.131)
eav ( )đảm
. Với điều kiện là
hàm đủ trơn
eavtru,
( ) chúng ta có thể coi hàm này là parabol trong
vùng lân cận của mức tối thiểu. Theo đó, chúng ta có thể sử dụng parabol nghịch đảo
nội suy để thực hiện phân đoạn (Press và cộng sự, 1988). Cụ thể, một hàm parabol
được lắp qua ba điểm ban đầu 1, 2 và 3, như được minh họa trong Hình 4.22, trong đó
đường liền nét tương ứng với vàeav
đường
( ) đứt nét tương ứng với lần lặp đầu tiên
HÌNH 4.21 Minh họa về

av (h)
tìm kiếm dòng.
av (h1)
av (h3)
av (h2)
0 h1 h2 h3 h
HÌNH 4.22 Parabol nghịch đảo

phép nội suy.
Parabol
sự xấp xỉ
đến av (h)
Bần tiện
bình phương
av (h)
lỗi
h1 h2 h4 h3 h
của thủ tục phân đoạn. Để điểm cực tiểu của parabol đi qua ba
điểm 1, 2 và Trong ví dụ
3 được
minhkýhọa
hiệu
trong
là 4.
Hình 4.22, chúng ta có
eav ( 4) 6 eav ( 2) và e av ( 4) 6 eav ( 1) . Điểm được thay thế bằng 4, làm cho [ 1 ,
3
4] dấu ngoặc mới. Quá trình được lặp lại bằng cách xây dựng một parabol mới thông qua
điểm 1, 2 và 4 Quy trình tiếp thị theo từng phần, như được minh họa trong
Hình 4.22, được lặp lại nhiều lần cho đến khi một điểm đủ gần với giá trị nhỏ nhất của eav ( )
được định vị, tại thời điểm kết thúc tìm kiếm dòng.
Phương pháp của Brent tạo thành một phiên bản hoàn thiện cao của quy trình nối đường cong
ba điểm vừa được mô tả (Press và cộng sự, 1988 ) .
, cái nào có thể
không nhất thiết tất cả đều phải khác biệt. Như trước đây, phép nội suy parabol được cố gắng thông qua
ba trong số những điểm này. Để phép nội suy được chấp nhận, các tiêu chí nhất định liên quan đến
ba điểm còn lại phải thỏa mãn. Kết quả ròng là một tìm kiếm theo dòng mạnh mẽ
thuật toán.
Tóm tắt thuật toán liên hợp phi tuyến-Gradient
Tất cả các thành phần chúng ta cần để mô tả chính thức dạng phi tuyến (phi bậc) của
thuật toán gradient liên hợp để đào tạo có giám sát của perceptron nhiều lớp
hiện đang ở vị trí. Tóm tắt thuật toán được trình bày trong Bảng 4.3.
Phương pháp Quasi-Newton
Tiếp tục thảo luận về các phương pháp gần như Newton, chúng tôi thấy rằng về cơ bản đây là các
phương pháp gra dient được mô tả bởi phương trình cập nhật
w (n + 1) = w (n) + (n) s (n) (4.132)
trong đó vectơ hướng s (n) được xác định theo vectơ gradient g (n) bởi
s (n) = -S (n) g (n) (4.133)

BẢNG 4.3 Tóm tắt thuật toán liên hợp phi tuyến-Gradient cho đào tạo có giám sát của một
Khởi tạo
Trừ khi có sẵn kiến thức về vectơ trọng số w , hãy chọn giá trị ban đầu w (0) bằng cách sử dụng
quy tắc tương tự như được mô tả cho thuật toán lan truyền ngược.
Tính toán
1. Đối với w (0), sử dụng phép truyền ngược để tính vectơ gradient g (0).
2. Đặt s (0) r (0) -g (0).
3. Tại bước thời gian n, sử dụng tìm kiếm theo dòng để tìm (n) đủ nhỏ nhất eav ( ), đại diện cho hàm chi phí
e được biểu thị dưới dạng hàm đối với các giá trị cố định của w và s.
av
4. Thử nghiệm để xác định xem định mức Euclide của phần dư r (n) có giảm xuống dưới một giá trị xác định hay
không, tức là một phần nhỏ của giá trị ban đầu. 7r (0) 7
5. Cập nhật vector trọng lượng:
w (n + 1) = w (n) + (n) s (n)
6. Đối với w (n 1), sử dụng truyền ngược để tính vectơ gradient được cập nhật g (n 1).
7. Đặt r (n 1) -g (n 1).
8. Sử dụng phương pháp Polak – Ribière để tính toán:
,
(n + 1) = max e r T (n + 1) (rr (n + 1)
T (n) - r (n))
r (n) 0 f
9. Cập nhật vectơ hướng:
s (n + 1) = r (n + 1) + (n + 1) s (n)
10. Đặt nn 1 và quay lại bước 3.
Tiêu chí dừng. Kết thúc thuật toán khi điều kiện
7r (n) 7 7r (0) 7
là hài lòng, đâu là một số lượng nhỏ theo quy định.
Ma trận S (n) là một ma trận xác định dương được điều chỉnh từ lần lặp này sang lần
lặp tiếp theo. Điều này được thực hiện để làm cho vectơ hướng s (n) gần đúng với
hướng Newton, cụ thể là,
- (02 eav 0w2 ) -1 (0eav 0w)
Phương pháp Quasi-Newton sử dụng thông tin bậc hai (độ cong) về bề mặt lỗi
mà không thực sự yêu cầu kiến thức về Hessian. Họ làm như vậy bằng cách sử dụng
hai lần lặp liên tiếp w (n) và w (n 1), cùng với các vectơ gradient tương ứng g
(n) và g (n 1). Để cho
q (n) = g (n + 1) - g (n) (4.134)
và
¢ w (n) = w (n + 1) - w (n) (4.135)

Sau đó, chúng tôi có thể lấy thông tin về độ cong bằng cách sử dụng công thức gần đúng
q (n) - (4.136)
' a 0 0w g (n) b ¢ w (n)
Cụ thể, với các gia số trọng lượng độc lập tuyến tính W ! W (0),! W (1), ...,
! w (W - 1) và các gia số gradient tương ứng q (0), q (1), q (W ...,
- 1), chúng ta có thể
ước chừng Hessian là
H M [q (0), q (1), ..., q (W - 1)] [¢ w (0), ¢ w (1), ..., ¢ w (W - 1)] - 1 (4.137)
Chúng ta cũng có thể tính gần đúng Hessian nghịch đảo như sau13:
H-1 M [¢ w (0), ¢ w (1), ..., ¢ w (W - 1)] [q (0), q (1), ..., q (W - 1) ] -1 (4.138)
Khi hàm chi phí eav (w) là bậc hai, phương trình. (4.137) và (4.138) là chính xác.
Trong loại phổ biến nhất của các phương pháp quasi-Newton, ma trận cập nhật S (n 1)
được lấy từ giá trị trước đó của nó S (n), các vectơ ! w (n) và q (n), bằng cách sử dụng đệ
quy ing tiếp theo (Fletcher, 1987; Bertsekas, 1995):
¢ w (n) ¢ wT (n) - S (n) q (n) qT (n) S (n)

S (n + 1) = S (n) + (4.139)
qT (n) q (n) qT (n) S (n) q (n)
+ (n) [qT (n) S (n) q (n)] [v (n) vT (n)]
ở đâu
¢ w (n) - S (n) q (n)

v (n) = (4.140)
¢ wT (n) ¢ w (n) qT (n) S (n) q (n)
và
cho tất cả n (4.141)

0 (n) 1
Thuật toán được bắt đầu với một số ma trận xác định dương tùy ý S (0). Dạng cụ
thể của phương pháp quasi-Newton được tham số hóa bằng cách thức vô hướng (n) Là
được định nghĩa, như được chỉ ra bởi hai điểm sau (Fletcher, 1987):
1. Với (n) 0 cho mọi n, chúng tôi nhận được thuật toán Davidon – Fletcher – Powell (DFP),
mà về mặt lịch sử là phương pháp gần như Newton đầu tiên.
2. Với (n) 1 với mọi n, chúng ta thu được Broyden – Fletcher – Goldfarb – Shanno (BFGS)
thuật toán, được coi là dạng tốt nhất của các phương pháp gần như Newton
được biết đến.
So sánh các phương pháp Quasi-Newton với

Phương pháp liên hợp-Gradient
Chúng tôi kết thúc cuộc thảo luận ngắn này về các phương pháp gần như Newton bằng cách so sánh chúng với
phương pháp liên hợp-gradient trong bối cảnh của các bài toán tối ưu hóa phi bậc số
(Bertsekas, 1995):
• Cả hai phương pháp gần như Newton và liên hợp-gradient đều tránh được sự cần thiết phải sử dụng
Hessian. Tuy nhiên, các phương pháp gần như Newton tiến thêm một bước nữa bằng cách tạo ra một
xấp xỉ với Hessian nghịch đảo. Theo đó, khi tìm kiếm dòng có tốc độ chính xác và chúng ta
đang ở gần mức tối thiểu cục bộ với Hes sian xác định dương, phương pháp gần như Newton
có xu hướng gần đúng với phương pháp Newton, do đó đạt được sự hội tụ nhanh hơn so với khả
năng có thể với liên hợp- phương pháp gradient.
• Phương pháp Quasi-Newton không nhạy cảm với độ chính xác trong giai đoạn tìm kiếm dòng của
tối ưu hóa như phương pháp gradient liên hợp. • Phương pháp Quasi-Newton yêu cầu lưu trữ
ma trận S (n), cùng với chi phí nhân vectơ ma trận liên quan đến việc tính toán vectơ hướng
s (n). Kết quả thực là độ phức tạp tính toán của các phương pháp quasi Newton là O (W2 ).
Ngược lại, độ phức tạp tính toán của phương pháp gradient liên hợp là O (W). Do đó, khi
thứ nguyên W (tức là kích thước của vectơ trọng lượng w) lớn, các phương pháp gradient
liên hợp được ưu tiên hơn các phương pháp gần như Newton về mặt tính toán.
Đó là vì điểm cuối cùng mà việc sử dụng các phương pháp gần như Newton bị hạn chế, trong thực
tế, trong việc thiết kế các mạng nơ-ron quy mô nhỏ.
Phương pháp Levenberg – Marquardt
Phương pháp Levenberg – Marquardt, của Levenberg (1994) và Marquardt (1963), là sự dung hòa giữa
hai phương pháp sau:
• Phương pháp Newton, hội tụ nhanh chóng gần điểm cực tiểu cục bộ hoặc toàn cục, nhưng cũng
có thể phân kỳ; • Giảm dần độ dốc, được đảm bảo về sự hội tụ thông qua việc lựa chọn phù
hợp
tham số kích thước bước, nhưng hội tụ chậm.
Cụ thể, hãy xem xét việc tối ưu hóa hàm bậc hai F (w), và gọi g là vectơ gradient của nó và H là
Hessian của nó. Theo phương pháp Levenberg – Marquardt, điều chỉnh tối ưu ¢ w được áp dụng cho
vectơ tham số w được xác định bởi ¢ w = [H + I]
-1
g (4.142)
trong đó I là ma trận nhận dạng có cùng kích thước với H và là một tham số chính quy hóa, hoặc
tải, buộc ma trận tổng (H I) phải là xác định dương và được điều hòa tốt một cách an toàn trong
suốt quá trình tính toán. Cũng lưu ý rằng điều chỉnh ¢ w của Eq. (4.142) là một sửa đổi nhỏ
công
của
thức được xác định trong phương trình. (4.115).
Với nền tảng này, hãy xem xét một perceptron nhiều lớp với một neu ron đầu ra duy nhất.
Mạng được đào tạo bằng cách giảm thiểu hàm chi phí
1 N
eav (w) = a [d (i) - F (x (i); w)] 2 (4.143)
2N
i = 1
N
trong đó {x (i), d i(i)}
= 1 là mẫu huấn luyện và F (x (i); w) là hàm gần đúng được mạng thực hiện;
các trọng số tiếp hợp của mạng lưới được sắp xếp theo một số thứ tự để tạo thành vectơ trọng số
w. Gradient và Hessian của hàm chi phí eav (w) tương ứng được xác định bởi
0eav (w)
g (w) =
0w
1 N 0F (x (i); w)
= -
một [d (i) - F (x (i); w)] (4.144)
N i = 1 0w
và
02 eav (w) 1 N 0F (x (i); w) 0F (x (i); w)

= c
H (w) = một
0w2 N i = 1 0w dc 0w ngày T
1 N 02 F (x (i); w)
-
một [d (i) - F (x (i); w)] (4.145)
N i = 1 0w2
Do đó, thay thế các Eqs. (4.144) và (4.145) thành phương trình. (4.142), điều chỉnh mong muốn ¢ w
được tính cho mỗi lần lặp lại của thuật toán Levenberg-Marquardt.
Tuy nhiên, từ góc độ thực tế, độ phức tạp tính toán của Eq. (4.145) có thể
được yêu cầu, đặc biệt khi kích thước của trọng lượng
vectơ w là cao; khó khăn tính toán được cho là do bản chất phức tạp của
Hessian H (w). Để giảm thiểu khó khăn này, quy trình được khuyến nghị là bỏ qua
số hạng thứ hai ở phía bên phải của Eq. (4.145), do đó gần đúng với
Hessian chỉ đơn giản là
1 N 0F (x (i); w) 0F (x (i); w)
H (w) L một c (4.146)
N 0w dc 0w ngày T
i = 1
Phép gần đúng này được công nhận là tích ngoài của đạo hàm riêng
0F (w, x (i)) 0w với chính nó, được tính trung bình trên mẫu đào tạo; theo đó, nó được giới thiệu
như ước lượng sản phẩm bên ngoài của Hessian. Việc sử dụng ước lượng này là
hợp lý khi thuật toán Levenberg-Marquardt đang hoạt động ở vùng lân cận
mức tối thiểu cục bộ hoặc toàn cầu.
Rõ ràng, phiên bản gần đúng của thuật toán Levenberg – Marquardt, dựa trên
vectơ gradient của Eq. (4.144) và Hessian của Eq. (4.146), là một phương pháp bậc nhất
tối ưu hóa rất phù hợp cho các bài toán ước tính bình phương nhỏ nhất phi tuyến.
Hơn nữa, vì thực tế là cả hai phương trình này đều liên quan đến tính trung bình
trên mẫu huấn luyện, thuật toán ở dạng lô.
Tham số điều chỉnh đóng một vai trò quan trọng trong cách thức hoạt động của
thuật toán Levenberg Marquardt. Nếu chúng ta đặt bằng 0, thì công thức của Eq. (4.142)
giảm thành phương pháp của Newton. Mặt khác, nếu chúng ta gán một giá trị lớn cho
áp đảo Hessian H, thuật toán Levenberg-Marquardt hoạt động hiệu quả như một phương
Tôi
pháp giảm độ dốc. Từ hai quan sát này, theo sau rằng tại mỗi
lặp lại thuật toán, giá trị được chỉ định phải vừa đủ lớn để tính toán chính của
ma trận tổng (H + I) ở dạng xác định tích cực của nó. Trong các điều khoản cụ thể,
Công thức Marquardt được đề xuất cho việc lựa chọn như sau (Press et al.,) 1988:
1. Tính e av (w) ở lần lặp n - 1.
2. Chọn một giá trị khiêm tốn cho,nói = 10-3 .

3. Giải phương trình. (4.142) đối với điều chỉnh ¢ w tại lần Nlặp và đánh giá eav (w + ¢ w).
4. Nếu eav (w + ¢ w) eav (w), hãy tăng thêm hệ số 10 (hoặc bất kỳ giá trị quan trọng nào khác
yếu tố) và quay lại bước 3.
5. Mặt khác, nếu eav (w + ¢ w) 6 eav (w), giảm theo hệ số 10, hãy cập nhật
giải pháp thử w S w + ¢ w, và quay lại bước 3.
Vì những lý do rõ ràng, một quy tắc để dừng quá trình lặp lại là cần thiết. Trong Press et al.
(1998), người ta chỉ ra rằng một sự điều chỉnh trong vectơ tham số w làm thay đổi
eav ( w) bởi một số lượng nhỏ dần dần không bao giờ có ý nghĩa thống kê. Chúng tôi có thể sử
dụng nhận xét sâu sắc này làm cơ sở cho quy tắc dừng.
Một nhận xét cuối cùng là: Để đánh giá đạo hàm riêng 0F (x; w) 0w tại
mỗi lần lặp lại thuật toán, chúng tôi có thể sử dụng truyền ngược theo cách được mô tả
trong Phần 4.8.
Giảm độ dốc Stochastic bậc hai để học trực tuyến
Cho đến thời điểm này, phần này đã tập trung vào các kỹ thuật tối ưu hóa bậc hai cho hàng loạt
học tập. Sau đó, chúng tôi chuyển sự chú ý đến gradient ngẫu nhiên bậc hai
Mặc dù hai nhóm kỹ thuật này hoàn toàn khác nhau, nhưng chúng có chung một mục đích:
Thông tin bậc hai chứa trong Hessian (độ cong) của hàm chi phí được sử dụng
để cải thiện hiệu suất của các thuật toán học có giám sát.
Một cách đơn giản để mở rộng hiệu suất của máy ủ trực tuyến tối ưu
thuật toán học tập được xem xét trong Phần 4.10 là để thay thế tham số tốc độ học tập
(n) trong Eq. (4.60) với nghịch đảo tỷ lệ của Hessian H, như được hiển thị bởi
1
wˆ (n + 1) = wˆ (n) - H-1 g (x (n + 1), d (n + 1); wˆ (n)) (4.147)
N
¯˚˘˚˙ ¯˘˙ ¯˘˙ ¯˚˚˚˚˚˚˘˚˚˚˚˚˚˙
Đã cập nhật Cũ Ủ Vector gradient

ước tính ước tính nghịch g
đảo của
Hessian H
1
Việc thay thế (n) bằng thuật ngữ mới H-1 nhằm tăng tốc
N
tốc độ hội tụ của thuật toán trực tuyến theo kiểu ủ tối ưu.
rằng Hessian H được biết đến là tiên nghiệm và H-1 nghịch đảo của nó do đó có thể được tính toán trước.
Nhận ra thực tế rằng "không có thứ gì gọi là bữa trưa miễn phí", cái giá phải trả cho
sự hội tụ tăng tốc được tóm tắt như sau (Bottou, 2007):
(i) Trong khi đó trong dốc nghiêng ngẫu nhiên của Eq. (4,60), chi phí tính toán trên mỗi
lần lặp của thuật toán là O (W), trong đó W là thứ nguyên của vectơ trọng số
w được ước tính, chi phí tính toán tương ứng cho mỗi lần lặp của thuật toán gradient
ngẫu nhiên bậc hai trong phương trình. (4.147) là O (W2 ).
(ii) Đối với mỗi ví dụ huấn luyện (x, d) được xử lý bởi thuật toán của phương trình. (4.147),
thuật toán yêu cầu phép nhân vectơ gradient W-by-l g và W-by-W
ma trận nghịch đảo H-1 và lưu trữ sản phẩm.
(iii) Trong bối cảnh chung, bất cứ khi nào tồn tại một số dạng thưa thớt nào đó trong mẫu
huấn luyện, động thái tự nhiên là khai thác độ thưa thớt nhằm mục đích cải thiện
hiệu suất mic thuật toán. Thật không may, Hessian H thường là một ma trận đầy đủ và
ở đó không thưa thớt, điều này loại trừ khả năng khai thác sự thưa thớt mẫu huấn luyện.
Để khắc phục những hạn chế này, chúng tôi có thể sử dụng một trong các quy trình
ước lượng sau:
(i) Xấp xỉ đường chéo: (Becker và LeCun, 1989). Trong quy trình này, chỉ các phần tử
đường chéo của Hessian được giữ lại, có nghĩa là ma trận nghịch đảo H-1 cũng sẽ là
ma trận đường chéo. Lý thuyết ma trận dạy chúng ta rằng tích ma trận H-1 g sẽ bao
gồm tổng các số hạng có dạng -1 h ii gi , phần tử đường chéo
gra
phần
W.
của hii
dient
Với gở với
Hessian
tử vectơđâu
tương _ 1,
Hgradient
ứng
i
và gi
của
2 là
,g
là tuyến tính theo trọng số, theo đó độ phức tạp tính toán của thuật toán học trên
dòng xấp xỉ bậc định
hai là
nghĩa,
..., O (W).
hạng
(ii)
củaXấp
ma xỉ
trận
hạng
bằng
thấp:
số cột
(LeCun
đại và
số cộng
độc lập
sự, của
1998).
ma trận.
Theo
Cho một Hessian H, việc sử dụng phân rã giá trị đơn lẻ (SVD) cung cấp một quy trình
quan trọng để xấp xỉ hạng thấp của Hessian H. Hãy để hạng của H được ký hiệu là p và
một xấp xỉ hạng r của H được ký hiệu là Hr, nơi r p.
Sai số bình phương giữa Hessian và giá trị xấp xỉ của nó được xác định bởi định mức
Frobenius
e2 = tr [(H - Hr) T (H - Hr)] (4,148)
trong đó tr [•] biểu thị dấu vết (tức là tổng các thành phần đường chéo) của ma trận
vuông được đặt bên trong dấu ngoặc vuông. Áp dụng SVD cho ma trận H và Hr, chúng tôi
viết
H = VgUT (4,149)
và
Hr = VgrUT (4.150)
trong đó các ma trận trực giao U và V xác định các vectơ chung trái và phải, tương
ứng, và ma trận hình chữ nhật
gr = Diag [ 1, 2, ..., r, ..., 0] 0 (4.151)
xác định các giá trị đơn lẻ của Hr xấp xỉ cấp thấp . Ma trận vuông mới
Hr = UgrVT (4.152)
cung cấp xấp xỉ bình phương nhỏ nhất, xếp hạng r cho Hessian H (Scharf, 1991).
Tương ứng, việc sử dụng ma trận mới Hr thay cho Hessian H trong thuật toán học trực
tuyến của Eq. (4.147) làm giảm độ phức tạp tính toán của thuật toán xuống một nơi
nào đó giữa O (W) và O (W2 ).
(iii) Phép gần đúng BFGS: (Schraudolph và cộng sự, 2007) Như đã chỉ ra trước đây trong
phần này, thuật toán BFGS được coi là dạng tốt nhất của một chuẩn Newton
Phần 4.17 Mạng lưới hợp lệ 201
phương pháp. Trong bài báo năm 2007 của Schraudolph và cộng sự, thuật toán BFGS được sửa đổi
trong cả hai phiên bản bộ nhớ đầy đủ và giới hạn của nó để nó có thể sử dụng được cho
khoảng cách ngẫu nhiên của gradient. Thuật toán được sửa đổi dường như cung cấp
một thủ tục quasi-Newton ngẫu nhiên, có thể mở rộng, nhanh chóng để tối ưu hóa lồi trực tuyến.
Trong Yu et al. (2008), phương pháp BFGS bán Newton và kiến biến bộ nhớ giới hạn của nó được
mở rộng để xử lý các hàm mục tiêu lồi không trơn.
4.17 CÁC MẠNG CÁCH MẠNG
Cho đến thời điểm này, chúng tôi đã quan tâm đến thiết kế thuật toán của đa lớp trên mỗi ceptron
và các vấn đề liên quan. Trong phần này, chúng tôi tập trung vào bố cục cấu trúc của chính
perceptron nhiều lớp. Đặc biệt, chúng tôi mô tả một lớp đa lớp đặc biệt
perceptron được gọi chung là mạng chập, rất thích hợp cho
phân loại mẫu. Ý tưởng đằng sau sự phát triển của các mạng này được thúc đẩy một cách hợp lý về mặt
logic neurobio, quay trở lại công trình tiên phong của Hubel và Wiesel (1962, 1977)
trên các tế bào thần kinh chọn lọc định hướng và nhạy cảm cục bộ của vỏ não thị giác của mèo.
Mạng chập là một perceptron nhiều lớp được thiết kế đặc biệt để nhận ra các hình dạng hai
chiều với mức độ bất biến cao đối với dịch thuật, chia tỷ lệ,
lệch và các dạng bóp méo khác. Nhiệm vụ khó khăn này được học một cách có giám sát
bằng mạng có cấu trúc bao gồm các dạng ràng buộc sau
(LeCun và Bengio, 2003):
1. Tính năng khai thác. Mỗi tế bào thần kinh lấy đầu vào khớp thần kinh của nó từ một tiếp nhận cục bộ
trong lớp trước, do đó buộc nó phải trích xuất các tính năng cục bộ. Từng là một tính năng
đã được trích xuất, vị trí chính xác của nó trở nên ít quan trọng hơn, miễn là vị trí của nó liên quan
đến các đối tượng địa lý khác được giữ nguyên một cách xấp xỉ.
2. Ánh xạ đối tượng. Mỗi lớp tính toán của mạng bao gồm nhiều bản đồ đối tượng địa lý, với
mỗi bản đồ đối tượng địa lý ở dạng một mặt phẳng trong đó
các tế bào thần kinh riêng lẻ bị ràng buộc phải chia sẻ cùng một tập hợp các trọng lượng khớp thần
kinh. Dạng ràng buộc cấu trúc thứ hai này có những tác động có lợi sau:
• thay đổi bất biến, buộc phải vận hành bản đồ đối tượng thông qua việc sử dụng
tích chập với một nhân có kích thước nhỏ, tiếp theo là một hàm sigmoid;
• giảm số lượng các tham số tự do, được thực hiện thông qua việc sử dụng trọng lượng
sự chia sẻ.
3. Lấy mẫu con. Mỗi lớp chập được theo sau bởi một lớp tính toán
thực hiện lấy mẫu trung bình cục bộ và lấy mẫu con, nhờ đó độ phân giải của đối tượng địa lý
bản đồ bị thu nhỏ. Thao tác này có tác dụng làm giảm độ nhạy của tính năng
đầu ra của bản đồ đối với sự thay đổi và các dạng biến dạng khác.
Chúng tôi nhấn mạnh rằng tất cả các trọng số trong tất cả các lớp của một mạng phức hợp đều được học
thông qua đào tạo. Hơn nữa, mạng học cách tự động trích xuất các tính năng của riêng nó.
Hình 4.23 cho thấy bố cục kiến trúc của một mạng phức hợp được tạo thành từ
một lớp đầu vào, bốn lớp ẩn và một lớp đầu ra Mạng này được thiết kế để xử lý hình ảnh trên mỗi
biểu mẫu (ví dụ: nhận dạng các ký tự viết tay). Lớp đầu vào,
được tạo thành từ 28 28 nút cảm giác, nhận hình ảnh của các ký tự khác nhau có
ĐẦU VÀO Bản đồ nổi bật 4 Bản đồ nổi bật 4 Bản đồ nổi bật Bản đồ đặc trưng ĐẦU RA 26 @
28 28 @ 24 24 @ 12 12 12 @ 8 8 12 @ 4 4 1 1
mẫu
Lấy con Convo
con Convolution
Convolution
mẫu
Lấy
HÌNH 4.23 Mạng phù hợp để xử lý hình ảnh như nhận dạng chữ viết tay.
(Sao lại với sự cho phép của MIT Press.)
được căn giữa và chuẩn hóa về kích thước.
1. Lớp ẩn đầu tiên thực hiện tích chập. Nó bao gồm bốn bản đồ tính năng, với mỗi
bản đồ tính năng bao gồm 24 24 nơ-ron. Mỗi nơ-ron được gán một trường tiếp nhận
có kích thước 5 5.
2. Lớp ẩn thứ hai thực hiện lấy mẫu con và tính trung bình cục bộ. Nó cũng bao gồm
bốn bản đồ đặc trưng, nhưng mỗi bản đồ đặc trưng hiện được tạo thành từ 12 12 nơ-ron.
Mỗi tế bào thần kinh có một trường tiếp nhận có kích thước 2 2, một hệ số có thể
huấn luyện, một thiên vị có thể huấn luyện và một chức năng kích hoạt sigmoid. Hệ số
có thể đào tạo và độ chệch kiểm soát điểm hoạt động của nơ-ron; ví dụ, nếu hệ số
nhỏ, neu ron hoạt động ở chế độ chuẩn tính.
3. Lớp ẩn thứ ba thực hiện một phép chập thứ hai. Nó bao gồm 12 bản đồ tính năng,
với mỗi bản đồ tính năng bao gồm 8 8 nơ-ron. Mỗi nơ-ron trong lớp ẩn này có thể
có các kết nối tiếp hợp từ một số bản đồ đặc trưng trong lớp ẩn trước đó. Nếu
không, nó hoạt động theo cách tương tự như lớp chập đầu tiên.
4. Lớp ẩn thứ tư thực hiện lấy mẫu con thứ hai và lấy trung bình cục bộ. Nó bao gồm
12 bản đồ tính năng, nhưng với mỗi bản đồ tính năng bao gồm 4 4 neu rons. Nếu
không, nó hoạt động theo cách tương tự như lớp lấy mẫu con đầu tiên.
5. Lớp đầu ra thực hiện một giai đoạn cuối cùng của tích chập. Nó bao gồm 26 neuron,
với mỗi neuron được gán cho một trong 26 ký tự có thể. Như trước đây, mỗi nơ-ron
được gán một trường tiếp nhận có kích thước 4 4.
Với các lớp tính toán liên tiếp xen kẽ giữa tích chập và lấy mẫu con, chúng tôi
nhận được hiệu ứng "hình hai cạnh". Có nghĩa là, tại mỗi lớp chập hoặc lớp lấy mẫu
con, số lượng bản đồ đối tượng được tăng lên trong khi độ phân giải không gian bị
giảm so với lớp trước đó tương ứng. Ý tưởng về tích chập theo sau bằng cách lấy mẫu
con được lấy cảm hứng từ khái niệm về các ô “đơn giản” theo sau là các ô “phức tạp”
lần đầu tiên được mô tả trong Hubel và Wiesel (1962).
Perceptron đa lớp được mô tả trong Hình 4.23 chứa khoảng 100.000 kết nối synap,
nhưng chỉ có khoảng 2.600 tham số tự do.
Phần 4.18 Lọc phi tuyến 203
Số lượng các tham số tự do đạt được thông qua việc sử dụng chia sẻ trọng lượng.
Điều đáng chú ý hơn nữa là thực tế là các điều chỉnh đối với
các tham số tự do của mạng được thực hiện bằng cách sử dụng chế độ ngẫu nhiên của việc học
truyền ngược.
Một điểm đáng chú ý khác là việc sử dụng chia sẻ trọng lượng giúp cho
triển khai mạng phức hợp ở dạng song song. Đây là một lợi thế khác của
mạng phức hợp trên một perceptron đa lớp được kết nối đầy đủ.
Bài học rút ra từ mạng chập của Hình 4.23 là gấp đôi. Ngày thứ nhất,
một perceptron nhiều lớp có kích thước có thể quản lý được có thể học một thứ phức tạp, nhiều chiều,
ánh xạ phi tuyến bằng cách hạn chế thiết kế của nó thông qua việc kết hợp các cạnh hiểu biết
trước về nhiệm vụ trong tầm tay. Thứ hai, trọng số khớp thần kinh và mức độ chệch có thể được học
bằng cách xoay vòng thuật toán lan truyền ngược đơn giản thông qua mẫu đào tạo.
4.18 LỌC KHÔNG TUYẾN TÍNH
Việc sử dụng nguyên mẫu của mạng nơ-ron tĩnh, được ví dụ bởi đa lớp trên mỗi ceptron, là trong
nhận dạng mẫu cấu trúc; trong chừng mực các ứng dụng có liên quan,
phần lớn tài liệu được trình bày trong chương này tập trung vào mô hình cấu trúc
sự công nhận. Ngược lại, trong nhận dạng mẫu tạm thời hoặc lọc phi tuyến ,
yêu cầu là xử lý các mẫu phát triển theo thời gian, với phản hồi ở
thời điểm cụ thể của thời gian không chỉ phụ thuộc vào giá trị hiện tại của tín hiệu đầu vào mà còn phụ
thuộc vào các giá trị trong quá khứ. Nói một cách đơn giản, thời gian là một đại lượng có thứ tự cấu thành
một thành phần quan trọng của quá trình học tập trong việc nhận dạng mô hình thời gian
các nhiệm vụ.
Để một mạng nơron hoạt động, nó phải được cung cấp bộ nhớ ngắn hạn ở một dạng
hay cách khác. Một cách đơn giản để thực hiện sửa đổi này là sử dụng thời gian
sự chậm trễ, có thể được thực hiện ở cấp khớp thần kinh bên trong mạng hoặc bên ngoài
ở lớp đầu vào của mạng. Thật vậy, việc sử dụng độ trễ thời gian trong mạng nơ-ron là động cơ
sinh học thần kinh, vì người ta đã biết rõ rằng độ trễ tín hiệu có mặt khắp nơi trong
não và đóng một vai trò quan trọng trong xử lý thông tin sinh học thần kinh (Braitenberg,
Năm 1967, 1977, 1986; Miller, 1987) Do đó, thời gian có thể được tích hợp vào hoạt động của một nơ-ron
mạng theo hai cách cơ bản:
• Đại diện ngầm định. Thời gian được biểu thị bằng ảnh hưởng của nó đối với việc thu thập
tín hiệu một cách ngầm hiểu. Ví dụ: trong một triển khai kỹ thuật số của
mạng nơ-ron, tín hiệu đầu vào được lấy mẫu đồng nhất và trình tự của
trọng số khớp thần kinh của mỗi nơ-ron được kết nối với lớp đầu vào của mạng
được biến đổi với một chuỗi mẫu đầu vào khác nhau. Khi làm như vậy, cấu trúc tem poral
của tín hiệu đầu vào được nhúng vào cấu trúc không gian của
mạng.
• Biểu diễn rõ ràng. Thời gian được thể hiện cụ thể của riêng nó bên trong
cấu trúc mạng. Ví dụ, hệ thống định vị bằng tiếng vang của một con dơi hoạt động bằng
cách phát ra tín hiệu được điều chế tần số ngắn (FM), sao cho cùng mức cường độ là
được duy trì cho mỗi kênh tần số bị hạn chế trong một khoảng thời gian rất ngắn trong
Thời Mạng
Đầu vào Đầu ra y
gian ngắn nơron
x (n) (n)
kỉ niệm tĩnh
Σ
Tín
hiệu lỗi
d (n)
HÌNH 4.24 Bộ lọc phi tuyến được xây dựng trên mạng nơron tĩnh.
Quét FM. Nhiều phép so sánh giữa một số tần số khác nhau được mã hóa bởi một loạt
các thụ thể thính giác được thực hiện với mục đích trích xuất thông tin chính xác
về khoảng cách (phạm vi) về mục tiêu (Suga và Kanwal, 1995). Khi nhận được tiếng
vọng từ mục tiêu với độ trễ không xác định, một tế bào thần kinh (trong hệ thống
thính giác) với đường trễ phù hợp sẽ phản hồi, do đó cung cấp ước tính phạm vi
tới mục tiêu.
Trong phần này, chúng ta quan tâm đến sự biểu diễn ngầm định của thời gian, theo đó
mạng nơ-ron tĩnh (ví dụ: perceptron nhiều lớp) được cung cấp các đặc tính động bằng các
phương tiện bên ngoài.
Hình 4.24 cho thấy sơ đồ khối của bộ lọc phi tuyến bao gồm kết nối tầng của hai
hệ thống con: bộ nhớ ngắn hạn và mạng nơron tĩnh (ví dụ, perceptron đa lớp). Cấu trúc
này cung cấp sự tách biệt rõ ràng giữa các vai trò xử lý: Mạng tĩnh chiếm tính phi
tuyến và bộ nhớ chiếm thời gian.
Để cụ thể, giả sử chúng ta được cung cấp một perceptron nhiều lớp với lớp đầu vào có
kích thước m. Sau đó, theo một cách tương ứng, bộ nhớ là cấu trúc một đầu vào, nhiều
đầu ra (SIMO) cung cấp m phiên bản trễ khác nhau của tín hiệu đầu vào để kích thích
mạng nơ-ron.
Cấu trúc bộ nhớ ngắn hạn
Hình 4.25 cho thấy sơ đồ khối của cấu trúc bộ nhớ thời gian rời rạc bao gồm p phần
giống hệt nhau được kết nối theo tầng. Mỗi phần được đặc trưng bởi một phản ứng xung,
ký hiệu là h (n), trong đó n là thời gian rời rạc. Số phần, p, là
Bài 1 Mục 2 Đơn vị p
Tín
h (n) h (n) h (n)
hiệu đầu vào
Thiết bị đầu cuối đầu ra
HÌNH 4.25 Bộ nhớ dòng trễ có khai thác tổng quát của thứ tự p.
được gọi là thứ tự của bộ nhớ. Tương ứng, số lượng thiết bị đầu cuối đầu ra (tức
là các vòi) được cung cấp bởi bộ nhớ là p 1, bao gồm kết nối trực tiếp từ đầu vào
đến đầu ra. Do đó, với m là kích thước của lớp đầu vào của mạng nơ ron tĩnh, chúng
ta có thể thiết lập
m = p + 1
Đáp ứng xung của mỗi phần trễ của bộ nhớ thỏa mãn hai thuộc tính:
• quan hệ nhân quả, có nghĩa là h (n) bằng 0 với n <0;
• chuẩn hóa, có nghĩa là một h (n) = 1 .
Trên cơ sở này, chúng ta có thể coi h (n) là hạt nhân tạo ra bộ nhớ thời gian rời
rạc.
Các thuộc tính của cấu trúc bộ nhớ được đo bằng độ sâu và độ phân giải
(deVries và Principe, 1992). Gọi tổng thể (n) biểu thị phản ứng xung tổng thể của
bộ nhớ . Với p phần bộ nhớ, theo đó tổng thể (n) được xác định bằng p lần chập
liên tiếp của phản ứng xung h (n). Theo đó, độ sâu bộ nhớ D được xác định là thời
điểm đầu tiên của ho tổng thể (n), cụ thể là,
D = a (4.153)
Bộ nhớ có độ sâu thấp D lưu giữ nội dung thông tin trong một khoảng thời gian
tương đối ngắn, trong khi bộ nhớ có độ sâu cao lưu giữ nội dung đó xa hơn nhiều so với
quá khứ.Memory res olution R được định nghĩa là số lần nhấn trong cấu trúc bộ nhớ trên
một đơn vị thời gian. Do đó, bộ nhớ có độ phân giải cao có thể lưu giữ thông tin về
trình tự đầu vào ở mức tốt, trong khi bộ nhớ có độ phân giải thấp chỉ có thể làm như
vậy ở mức thô hơn. Đối với một thứ tự bộ nhớ cố định p, tích của độ sâu bộ nhớ D và độ
phân giải bộ nhớ R là một hằng số hóa ra bằng p.
Đương nhiên, các lựa chọn khác nhau của hạt nhân tạo h (n) dẫn đến các giá trị
khác nhau cho độ sâu D và độ phân giải bộ nhớ R, như được minh họa bằng hai bộ nhớ sau
cấu trúc:
1. Bộ nhớ dòng trễ có khai thác, mà hạt nhân tạo được xác định đơn giản bởi
xung đơn vị (n); đó là,
(4.154)
h (n) = (n) = e 1,0,n n= Z0 0
Tương ứng, phản ứng xung tổng thể là
P
(4.155)
tổng thể (n) = (n - p) = e 0,
1, nn Z= p
Thay thế Eq. (4.155) thành phương trình. (4.153) mang lại độ sâu bộ nhớ D p,
thỏa mãn trực quan. Hơn nữa, vì chỉ có một lần nhấn trên mỗi đơn vị thời
gian, nên độ phân giải R 1, cho ra sản phẩm độ phân giải độ sâu bằng p.
2. Bộ nhớ gamma, mà hạt nhân tạo được xác định bởi
h (n) = (1 - ) n-1 , n 1 (4.156)
đâu là một tham số điều chỉnh (deVries và Principe, 1992). Để h (n) trở thành
hội tụ (tức là, để bộ nhớ ngắn hạn ổn định), chúng tôi yêu cầu
0 6 6 2
Tương ứng, phản ứng xung tổng thể của bộ nhớ gamma là
(4.157)
ho tổng thể (n) = pa n
- -1 1 b p (1 - ) np, np
ở đâu ab là một hệ số nhị thức. Phản ứng xung tổng thể (n) cho p khác nhau
đại diện cho phiên bản rời rạc của tích hợp hàm gamma (deVries
và Principe, 1992) - ghi tên "bộ nhớ gamma." Hình 4.26 vẽ biểu đồ
, thứ tự bộ nhớ khác nhau
phản ứng xung động tổng thể (n), được chuẩn hóa liên quan đến
p 1, 2, 3, 4 và 0,7. Cũng lưu ý rằng trục thời gian đã được chia tỷ lệ bởi
(n) tại tham số,
trụcnpthời
1. gian có tác dụng định vị giá trị đỉnh của tổng thể
Nó chỉ ra rằng độ sâu của bộ nhớ gamma là (p / ) và độ phân giải, một lần nữa
tạo ra sản phẩm có độ phân giải sâu bằng p. Theo đó, bằng cách chọn ít hơn
hơn cả sự thống nhất, bộ nhớ gamma tạo ra sự cải thiện về chiều sâu với chi phí là độ phân
giải cao. Đối với trường hợp đặc biệtkhai
của thác
1, bộthông
nhớ gamma
thườnggiảm
trong
thành
đó mỗi
bộ nhớ
phầndòng
chỉ trễ
bao được
gồm
một toán tử trễ đơn vị thời gian.
0,8
p 1
0,6
1
ho tổng thể (n)
0,4
p 2
p 3
0,2 p 4
N/
0
2 4 6 số 8 10
HÌNH 4.26 Họ các đáp ứng xung của bộ nhớ gamma cho thứ tự p 1, 2, 3, 4 và
0,7.
Định lý ánh xạ thần kinh phổ quát
Bộ lọc phi tuyến của Hình 4.24 có thể được tổng quát hóa thành bộ lọc được chỉ ra trong
L
Hình 4.27. Cấu trúc động chung này bao gồm hai khối chức năng. Khối có nhãn {hj } đại j 1
diện cho nhiều chập trong miền thời gian, tức là một ngân hàng các bộ lọc tuyến tính
hoạt động song song. Các hj được rút ra từ một tập hợp lớn các hạt nhân có giá trị thực,
mỗi nhân đại diện cho phản ứng xung của bộ lọc tuyến tính. Khối có nhãn N đại diện cho
một mạng chuyển tiếp phi tuyến tĩnh (tức là không có bộ nhớ) chẳng hạn như perceptron
nhiều lớp. Cấu trúc của Hình 4.27 là một bản đồ động phổ quát. Trong Sandberg và Xu
(1997a), đã chỉ ra rằng bất kỳ bản đồ cận thị bất biến dịch chuyển nào cũng có thể được
xấp xỉ một cách đồng nhất tùy ý bằng một cấu trúc có dạng được mô tả trong Hình 4.27
trong điều kiện nhẹ. Yêu cầu một bản đồ phải là vật cận cảnh tương đương với “trí nhớ mờ
dần một cách đồng nhất”; ở đây giả định rằng bản đồ là quan hệ nhân quả, có nghĩa là một
tín hiệu đầu ra được tạo ra bởi bản đồ tại thời điểm n 0 chỉápkhi
dụng
tín
Bởi
tại
hiệu
"dịch
thời
đầuchuyển
điểm
vào nđược
bất
0.
biến", chúng ta có nghĩa như sau: Nếu y (n) là đầu ra của bản đồ được tạo bởi đầu vào x
(n), sau đó đầu ra của gen bản đồ được tạo bởi đầu vào đã dịch x (n - n0) là y (n - n0),
trong đó dịch chuyển thời gian n0 là một mầm nguyên. Trong Sandberg và Xu (1997b), nó
được chỉ ra rằng đối với bất kỳ bản đồ bộ nhớ đơn biến, bất biến, nhân quả, mờ dần đều,
có một bộ nhớ gamma và mạng nơron tĩnh, sự kết hợp của chúng xấp xỉ bản đồ một cách thống
nhất và tùy ý. Tốt.
Bây giờ chúng ta có thể chính thức phát biểu định lý ánh xạ cận thị phổ quát15 như
sau (Sandberg và Xu, 1997a, 1997b):
Bất kỳ bản đồ động cận thị thay đổi bất biến nào cũng có thể được ước lượng một cách đồng nhất tùy ý
bằng một cấu trúc bao gồm hai khối chức năng: một ngân hàng các bộ lọc tuyến tính cung cấp một mạng
nơ-ron tĩnh.
Như đã đề cập, perceptron nhiều lớp có thể phục vụ vai trò của mạng tĩnh.
Cũng cần lưu ý rằng định lý này đúng khi các tín hiệu đầu vào và đầu ra là các hàm func
của một số lượng hữu hạn các biến, chẳng hạn như trong xử lý ảnh.
HÌNH 4.27 Cấu trúc chung cho định lý ánh

h1 (n)
xạ cận phổ.
h2 (n)

x (n) • y (n)
•
•
hL (n)
Ngân hàng Mạng
các hạt nhân phi tuyến
chập (bộ tĩnh
lọc tuyến
tính)
208, chương 4 Perceptron nhiều lớp
Hàm ý thực tế của định lý
Định lý ánh xạ cận thị phổ quát có ý nghĩa thực tế sâu sắc:
1. Định lý cung cấp sự biện minh cho NETtalk, là minh chứng đầu tiên của
một mạng lưới phân tán song song khổng lồ chuyển đổi giọng nói tiếng Anh sang âm vị;
âm vị là một đơn vị ngôn ngữ cơ bản (Sejnowski và Rosenberg, 1987). Hình 4.28
hiển thị một sơ đồ của hệ thống NETtalk, dựa trên perceptron nhiều lớp
với lớp đầu vào gồm 203 nút cảm giác (nguồn), lớp ẩn gồm 80 tế bào thần kinh và
một lớp đầu ra gồm 26 tế bào thần kinh. Tất cả các tế bào thần kinh đều sử dụng các hàm chức
năng kích hoạt sigmoid (logistic). Các kết nối synap trong mạng được xác định bằng tổng số 18.629
trọng số, bao gồm một ngưỡng thay đổi cho mỗi nơ-ron; ngưỡng là tiêu cực của
Thiên kiến. Thuật toán lan truyền ngược tiêu chuẩn được sử dụng để huấn luyện mạng. Các
mạng có bảy nhóm nút trong lớp đầu vào, với mỗi nhóm mã hóa một
chữ cái của văn bản đầu vào. Do đó, chuỗi bảy chữ cái đã được trình bày cho lớp đầu vào
tại bất kỳ thời điểm nào. Phản hồi mong muốn cho quá trình đào tạo được chỉ định là âm
vị cor trực tràng được liên kết với chữ cái trung tâm (tức là thứ tư) trong bảy chữ cái
win down. sáu chữ cái còn lại (ba chữ cái ở hai bên của chữ cái trung tâm. ) cung cấp một phần
bối cảnh cho mỗi quyết định do mạng đưa ra. Văn bản đã được chuyển qua
cửa sổ trên cơ sở từng chữ cái. Ở mỗi bước trong quy trình, mạng đã tính toán
một âm vị, và sau mỗi từ, trọng số synap của mạng được điều chỉnh
tùy theo mức độ chặt chẽ của cách phát âm được tính toán phù hợp với cách phát âm chính xác.
Hiệu suất của NETtalk thể hiện một số điểm tương đồng với
hiệu suất của con người, như được tóm tắt ở đây (Sejnowski và Rosenberg, 1987):
• Việc đào tạo tuân theo luật quyền lực.

• Mạng lưới càng học được nhiều từ, thì mạng càng có khả năng tổng quát hóa tốt hơn và
phát âm trực tiếp các từ mới.
• Hiệu suất của mạng bị suy giảm rất chậm khi kết nối synap
trong mạng đã bị cố ý làm hỏng.
• Học lại sau khi mạng bị thiệt hại nhanh hơn nhiều so với học trong
đào tạo ban đầu.
GIÁO VIÊN
/ k /
Đầu ra các tế bào thần kinh
Tế bào thần kinh ẩn
Các nút nguồn
- c t
(- một một
-)
HÌNH 4.28 Sơ đồ cấu trúc mạng NETtalk.

Phần 4.19 Các vấn đề học tập ở quy mô nhỏ so với quy mô lớn 209
NETtalk là một minh họa tuyệt vời trong việc thu nhỏ nhiều khía cạnh của việc học,
bắt đầu với kiến thức “bẩm sinh” đáng kể về các mẫu đầu vào và sau đó dần dần có
được khả năng chuyển đổi giọng nói tiếng Anh sang âm vị thông qua thực hành.
2. Định lý cận thị phổ quát đặt nền tảng cho việc thiết kế các mô hình phức tạp hơn
của hệ thống phi tuyến. Nhiều chập ở đầu trước của cấu trúc trong Hình 4.27 có thể
được thực hiện bằng cách sử dụng các bộ lọc tuyến tính với đáp ứng xung thời gian
hữu hạn (FIR) hoặc đáp ứng xung thời gian vô hạn (IIR). Quan trọng nhất, cấu trúc
của Hình 4.27 vốn đã ổn định, với điều kiện là các đường fillet tuyến tính tự ổn
định. Do đó, chúng tôi có sự phân tách rõ ràng về vai trò của việc làm thế nào để
chăm sóc trí nhớ ngắn hạn và sự phi tuyến tính của trí nhớ trong việc xây dựng một
hệ thống động ổn định.
3. Với chuỗi thời gian đứng yên x (1), x (2), x (n),

..., chúng ta có thể sử dụng cấu trúc
lập bản đồ cận thị phổ quát của Hình 4.27 để xây dựng mô hình dự đoán về các định
luật vật lý phi tuyến cơ bản chịu trách nhiệm tạo ra thời gian chuỗi bằng cách đặt
y (n) x (n 1), bất kể luật phức tạp đến đâu. Trên thực tế, mẫu tương lai x (n 1)
đóng vai trò là phản ứng mong muốn. Khi một perceptron nhiều lớp được sử dụng làm
mạng tĩnh trong Hình 4.27 cho một ứng dụng như vậy, bạn nên cung cấp một neuron
tuyến tính cho đơn vị đầu ra trong mạng. Điều khoản này sẽ đảm bảo rằng không có
giới hạn biên độ nào được đặt trên dải động của mô hình dự đoán.
4.19 VẤN ĐỀ HỌC TẬP QUY MÔ LỚN-QUY MÔ NHỎ PHIÊN BẢN
Ở nhiều điểm khác nhau trong chương này và các phần khác của cuốn sách, chúng tôi đã đề
cập đến các vấn đề học tập quy mô nhỏ và quy mô lớn. Tuy nhiên, chúng tôi đã không giải
thích một cách chặt chẽ về ý nghĩa của hai loại học tập có giám sát này mà mục đích của
phần này là làm rõ hơn các vấn đề thống kê và tính toán phân biệt chúng với nhau.
Chúng tôi bắt đầu thảo luận với giảm thiểu rủi ro cấu trúc (SRM), hoàn toàn mang
tính chất thống kê; SRM phù hợp để giải quyết các vấn đề học tập quy mô nhỏ.
Sau đó, chúng tôi mở rộng cuộc thảo luận bằng cách xem xét các vấn đề tính toán có vai
trò nổi bật trong việc giải quyết các vấn đề học tập quy mô lớn.
Giảm thiểu rủi ro cấu trúc
Tính khả thi của việc học có giám sát phụ thuộc vào câu hỏi chính sau:
Một mẫu đào tạo bao gồm N ví dụ độc lập và được phân phối giống nhau
(x1, d1), (x2, d2), ..., (xN, dN)
chứa đầy đủ thông tin để xây dựng một máy học có khả năng hoạt động tổng quát tốt?
Câu trả lời cho câu hỏi cơ bản này nằm trong phương pháp giảm thiểu rủi ro cấu trúc,
được mô tả bởi Vapnik (1982, 1998).
Để mô tả ý của chúng tôi theo phương pháp này, hãy để nguồn tự nhiên hoặc môi trường
chịu trách nhiệm tạo mẫu đào tạo được biểu diễn bằng mô hình sion hồi quy phi tuyến
d = f (x) + (4.158)
trong đó, theo thuật ngữ được giới thiệu trong Chương 2, vectơ x là hàm hồi quy,
vô hướng d là phản hồi và là sai số giải thích (mô hình hóa). Hàm f
là ẩn số, và mục tiêu là ước tính nó. Để thực hiện ước tính này, chúng tôi xác định
rủi ro dự kiến (tức là, hàm chi phí trung bình tổng hợp) như
Jactual (f) = (4.159)

x, d c 21 (d - f (x)) 2 ngày
trong đó kỳ vọng được thực hiện cùng với cặp hồi quy - phản hồi
(x, d). Trong Chương 5, chúng tôi sẽ chỉ ra rằng công cụ ước tính trung bình có điều kiện
fˆ * = [d @ x] (4.160)
là bộ tối thiểu của hàm chi phí Jactual (f) . Tương ứng, chúng tôi viết Jactual (fˆ *) như
giá trị nhỏ nhất của hàm chi phí được xác định trong Eq. (4,159); nó đóng vai trò là điều tuyệt đối
tối ưu có thể đạt được.
Việc xác định công cụ ước tính trung bình có điều fˆ
kiện
* yêu cầu kiến thức về
phân phối xác suất chung cơ bản của bộ hồi quy x và phản hồi d.
tuy nhiên, chúng tôi thấy rằng kiến thức này không có sẵn. Để vượt qua khó khăn này,
chúng tôi tìm đến học máy để có một giải pháp khả thi. Giả sử, ví dụ, chúng tôi chọn một
perceptron đa lớp đơn lớp để thực hiện việc học máy. Cho hàm F (x; w)
biểu thị mối quan hệ đầu vào-đầu ra của mạng nơ-ron được tham số hóa bởi trọng số
vectơ w. Sau đó, chúng tôi thực hiện ước tính đầu tiên của mình bằng cách thiết lập
f (x) = F (x; w) (4.161)
Tương ứng, chúng tôi xây dựng hàm chi phí của mô hình như
J (w) = (4.162)
x, d c 21 (d - F (x; w)) 2 ngày
trong đó, như trước đây, kỳ vọng được thực hiện cùng với cặp (x, d).
hàm chi phí thứ hai được xây dựng một cách tự nhiên khác với hàm chi phí Jactual (f)
liên quan đến nguồn — do đó việc sử dụng các ký hiệu khác nhau cho chúng. Trong việc áp đặt
đẳng thức của Eq. (4.161) trên mạng nơ-ron, trên thực tế, chúng tôi đã hạn chế lựa chọn
hàm xấp xỉ F (x; w).
Để cho
wˆ * = arg minw J (w) (4,163)
là mức tối thiểu của hàm chi phí J (w). Tuy nhiên, thực tế là ngay cả khi chúng ta có thể
* tìm thấy trình thu nhỏ
wˆ sẽ
, rất có khả năng là hàm chi phí kết quả J (wˆ *)
tệ hơn so với hàm chi phí tối thiểu Jactual (fˆ *).
Trong mọi trường hợp, chúng tôi không thể làm tốt hơn
hơn Jactual (fˆ *), và do đó chúng tôi viết
thực tế (fˆ *)
J (wˆ *) 7 J (4.164)
4.19 Các vấn đề học tập ở quy mô nhỏ so với quy mô lớn 211
Thật không may, chúng tôi vẫn phải đối mặt với cùng một vấn đề thực tế như trước đó là
chúng ta có thể không biết phân phối xác suất chung cơ bản của cặp ( x, d).
hàm năng lượng trung bình theo thời gian)
1 N
eav (N; w) = một (d (n) - F (x (n); w)) 2 (4.165)
2N n = 1
mà bộ thu nhỏ được xác định bởi
wˆ = arg min eav (N; w) (4.166)

N w
Rõ ràng, hàm chi phí tối thiểu có J (wˆ N) không thể nhỏ hơn J (wˆ *)Thực tế, nó là
nhiều khả năng tìm thấy rằng
J (wˆN) 7 J (wˆ *) 7 Jactual (fˆ *) (4.167)
Với hai phép tính gần đúng đã được thực hiện, chúng ta có thể tự hỏi tại sao chúng ta nên
wˆ tính toán chính xác mức tối
N thiểu. Trước khi giải quyết câu hỏi này, chúng ta hãy kiểm tra những gì
xảy ra khi ví dụ về perceptron nhiều lớp được thay đổi bằng cách mở rộng kích thước của
lớp ẩn.
Từ Phần 4.12, chúng ta nhớ lại rằng perceptron nhiều lớp là một mô phỏng xấp xỉ phổ
quát của hàm chưa biết f (x). Theo lý thuyết, hàm tham số hóa F (x; w)
xấp xỉ hàm chưa biết f (x) với bất kỳ độ chính xác mong muốn nào miễn là kích thước
của lớp ẩn đủ lớn. Điều này có nghĩa là nó trở nên gần với J (wˆ *)
tối ưu tuyệt đối. Tuy nhiên,

Jactual bằng
(fˆ *)cách phóng to kích thước của lớp ẩn, chúng tôi
có thể ảnh hưởng đến khả năng tổng quát hóa của perceptron nhiều lớp.
có thể lỗi tăng lên do phóng to *) - Jactual (fˆ *))
(J (wˆ
lớp ẩn, trừ khi kích thước của mẫu huấn luyện, N, được tăng lên tương ứng.
vấn đề vừa được thảo luận là bản chất của việc giảm thiểu rủi ro cấu trúc của Vapnik , điều
mà mani tự đảm bảo trong việc “đánh đổi ước lượng - ước tính”.
Để giải thích kỹ hơn về sự đánh đổi này, hãy để sai số dư thừa (J (wˆ N) - Jactual (fˆ *))
được phân tách thành hai thuật ngữ như sau:
¯˚˚˚˚˚˘˚˚˚˚˚˙
J (wˆ N) - Jactual (fˆ *) =¯˚˚˚˚˘˚˚˚˚˙
J (wˆ N) - J (wˆ *) + J ¯˚˚˚˚˚˘˚˚˚˚˚˙
(wˆ *) - Jactual (fˆ *) (4,168)
Lỗi dư thừa Lỗi ước tính Sai số ước lượng
Trong phân tích lỗi cổ điển này, những điểm sau đáng chú ý:
(i) Sai số ước tính cung cấp một thước đo về mức độ hiệu suất bị mất như một
Kết quả của việc sử dụng một mẫu huấn luyện có kích thước N. wˆ
N
(ii) Sai số xấp xỉ cung cấp một thước đo về mức độ hiệu suất bị mất đi do
chọn một mô hình được đặc trưng bởi hàm xấp xỉ F (x, w). Thêm fˆ *
hơn nữa, với việc trở thành một công cụ ước lượng có điều kiện của phản hồi d với giá
trị regres sor x, do đó, sai số ước lượng có liên quan trong việc đánh giá mạng
thử nghiệm.
Trong khung lý thuyết của Vapnik, các sai số ước lượng và ước lượng được xây dựng
theo thứ nguyên VC, thường được ký hiệu là h. Tham số mới này, viết tắt của thứ nguyên
Vapnik– Chervonenkis (Vapnik và Chervonenkis, 1971), là thước đo công suất, hay sức mạnh
biểu đạt, của một họ các hàm phân loại nhị phân được máy học nhận ra.
16
Đối với ví dụ về đa lớp một lớp trên một ceptron,
kích thước VC được xác định bởi kích thước của lớp ẩn; kích thước này càng lớn thì kích
thước h của VC càng lớn .
Để đặt lý thuyết của Vapnik trong bối cảnh thực tế, hãy xem xét một nhóm các
bắt chước các chức năng mạng được biểu thị bằng
Fk = {F (x; w) (w Wk)}, k = 1, 2, ..., K (4,169)
như vậy mà chúng ta có
F1 ( F2 (p ( FK
( nghĩa là "được chứa trong." Tương ứng, kích thước VC của các tập con
trong đó biểu tượng có
riêng lẻ của FK thỏa mãn điều kiện
h1 6 h2 6 p 6 hK
Trên thực tế, kích thước FK là thước đo công suất máy. Sau đây, chúng tôi sử dụng định
nghĩa của Eq. (4.169) thay cho thứ nguyên VC.
Hình 4.29 biểu thị các biến thể của sai số ước lượng và ước lượng so với kích thước
K của họ các hàm mạng xấp xỉ FK. Đối với ví dụ về perceptron nhiều lớp một lớp, kích thước
tối ưu của lớp ẩn được xác định bởi điểm mà tại đó lỗi xấp xỉ và lỗi ước lượng giả định
một giá trị chung. Trước khi đạt được điều kiện tối ưu, vấn đề học tập được xác định quá
mức , có nghĩa là công suất máy quá nhỏ so với lượng chi tiết có trong mẫu đào tạo. quá
lớn đối với mẫu đào tạo.
Ràng buộc trên

lỗi thừa
Lỗi Ước lượng
lỗi
Sự gần đúng
lỗi
0 Điều kiện tối ưu
Kích thước của các chức năng mạng gần đúng, K
HÌNH 4.29 Các biến thể của sai số ước lượng và ước lượng với kích thước K.
Cân nhắc tính toán
Mô hình mạng nơron (ví dụ: perceptron đa lớp một lớp) phải là
biến được kiểm soát, để nó có thể được điều chỉnh tự do để đạt được hiệu suất kiểm tra tốt nhất
trên dữ liệu chưa từng thấy trước đây. Một biến được kiểm soát khác là số lượng ví dụ cần làm
Đào tạo. Để thêm tính hiện thực thực tế vào quá trình đào tạo có giám sát, Bottou
(2007) đã giới thiệu chi phí tính toán bằng cách xem xét một biến thể được kiểm soát mới có thể:
độ chính xác tối ưu hóa.
wˆ Trong thực tế, có thể thấy rằng nhiệm vụ tính toán bộ giảm thiểu khá tốn kém. Hơn Là
N
nữa, trong quá trình đưa ra một thiết kế mạng ưng ý,
chúng tôi thường thực hiện nhiều ước tính. Giả sử, sau đó, chúng tôi giải quyết trên một mô hình mạng
wˆ được đặc trưng bởi vectơ trọng lượng wkhác
N, ta
vớisẽkhi làm như vậy, chúng
N; đã thực hiện ước lượng gần đúng thứ ba và cuối cùng của chúng tôi . Ví dụ: thuật toán học
trực tuyến có thể bị dừng lại rất lâu trước khi đạt được sự hội tụ, do thời gian đặt com có hạn.
Trong mọi trường hợp, có phải wlàN giải pháp tối ưu thỏa mãn điều kiện không
eav (N; w N) eav (N; wˆ N) + & (4.170)
nơi tạo &

thành một biến được kiểm soát mới; nó cung cấp một thước đo tính toán
sự chính xác.
Dưới góc độ thực tiễn mới này, giờ đây chúng ta có một vấn đề phức tạp hơn thế
gặp phải trong phương pháp giảm thiểu rủi ro cơ cấu. Cụ thể, bây giờ chúng ta phải
điều chỉnh ba biến:
• mô hình mạng (ví dụ: thông qua số lượng tế bào thần kinh ẩn trong perceptron nhiều lớp),
• số lượng các ví dụ đào tạo, và
• độ chính xác của việc tối ưu hóa (ví dụ như bằng cách kết thúc quá trình tính toán sớm
của bộ giảm thiểu vàwˆgiải
N quyết trên giải pháp dưới mức tối ưu). w
N
Để đạt được hiệu suất thử nghiệm tốt nhất, chúng tôi phải đáp ứng các hạn chế về ngân sách ,
xác định số lượng ví dụ đào tạo tối đa mà chúng tôi có thể sử dụng và số lượng tối đa
thời gian tính toán mà chúng tôi có thể chi trả. Trong bối cảnh thực tế, chúng ta phải đối mặt với
với một sự đánh đổi khá phức tạp. Khi giải quyết vấn đề tối ưu hóa bị ràng buộc này, sự cân bằng
sẽ phụ thuộc vào việc liệu lần đầu tiên chúng ta có đạt đến giới hạn về số lượng ví dụ hay không
hoặc áp đặt giới hạn về thời gian tính toán. Giới hạn nào trong hai giới hạn này là ngân sách hoạt động
hạn chế phụ thuộc vào việc liệu quá trình học tập có giám sát là ở quy mô nhỏ hay
loại quy mô lớn, sẽ được thảo luận tiếp theo.
Định nghĩa
Theo Bottou (2007), các vấn đề học tập quy mô nhỏ và quy mô lớn được xác định tương ứng như sau:
Định nghĩa I. Học tập quy mô nhỏ
Vấn đề học tập có giám sát được cho là thuộc loại quy mô nhỏ khi quy mô của
mẫu đào tạo (tức là số lượng ví dụ) là hạn chế ngân sách hoạt động được áp đặt
vào quá trình học tập.
Định nghĩa II. Học tập quy mô lớn
Một vấn đề học tập có giám sát được cho là thuộc loại quy mô lớn khi thời gian tính toán là
giới hạn ngân sách chủ động áp đặt cho quá trình học tập.
Nói cách khác, chính hạn chế ngân sách chủ động là yếu tố phân biệt vấn đề học tập này
với vấn đề học tập khác.
Đối với một ví dụ minh họa về vấn đề học tập quy mô nhỏ, chúng tôi có thể đề cập đến
việc thiết kế một bộ cân bằng thích ứng, mục đích của nó là bù đắp cho sự biến dạng không thể
tránh khỏi của dữ liệu mang thông tin được truyền qua một kênh truyền thông. Thuật toán LMS,
bắt nguồn từ sự giảm dần độ dốc ngẫu nhiên và được đề cập trong Chương 3, được sử dụng rộng
rãi để giải quyết vấn đề học trực tuyến này (Haykin, 2002).
Đối với một ví dụ minh họa về một vấn đề học tập quy mô lớn, chúng tôi có thể đề cập
đến việc thiết kế trình đọc séc trong đó các ví dụ đào tạo bao gồm các cặp khớp, mỗi cặp mô
tả một cặp {image, quant} cụ thể , trong đó “image” liên quan đến một séc và "số tiền" liên
quan đến số tiền được ghi trong séc. Một vấn đề học tập như vậy có cấu trúc mạnh mẽ và phức
tạp bởi các vấn đề sau (Bottou, 2007):
• phân đoạn lĩnh vực; •
phân đoạn ký tự; • nhận dạng
ký tự; • giải thích cú pháp.
Mạng tích tụ, bao gồm các mô-đun có thể phân biệt được như được mô tả trong Phần 4.17 và được
đào tạo bằng thuật toán gradient ngẫu nhiên trong vài tuần, được sử dụng rộng rãi để giải
quyết vấn đề học tập đầy thách thức này (LeCun và cộng sự, 1998). Thật vậy, mạng mới này đã
được triển khai trong ngành công nghiệp từ năm 1996, chạy hàng tỷ lượt kiểm tra.
Vấn đề học tập quy mô nhỏ
Trong chừng mực có liên quan đến các vấn đề học tập quy mô nhỏ, có ba biến có thể sử dụng cho
người thiết kế máy học:
• số lượng các ví dụ đào tạo, N; • kích
thước cho phép K của họ các hàm mạng gần đúng F; • lỗi tính toán & được giới thiệu
trong Eq. (4.170).
Với giới hạn ngân sách hoạt động là số lượng ví dụ, các tùy chọn thiết kế trong các bài toán
học thuộc loại đầu tiên như sau (Bottou, 2007):
• Giảm sai số ước tính bằng cách đặt N lớn nhất trong ngân sách cho phép. • Giảm
lỗi tối ưu hóa bằng cách đặt lỗi tính toán 0, mà & wˆ w NN có nghĩa là thiết chỉnh
lập • kích
Điều
thước của .
F đến mức được cho là hợp lý.
Với 0, phương pháp giảm thiểu rủi ro cấu trúc, liên quan đến sự đánh đổi ước lượng - ước
lượng được minh họa trong Hình 4.29, là phù hợp để giải quyết các vấn đề học tập quy mô
nhỏ.
Vấn đề học tập quy mô lớn
Như đã chỉ ra trước đây, hạn chế về ngân sách chủ động trong việc học tập quy mô lớn là
thời gian tính toán. Khi giải quyết các vấn đề học tập thuộc loại thứ hai này, chúng ta
phải đối mặt với sự đánh đổi phức tạp hơn vì bây giờ chúng ta phải tính đến thời gian tính
toán T.
Trong các bài toán học quy mô lớn, sai số dư thừa được xác định bởi sự khác biệt (J
(w N) - Jactual (fˆ *)) ,ing
được(Bottou,
phân tách thành ba thuật ngữ, như sau
2007):
J (w N) - Jactual (fˆ *) = J (w N) - J (wˆ N) + J (wˆ N) -J (wˆ *) + J (wˆ *) - Jactual (fˆ *)

(4.171)
¯˚˚˚˚˘˚˚˚˚˙ ¯˚˚˚˘˚˚˚˙ ¯˚˚˚˚˘˚˚˚˚˙ ¯˚˚˚˚˘˚˚˚˚˙
Lỗi dư thừa Lỗi tối ưu hóa Lỗi ước tính Sai số ước lượng
Hai thuật ngữ cuối cùng, cấu thành lỗi xấp xỉ và ước lượng, thường gặp đối với các bài
toán học quy mô nhỏ và quy mô lớn. Nó là thuật ngữ đầu tiên trong Eq. (4.171) phân biệt
các vấn đề học tập quy mô lớn với quy mô nhỏ. Thuật ngữ mới này, được gọi là lỗi tối ưu
hóa, rõ ràng là có liên quan đến lỗi tính toán.
Việc tính toán giới hạn trên sai số xấp xỉ, được mô tả trong Hình 4.29, được hiểu
một cách hợp lý (về mặt lý thuyết VC) đối với các lỗi học tập quy mô nhỏ. Thật không may,
các hằng số liên quan đến công thức cho giới hạn này khá tệ khi công thức được áp dụng cho
các bài toán học quy mô lớn. (4.171) xét về tỷ lệ hội tụ hơn là giới hạn.
Yêu cầu là giảm thiểu tổng của ba số hạng trong Phương trình (4.171) bằng cách điều
chỉnh các biến có sẵn:
• số lượng ví dụ, N; • kích
thước cho phép K của các chức năng mạng gần đúng, FK; • lỗi tính toán
,mà không còn là số không.
Thực hiện phân tích việc giảm thiểu này là cực kỳ khó, do thời gian đặt com thực tế T phụ
thuộc vào cả ba biến N, F và. Để minh họa hậu quả của sự phụ thuộc này, giả sử chúng ta
gán một giá trị nhỏ cho sai số để giảm lỗi tối ưu hóa. Thật không may, để nhận ra sự giảm
thiểu này, chúng ta cũng phải tăng N, F hoặc cả hai, bất kỳ điều nào trong số đó sẽ có tác
dụng không mong muốn đối với sai số ước lượng và ước lượng gần đúng.
Tuy nhiên, trong một số trường hợp, có thể tính số mũ mà ba sai số có xu hướng giảm
khi giảm và cả F và N đều tăng.
Tương tự, có thể xác định số mũ liên quan đến thời gian tính toán T tăng khi giảm và cả F
và N đều tăng. Kết hợp những phần này lại với nhau, chúng ta có các yếu tố cho một giải
pháp gần đúng để đánh đổi trong việc giải quyết vấn đề quy mô lớn
Thuật toán tối ưu hóa tốt (siêu tuyến tính),
nhật ký &
cho và giảm nhanh hơn exp (T)
Thuật toán tối ưu hóa trung bình (tuyến

tính), cho & giảm như exp (T)
Thiết lập cho
tốt nhất &
Thuật toán tối ưu hóa kém, cho

và giảm như 1 / T
nhật ký T
& gian tính toán T đối với

HÌNH 4.30 Các biến thể của sai số tính toán so với thời
ba lớp của thuật toán tối ưu hóa: xấu, tầm thường và tốt. (Hình này được tái tạo
với sự cho phép của Tiến sĩ Leon Bottou.)
vấn đề học tập. Quan trọng nhất, trong phân tích cuối cùng, sự đánh đổi phụ thuộc vào
sự lựa chọn của thuật toán tối ưu hóa.
Hình 4.30 minh họa cách một biểu đồ của log & so với log T bị ảnh hưởng bởi loại
thuật toán tối ưu hóa được sử dụng để giải quyết một vấn đề học tập quy mô lớn. Ba loại
thuật toán tối ưu hóa được xác định trong hình này — cụ thể là kém, tầm thường và
tốt — các ví dụ tương ứng bao gồm giảm độ dốc ngẫu nhiên (tức là trực tuyến
học tập), giảm độ dốc (ví dụ: học theo lô) và giảm độ dốc bậc hai
(ví dụ: thuật toán tối ưu hóa gần như Newton của loại BFGS hoặc phần mở rộng của nó). Bảng 4.4
tóm tắt các đặc điểm phân biệt của ba loại tối ưu hóa này
các thuật toán.
BẢNG 4.4 Tóm tắt các đặc điểm thống kê của ba thuật toán tối ưu hóa *
Thuật toán Chi phí mỗi Thời gian để
lần lặp lại tiếp cận &
1. Giảm độ O (m) b
Oa 1&
dốc ngẫu nhiên
(học trực tuyến)
1
2. dốc xuống O (Nm) b
Oa nhật ký &
(học theo lô)
1
3. Bậc hai O (m (m N)) bb
Oa ghi nhật ký &
xuống dốc
(học trực tuyến)
m : thứ nguyên của vectơ đầu vào x

N : số lượng ví dụ được sử dụng trong đào tạo
& : lỗi tính toán
* Bảng này được tổng hợp từ Bottou (2007).

4.20 Tóm tắt và thảo luận 217
Thông điệp cần tiếp thu từ tài liệu được trình bày trong phần này về người được giám sát
việc học bây giờ có thể được tóm tắt như sau:
Trong khi việc nghiên cứu các vấn đề học tập ở quy mô nhỏ đã phát triển tốt thì việc nghiên cứu các
vấn đề học tập quy mô lớn đang ở giai đoạn phát triển ban đầu.
Thuật toán lan truyền ngược đã tự khẳng định mình là một thuật toán hiệu quả và hữu ích về
mặt tính toán để đào tạo các perceptron nhiều lớp. Thuật toán lấy tên của nó từ thực tế là
các đạo hàm riêng của hàm chi phí (thước đo hiệu suất) đối với các tham số tự do (trọng số và
độ chệch khớp thần kinh) của công việc thuần được xác định bằng cách truyền ngược các tín
hiệu lỗi (được tính bởi kết quả đầu ra tế bào thần kinh) thông qua mạng, từng lớp. Khi làm
như vậy, thuật toán giải quyết vấn đề phân bổ tín dụng theo cách thanh lịch nhất. Sức mạnh
tính toán của thuật toán nằm ở hai thuộc tính chính của nó:
• phương pháp cục bộ , để cập nhật trọng số và độ chệch của khớp thần kinh của đa lớp
perceptron;
• phương pháp hiệu quả , để tính toán tất cả các đạo hàm riêng của hàm chi phí liên quan
đến các tham số miễn phí này.
Phương pháp đào tạo theo lô và ngẫu nhiên
Đối với một kỷ nguyên dữ liệu huấn luyện nhất định, thuật toán lan truyền ngược hoạt động ở
một trong hai chế độ: ngẫu nhiên hoặc theo lô. Trong chế độ ngẫu nhiên, trọng số khớp thần
kinh của tất cả các neuron trong mạng được điều chỉnh theo cách tuần tự, từng mẫu. Do đó, ước
tính vectơ gradient của bề mặt lỗi được sử dụng trong tính toán là ngẫu nhiên về bản chất -
do đó có tên là “học truyền ngược ngẫu nhiên”. Mặt khác, trong chế độ hàng loạt, các điều
chỉnh đối với tất cả các trọng số và độ lệch khớp thần kinh được thực hiện trên cơ sở từng kỷ
nguyên, với kết quả là ước tính chính xác hơn về vectơ gradient được sử dụng trong tính toán.
Bất chấp những nhược điểm của nó, dạng ngẫu nhiên của việc học truyền ngược được sử dụng
thường xuyên nhất để đào tạo các perceptron nhiều lớp, đặc biệt là cho các bài toán quy mô
lớn. Tuy nhiên, để đạt được kết quả tốt nhất, cần phải điều chỉnh thuật toán cẩn thận.
Phân loại mẫu và lọc phi tuyến
Các chi tiết cụ thể liên quan đến việc thiết kế perceptron nhiều lớp đương nhiên phụ thuộc
vào ứng dụng quan tâm. Tuy nhiên, chúng tôi có thể phân biệt hai điểm:
1. Trong phân loại mẫu liên quan đến các mẫu có thể phân tách phi tuyến, tất cả các
nơron trong mạng là phi tuyến. Tính phi tuyến đạt được bằng cách sử dụng một hàm sigmoid, hai
dạng thường được sử dụng là (a) hàm logistic và (b) hàm tiếp tuyến hyperbol. Mỗi tế bào thần
kinh chịu trách nhiệm tạo ra một siêu phẳng của
riêng của nó trong không gian quyết định. Thông qua quá trình học tập có giám sát, sự kết
hợp của các siêu mặt phẳng được tạo thành bởi tất cả các nơ-ron trong mạng được điều chỉnh
lặp đi lặp lại để tách các mẫu được vẽ ra từ các lớp khác nhau và chưa từng thấy trước đây,
với trung bình là ít lỗi phân loại nhất. Đối với phân loại mẫu, thuật toán lan truyền ngược
ngẫu nhiên được sử dụng rộng rãi để thực hiện đào tạo, đặc biệt đối với các bài toán quy mô
lớn (ví dụ: nhận dạng ký tự quang học).
2. Trong lọc phi tuyến, dải động ở đầu ra của đa lớp trên mỗi ceptron phải đủ lớn để
đáp ứng các giá trị của quá trình; Trong bối cảnh này, việc sử dụng các nơ-ron đầu ra tuyến
tính là lựa chọn hợp lý nhất. Đối với thuật toán học, chúng tôi đưa ra các nhận xét sau:
• Học trực tuyến chậm hơn nhiều so với học theo lô. • Giả
sử rằng học theo lô là lựa chọn mong muốn, thuật toán lan truyền ngược tiêu chuẩn sẽ chậm
hơn thuật toán gradient liên hợp.
Phương pháp lọc phi tuyến, được thảo luận trong chương này, tập trung vào việc sử dụng mạng
tĩnh, được ví dụ bởi perceptron nhiều lớp; tín hiệu đầu vào được áp dụng cho perceptron
nhiều lớp thông qua cấu trúc bộ nhớ ngắn hạn (ví dụ: đường trễ đã nhấn hoặc bộ lọc gamma)
cung cấp thời gian, đây là một thứ nguyên thiết yếu của bộ lọc. Trong Chương 15, chúng ta
xem lại thiết kế của bộ lọc phi tuyến mà phản hồi được áp dụng cho perceptron nhiều lớp,
biến nó thành một mạng nơ-ron tuần hoàn.
Vấn đề học tập quy mô nhỏ so với quy mô lớn
Nói chung, có ba loại lỗi có thể phát sinh trong quá trình nghiên cứu các vấn đề về học máy:
1. Lỗi gần đúng, đề cập đến lỗi phát sinh trong quá trình đào tạo
mạng nơron hoặc máy học, đã cho một mẫu huấn luyện có kích thước hữu hạn N.
2. Lỗi ước tính, đề cập đến lỗi phát sinh khi quá trình đào tạo của máy được hoàn
thành và hiệu suất của nó được kiểm tra bằng cách sử dụng dữ liệu chưa từng thấy trước đây;
trong thực tế, sai số ước lượng là một cách khác để chỉ sai số tổng quát hóa.
3. Lỗi tối ưu hóa, sự hiện diện của lỗi này được cho là do độ chính xác của com
đưa vào đào tạo máy trong một số thời gian tính toán quy định T.
Trong các vấn đề học tập quy mô nhỏ, chúng tôi nhận thấy rằng giới hạn ngân sách hoạt động
là quy mô của mẫu đào tạo, điều này ngụ ý rằng sai số tối ưu hóa thường bằng 0 trong thực
tế. vấn đề học tập. Mặt khác, trong các vấn đề học tập quy mô lớn, giới hạn ngân sách chủ
động là thời gian tính toán có sẵn, T, với kết quả là lỗi tối ưu hóa tự đóng vai trò quan
trọng. Nói cách khác, độ chính xác tính toán của quá trình học tập và do đó lỗi tối ưu hóa
đều bị ảnh hưởng mạnh bởi loại thuật toán tối ưu hóa được sử dụng để giải quyết vấn đề học
tập.
1. Hàm Sigmoid là đồ thị hình chữ “S”; Mennon và cộng sự. (1996) trình bày một nghiên cứu chi tiết về
hai lớp sigmoid:
• sigmoid đơn giản, được xác định là kỳ quặc, có giới hạn tiệm cận và hoàn toàn đơn điệu
hàm của một biến;
• sigmoid hyperbolic, đại diện cho một tập hợp con thích hợp của các sigmoid đơn giản và một gen tự nhiên
tổng quát của hàm tiếp tuyến hypebol.
2. Đối với trường hợp đặc biệt của thuật toán LMS, người ta đã chỉ ra rằng việc sử dụng động lượng làm
giảm phạm vi ổn định của tham số tốc độ học và do đó có thể dẫn đến không ổn định nếu không được điều
chỉnh một cách thích hợp. Hơn nữa, sự điều chỉnh sai tăng lên khi
tăng ; để biết thêm chi tiết, xem Roy và Shynk (1990).
3. Một vectơ w * được cho là cực tiểu cục bộ của một hàm đầu vào - đầu ra F nếu nó không tệ hơn
hơn các nước láng giềng của nó — nghĩa là, nếu tồn tại một thứ như vậy
F (w *) F (w) cho tất cả w với 7 w - w * 7 6
(Bertsekas, 1995). Vectơ w * được cho là cực tiểu tổng thể của hàm F nếu nó không
tệ hơn tất cả các vectơ khác — nghĩa là,
N
F (w *) F (w) cho tất cả w
với n là thứ nguyên của w.
4. Mô tả tài liệu đầu tiên về việc sử dụng lan truyền ngược cho hiệu quả gradient eval uation được quy cho
Werbos (1974). Vật liệu được trình bày trong Phần 4.8 tuân theo
điều trị được đưa ra trong Saarinen et al. (1992); một cuộc thảo luận chung hơn về chủ đề được trình bày
bởi Werbos (1990).
5. Battiti (1992) trình bày một đánh giá về các thuật toán chính xác và gần đúng để tính toán
Hessian, với tham chiếu cụ thể đến mạng nơ-ron.
6. Müller và cộng sự. (1998) đã nghiên cứu ứng dụng của thuật toán học trực tuyến ủ
của Eq. (4.77) đối với một bài toán tách nguồn mù không cố định, minh họa rộng
khả năng ứng dụng thuật toán của điều khiển thích ứng tỷ lệ học tập do Murata (1998).
vấn đề tách nguồn mù được thảo luận trong Chương 10.
7. Công thức của Eq. (4.80) tuân theo một phần tương ứng của thuật toán học trên dòng được ủ tối ưu do
Sompolinski et al. (1995) đề cập đến sự thích ứng của
tham số tốc độ học. Các hạn chế thực tế của thuật toán này bao gồm sự cần thiết phải tính toán
Hessian ở mỗi lần lặp lại và sự cần thiết phải biết sự mất mát tối thiểu của đường cong học tập.
8. Định lý xấp xỉ phổ quát có thể được xem như một phần mở rộng tự nhiên của
Định lý Weierstrass (Weierstrass, 1885; Kline, 1972). Định lý này phát biểu
Bất kỳ hàm liên tục nào trong một khoảng đóng trên trục thực đều có thể được biểu thị bằng
khoảng là một chuỗi đa thức hội tụ đồng nhất và tuyệt đối.
Mối quan tâm nghiên cứu về các đặc tính của các perceptron nhiều lớp như là thiết bị để gửi đại
diện của các chức năng liên tục tùy ý có lẽ lần đầu tiên được Hecht Nielsen (1987) chú trọng, người đã
đưa ra một phiên bản cải tiến của chồng chất Kolomogorov.
định lý do Sprecher (1965). Sau đó, Gallant và White (1988) đã chỉ ra rằng một perceptron nhiều lớp ẩn
duy nhất với đơn điệu "cosine" nhấp nháy ở ẩn
lớp và không nhấp nháy ở đầu ra hoạt động giống như một trường hợp đặc biệt của “mạng Fourier”
mang lại giá trị xấp xỉ chuỗi Fourier cho một hàm đã cho làm đầu ra của nó. Tuy nhiên,
trong bối cảnh của các perceptron nhiều lớp truyền thống, lần đầu tiên Cybenko đã chứng
minh một cách chặt chẽ rằng một lớp ẩn duy nhất đủ để xấp xỉ đồng đều bất kỳ hàm liên
tục nào với sự hỗ trợ trong một siêu khối đơn vị; công trình này đã được xuất bản dưới
dạng Báo cáo kỹ thuật thống nhất của Illinois vào năm 1988 và được tái bản thành bài báo
một năm sau đó (Cybenko, 1988, 1989). Năm 1989, hai bài báo khác đã được xuất bản độc
lập về perceptron nhiều lớp dưới dạng xấp xỉ phổ quát, một bài của Funahashi (1989) và
bài báo kia của Hornik et al. (1990). Để có những đóng góp tiếp theo cho bài toán xấp
xỉ, hãy xem Light (1992b).
9. Lịch sử phát triển của xác thực chéo được ghi lại trong Stone (1974). Ý tưởng về xác
thực chéo đã xuất hiện ít nhất từ những năm 1930, nhưng việc cải tiến kỹ thuật nique
đã được thực hiện trong những năm 1960 và 1970. các bài báo từ thời đại đó là của
Stone (1974) và Geisser (1975), những người đã đưa ra ý tưởng xác thực chéo một cách
độc lập và gần như đồng thời. Kỹ thuật này được Stone gọi là “phương pháp xác nhận
chéo” và “phương pháp tái sử dụng mẫu dự đoán” của Geisser.
10. Hecht-Nielsen (1995) giải mã một mạng nơ-ron nhân bản dưới dạng đa lớp trên mỗi
ceptron với lớp đầu vào là các nút nguồn, ba lớp ẩn và lớp đầu ra: • Các chức năng
kích hoạt của tế bào thần kinh trong lớp ẩn thứ nhất và thứ ba được xác định bởi hàm
tiếp tuyến hypebol
(1) (v) = (3) (v) = tanh (v)
trong đó v là trường cục bộ cảm ứng của một nơ-ron trong các lớp đó.
• Chức năng kích hoạt cho mỗi nơ-ron trong lớp ẩn thứ hai được cung cấp bởi
2 N-1 j
1 (2) (v) = + một
2 2 (N - 1) tanh a a a v - N bb
j = 1
trong đó a là tham số khuếch đại và v là cục bộ cảm ứng của nơ-ron trong lớp đó.
do đó về cơ
Hàm
bản
(2)
đó
lượng
(v)
n làmô
tửsốtả
hóa
nơmột
vectơ
ronhàm
ở của
lớp
kíchcác
ẩnhoạt
giữa.
đầucầu
ra• thang
nơ
Cácron
tếtrơn
tương
bào tru
thần
ứng
với
kinh
thành
N bậc
trong
K thang
Nn lớp
trong
,
đầu ra là tuyến tính, với các chức năng kích hoạt của chúng được xác định bởi ,
(4) (v) = v
• Dựa trên cấu trúc mạng nơ-ron này, Hecht-Nielsen mô tả một định lý cho thấy rằng có
thể thực hiện nén dữ liệu tối ưu cho vectơ dữ liệu đầu vào tùy ý.
11. Tài liệu tham khảo cổ điển cho phương pháp gradient liên hợp là Hestenes và Stiefel (1952).
Để thảo luận về hành vi hội tụ của thuật toán gradient liên hợp, xem Luenberger (1984) và
Bertsekas (1995). Để biết hướng dẫn xử lý nhiều khía cạnh của thuật toán gradient liên hợp,
hãy xem Shewchuk (1994). Để có tài khoản có thể đọc được của thuật toán trong văn bản lừa
đảo của mạng nơ-ron, hãy xem Johansson và cộng sự. (1990).
12. Dạng thông thường của thuật toán gradient liên hợp yêu cầu sử dụng tìm kiếm theo dòng,
có thể tốn thời gian vì tính chất thử-và-sai của nó. Møller (1993) mô tả một phiên bản
sửa đổi của thuật toán gradient liên hợp được gọi là thuật toán gradient liên hợp theo
tỷ lệ, thuật toán này tránh sử dụng tìm kiếm theo dòng. Về cơ bản, tìm kiếm theo dòng
được thay thế bằng một dạng thuật toán Levenberg – Marquardt một chiều. Động lực để sử
dụng các phương pháp này là để tránh khó khăn do ma trận Hessian xác định không phụ
thuộc gây ra (Fletcher, 1987).
Vấn đề 221
13. Cái gọi là kỹ thuật r, do Pearlmutter (1994), cung cấp một quy trình hiệu quả để tính toán tích
véc tơ ma trận; như vậy, kỹ thuật này có thể được sử dụng thực tế trong việc đặt Hessian H1
nghịch đảo trong Eq. (4.138). Kỹ thuật r được giải quyết trong Vấn đề 4.6.
14. Khái niệm về tế bào “đơn giản” và “phức tạp” của Hubel và Wiesel lần đầu tiên được Fukushima
(1980, 1995) khai thác trong tài liệu về mạng nơ-ron trong việc thiết kế một máy học gọi là
neocognitron . theo cách tự tổ chức, trong khi mạng tích tụ được mô tả trong Hình 4.23 hoạt động
theo cách được giám sát bằng cách sử dụng các ví dụ được dán nhãn.
15. Về nguồn gốc của định lý ánh xạ cận thị phổ quát, xem Sandberg (1991).
16. Để biết chi tiết về thứ nguyên VC và các ràng buộc liên quan đến rủi ro thực nghiệm, hãy xem cuốn
sách cổ điển về lý thuyết thống kê học của Vapnik (1998). Kích thước VC cũng được thảo luận trong
các cuốn sách của Scho..lkopf và Smola (2002) và Herbrich (2002). chương tiếp theo, chương 5.
CÁC VẤN ĐỀ
Học truyền ngược lại 4.1 Hình
P4.1 cho thấy một mạng nơ-ron liên quan đến một nơ-ron ẩn duy nhất để giải quyết vấn đề XOR; mạng này có
thể được xem như một sự thay thế cho mạng được xem xét trong Phần 4.5. Chứng tỏ rằng mạng của Hình.
P4.1 giải quyết vấn đề XOR bằng cách tính (a) các vùng quyết định và (b) một bảng chân trị cho mạng.
4.2 Sử dụng thuật toán lan truyền ngược để tính toán một tập hợp các trọng số khớp thần kinh và mức độ
chệch cho một mạng nơron có cấu trúc như trong Hình 4.8 để giải quyết vấn đề XOR. Giả sử việc sử
dụng một hàm logistic cho tính phi tuyến.
4.3 Hằng số xung lượng thường được gán giá trị dương trong khoảng 0 1.
Điều tra sự khác biệt sẽ được thực hiện trong hành vi của Eq. (4.43) đối với thời gian t nếu được
gán giá trị âm trong phạm vi -1 0.
4.4 Hãy xem xét ví dụ đơn giản về một mạng bao gồm một trọng số duy nhất, mà chi phí của nó là
tion là
e (w) = k1 (w - w0) 2 + k2
trong đó,
để k1
giảm
và thiểu.
k2 là các
e (w)
hằng số. Một thuật toán lan truyền ngược với động lượng được sử dụng w0
2
1
1,5 0,5
1
HÌNH P4.1
Khám phá cách thức mà việc bao gồm hằng số xung lượng ảnh hưởng đến quá trình học tập,
với tham chiếu cụ thể đến số bước cần thiết để hội tụ
đấu với .
4.5 Các phương trình (4.51) đến (4.53) xác định các đạo hàm riêng của hàm xấp xỉ F (w, x) được
thực hiện bởi perceptron đa lớp trong Hình 4.14. Suy ra các phương trình này từ phương
trình nario được mô tả bởi các điều kiện sau: (a) Hàm chi phí:
1 e (n) = [d - F (w, x)] 2

2
(b) Đầu ra của nơron j:
yj
= aai wji yi b
ở đâu là(c)
trọng
Tínhsốphi
củatuyến
khớp tính:
thần kinh từ nơron i đến nơron j, và yi là đầu ra của nơron i; wji
1 (v) = 1 + exp
(-v)
4.6 Kỹ thuật r , được phát triển bởi Pearlmutter (1994), cung cấp một quy trình nhanh về mặt
tính toán để đánh giá tích ma trận-vectơ. Để minh họa quy trình này, hãy xem xét một
perceptron nhiều lớp với một lớp ẩn duy nhất; các phương trình lan truyền thuận của mạng
vj = ai wjixi
= (vj) zj
yk = a wkjzj
j
r [.] biểu thị một toán tử tác động lên số lượng được đặt bên trong dấu ngoặc để tạo ra các kết quả
sau cho mạng ví dụ: r [vj] = a ajixi ,
r [wji] = aji
tôi
0
r [vj] = ¿(vj) r [vj], ¿(Vj) = (vj)
0vj
r [yk] = a r [wkj] = akj

wkjr
j [zj] + ai ajizj,
Các kết quả r sẽ được xem như là các biến mới . Trên thực tế, toán tử r [.] Tuân theo các
quy tắc đơn giản của phép tính cộng với điều kiện
r [wj] = aj
trong đótoán
vectơ
tử trọng
r. số được kết nối với nút j và aj là vectơ liên kết kết quả wj từ ứng dụng của
Vấn đề 223
(a) Áp dụng kỹ thuật r vào thuật toán lan truyền ngược, suy ra biểu thức cho các phần tử
của tích vectơ ma trận Ha, xác định các biến mới cho các nơron ẩn và đầu ra, ma trận
H là Hessian. Đối với ứng dụng này, hãy sử dụng perceptron nhiều lớp được mô tả ở phần
đầu của vấn đề. (b) Biện minh cho tuyên bố rằng kỹ thuật r là nhanh về mặt tính toán.
Các vấn đề học tập có giám sát
4.7 Trong bài toán này, chúng tôi nghiên cứu biểu diễn đầu ra và quy tắc quyết định được thực hiện
bởi một perceptron nhiều lớp. Về lý thuyết, đối với một bài toán phân loại lớp M trong đó sự kết
hợp của M lớp riêng biệt tạo thành toàn bộ không gian đầu vào, chúng ta cần tổng số đầu ra của M
để đại diện cho tất cả các quyết định phân loại vị trí, như được mô tả trong Hình. P4.7. Trong
hình này, vectơ xj biểu thị nguyên mẫu thứ j (tức là mẫu duy nhất) của vectơ ngẫu nhiên m chiều x
được phân loại bởi perceptron nhiều lớp . Thứ k trong số M lớp khả dĩ mà x có thể thuộc được ký hiệu là ck.
Gọi ykj là đầu ra thứ k của mạng được tạo ra để đáp ứng với xj nguyên mẫu , như được hiển thị
bằng
ykj = Fk (xj), k = 1, 2, ..., M
trong đó hàm Fk (·) xác định ánh xạ được học bởi mạng từ đầu vào đến đầu ra thứ k. Để thuận
tiện cho việc trình bày, hãy
T
yj == [F1
[y1j,
(xj),
y2j,F2..., yMj]
(xj), ..., FM (xj)] T = F (xj)
trong đó F (.) là một hàm có giá trị vectơ. Câu hỏi cơ bản mà chúng tôi muốn giải quyết trong bài
toán này như sau:
Sau khi huấn luyện perceptron nhiều lớp, quy tắc quyết định tối ưu để phân loại đầu
ra M của mạng là gì?
Để giải quyết vấn đề này, hãy xem xét việc sử dụng perceptron nhiều lớp thể hiện một chức
năng logistic cho các nơ-ron ẩn của nó và hoạt động theo các giả định sau:
• Kích thước của mẫu đào tạo đủ lớn để tạo ra một ước tính chính xác hợp lý
bạn đời của xác suất phân loại đúng.
• Thuật toán lan truyền ngược được sử dụng để đào tạo perceptron đa lớp không bị mắc kẹt
ở mức tối thiểu cục bộ.
Cụ thể, phát triển các lập luận toán học cho thuộc tính mà đầu ra M của perceptron đa lớp
cung cấp các ước tính về xác suất của lớp posteriori.
4.8 Trong vấn đề này, chúng tôi xem xét lại kiểm soát thích ứng của tốc độ học tập được thảo
luận trong Phần 4.10. Vấn đề quan tâm là chứng minh rằng hành vi tiệm cận của learning (n)
trong
tăng
phương
đến vô
trình.
cùng.
(4,85) không hội tụ về 0 khi số tham số tốc độ lặp
HÌNH P4.7 Sơ đồ khối của bộ phân

y1,
loại mẫu cho Bài toán 4.7. Perceptron

j y2, j
•
xj nhiều lớp •
w •
yM, j
(a) Gọi - r (n) biểu thị kỳ vọng của vectơ phụ r (n) đối với ví dụ {x, d}. Chứng tỏ rằng nếu công cụ ước lượng
wˆ*, thì chúng ta có thể viết - (n) + K * (wˆ (n) - w - (n + 1) L
(n) ở gần với công cụ ước lượng tối ưu w
(1 -) r - (n))
wˆvà là một tham số dương nhỏ. (b) Trong Heskas

trong đó w¯ (n) là giá trị trung bình của bộ ước lượng (n)
wˆmột vectơ ngẫu nhiên có phân phối
và Kappen (1991), chỉ ra rằng công cụ ước lượng (n) được xấp xỉ chặt chẽ bởi
Gauss. Do đó, hãy biện minh cho hành vi tiệm cận sau: wˆ (n) Z w (n)
limnS
q
Điều kiện này dạy chúng ta điều gì về hành vi tiệm cận của tham số tốc độ học (n)?
4.9 Thành phần của tiêu chí độ dài mô tả tối thiểu (MDL) được mô tả như sau
(xem Công thức (2.37)):
MDL = (Thuật ngữ lỗi) + (Thuật ngữ phức tạp)
Thảo luận về cách phương pháp phân rã theo trọng số được sử dụng để lược bớt mạng phù hợp với chủ nghĩa hình thức MDL.
4.10 Trong thuật toán tối ưu-tổn hại não (OBD) để cắt tỉa mạng, do LeCun et al. (1990b), Hessian H được tính gần đúng
bằng phiên bản đường chéo của nó. Sử dụng phép gần đúng này, suy ra quy trình OBD như một trường hợp đặc biệt
của thuật toán tối ưu-phẫu thuật viên não (OBS), được nghiên cứu trong Phần 4.14.
4.11 Trong Jacobs (1988), các phương pháp heuristics sau đây được đề xuất để đẩy nhanh sự hội tụ của việc học truyền
ngược trực tuyến: (i) Mọi tham số mạng có thể điều chỉnh của hàm chi phí phải có cách học riêng của nó
tham số tỷ lệ.
(ii) Mọi tham số tốc độ học phải được phép thay đổi từ lần lặp này sang lần lặp tiếp theo. (iii) Khi đạo hàm
của hàm chi phí liên quan đến trọng số synap có cùng dấu đại số trong nhiều lần lặp liên tiếp của thuật toán,
thì phải tăng đồng hồ para tốc độ học cho trọng số cụ thể đó. (iv) Khi dấu đại số của hàm chi phí liên
quan đến trọng số khớp thần kinh cụ thể thay thế cho một số lần lặp lại liên tiếp của thuật toán, thì
tham số tốc độ học tập ter cho trọng số đó phải được giảm xuống.
Bốn heuristics này thỏa mãn hạn chế cục bộ của thuật toán lan truyền ngược. (a) Sử dụng các lập luận
trực quan để biện minh cho bốn phương pháp heuristics này. (b) Việc đưa xung lượng vào bản cập nhật
trọng số của thuật toán lan truyền ngược có thể được xem như một cơ chế để thỏa mãn các kinh nghiệm (iii) và
(iv). Chứng minh tính hợp lệ của tuyên bố này.
Phương pháp tối ưu hóa bậc hai 4.12 Việc sử dụng
thuật ngữ xung lượng trong cập nhật trọng số được mô tả trong Phương trình. (4.41) có thể được coi là một phép gần
đúng với phương pháp gradient liên hợp (Battiti, 1992). Thảo luận về ý nghĩa hợp lệ của tuyên bố này.
4.13 Bắt đầu với công thức cho (n) trong phương trình. (4.127), suy ra công thức Hesteness-
Stiefel, r T (n) (r (n) - r (n - 1)) (n) = s T (n -

1) r (n - 1)
trong đó s (n) là vectơ chỉ phương và r (n) là phần dư trong phương pháp gradient liên hợp.
Sử dụng kết quả này để suy ra công thức Polak – Ribière của phương trình (4.128) và công thức Fletcher –
Reeves của phương trình. (4.129).

Vấn đề 225
Xử lý tạm thời
4.14 Hình P4.14 minh họa việc sử dụng cửa sổ thời gian hình Gauss làm phương pháp xử lý
theo nhịp độ, được thúc đẩy bởi các cân nhắc sinh học thần kinh (Bodenhausen và
Waibel, 1991). Cửa sổ thời gian liên kết với khớp thần kinh i của nơron j được ký hiệu là (n, ji, ji),
đâu là số và
jiđo độ jitrễ thời gian và chiều rộng của các cửa sổ tương ứng như được hiển thị
qua
1 1
(n, ji, ji) , i = 1, 2, ..., m0
= 22 exp a - 2 2
(n - ji) 2 b
ji
ji
Do đó, đầu ra của nơron j được định nghĩa là
m0
yj (n) = a a i = 1
wjiui (n) b
trong đó ui (n) là tích chập của đầu vào xi (n) và cửa sổ thời gian (n, ji, ji). Yêu
cầu ment là trọng số và
W Ji
thời gian trễ ji của khớp thần kinh i thuộc nơron j đều là
học theo cách có giám sát.
Quá trình học tập này có thể được thực hiện bằng cách sử dụng truyền ngược tiêu chuẩn
thuật toán. Chứng minh quá trình học tập này bằng cách suy ra các phương trình cập nhật cho và ,wji
ji, ji.
Thí nghiệm máy tính

4.15 Điều tra việc sử dụng phương pháp học truyền ngược sử dụng tính phi tuyến đáng kể để
đạt được ánh xạ 1-1, như được mô tả ở đây:
1
1. f (x) = , 1 x 100
x
2. f (x) = log10x, 1 x 10
3. f (x) = exp (-x), 1 x 10
4. f (x) = sin x, 0 x
2
Đầu vào
x1 (n)
Di chuyển cửa sổ này
Qua bên trái
Σ
Đầu vào Đầu ra của nơron j
x2 (n) vj (n)
•
•
•
Đầu vào
Làm điều này
xm (n)
cửa sổ
rộng hơn
Thời gian n
HÌNH P4.14 Hình cho Bài toán 4.14; các hướng dẫn được thêm vào
đến các cửa sổ Gaussian là nhằm vào thuật toán học.

Đối với mỗi ánh xạ, hãy thực hiện như sau:
(a) Thiết lập hai bộ dữ liệu, một bộ để đào tạo mạng và bộ còn lại để thử nghiệm.
(b) Sử dụng tập dữ liệu huấn luyện để tính toán trọng số khớp thần kinh của mạng, được giả định là
có một lớp ẩn duy nhất.
(c) Đánh giá độ chính xác tính toán của mạng bằng cách sử dụng dữ liệu thử nghiệm.
Sử dụng một lớp ẩn duy nhất, nhưng với số lượng nơ-ron ẩn có thể thay đổi. Điều tra cách
hiệu suất mạng bị ảnh hưởng do thay đổi kích thước của lớp ẩn.
4.16 Lặp lại thí nghiệm máy tính của Phần 4.7 cho bộ phân loại MLP, trong đó khoảng cách
giữa hai mặt trăng được đặt ở d 0. Nhận xét về những phát hiện trong thí nghiệm của bạn trong ánh sáng
của thí nghiệm tương ứng được thực hiện trên perceptron trong Bài toán 1.6 cho cùng một
cài đặt.
4.17 Trong thử nghiệm máy tính này, chúng tôi xem xét một thử nghiệm phân loại theo mẫu mà
Về mặt lý thuyết, ranh giới quyết định được biết đến. Mục tiêu chính của thử nghiệm là để xem
cách thiết kế của perceptron nhiều lớp có thể được tối ưu hóa bằng thực nghiệm trong mối quan hệ
đến ranh giới quyết định tối ưu.
Cụ thể, yêu cầu là phải phân biệt giữa hai lớp tương đương của các mẫu phân phối
Gaussian hai chiều “chồng chéo”, được gắn nhãn c1 và c2.
các hàm mật độ xác suất của hai lớp là
1 1
Lớp c1: pXc1 (xc1) = 2 2 2 7 x - 1 7
1 exp a - 2 1 2 b
ở đâu
T
1 = vectơ trung bình = [0, 0]
2
1 = phương sai = 1
1 1
Lớp c2: pXc2 (xc2) = 2 2 7 x - 2 7
2 2 exp a - 2 2 2 b
ở đâu
T
2 = [2, 0]
2
2 = 4
(a) Ranh giới quyết định Bayes tối ưu được xác định bằng thử nghiệm tỷ lệ khả năng
c1
¶ (x) '
c2
ở đâu
px c1 (x @ c1)
¶ (x) =
px @ c2 (x @ c2)
và là ngưỡng được xác định bởi xác suất trước của hai lớp. Trình diễn
rằng ranh giới quyết định tối ưu là một vòng tròn có tâm nằm ở
xc
= c -2 3
0 ngày
và bán kính r 2,34.

Vấn đề 227
(b) Giả sử sử dụng một lớp ẩn duy nhất, yêu cầu là thực nghiệm xác định số lượng tế bào
thần kinh ẩn tối ưu. • Bắt đầu với perceptron nhiều lớp với hai nơron ẩn và sử dụng
thuật toán lan truyền ngược với tham số tốc độ học 0,1 và động lượng con
stant 0 để huấn luyện mạng, tính xác suất phân loại đúng cho
các tình huống sau:
Cỡ mẫu đào tạo Số kỷ nguyên
500 320
2.000 80
8.000 20
• Lặp lại thí nghiệm, lần này sử dụng bốn tế bào thần kinh ẩn, với mọi thứ khác vẫn
giữ nguyên như trước. So sánh kết quả của thí nghiệm thứ hai này với kết quả của
thí nghiệm trước và từ đó chọn cấu hình mạng với hai hoặc bốn nơ-ron ẩn mà bạn cho
là lựa chọn tối ưu. (c) Đối với lựa chọn mạng “tối ưu” được thực hiện trong phần
(b), bây giờ chúng ta chuyển sang thực nghiệm tìm các giá trị tối ưu của tham số tốc độ
học và hằng số động lượng.
[0,01, 0,1, 0,5]
[0,0, 0,1, 0,5]
Do đó, hãy xác định các giá trị của và giá trị đó mang lại xác suất phân loại chính
xác cao nhất.
(d) Đã xác định được kích thước tối ưu của lớp ẩn và tập hợp tối ưu của và ,
thực hiện một thử nghiệm cuối cùng để tìm ranh giới quyết định tối ưu và xác suất
tương ứng của việc phân loại đúng. So sánh hiệu suất tối ưu thu được bằng thực nghiệm
với hiệu suất tối ưu lý thuyết và nhận xét về kết quả của bạn.
4.18 Trong bài toán này, chúng tôi sử dụng thuật toán lan truyền ngược tiêu chuẩn để giải một
bài toán dự đoán phi tuyến tính khó và so sánh hiệu suất của nó với thuật toán LMS.
Chuỗi thời gian được xem xét được tạo bằng cách sử dụng mô hình Volterra rời rạc có dạng
gijv (n - i) v (n - j) + p
x (n) = ai gi v (n - i) + ai a j
trắng, độc lập, ,trong

P
là cácđó
hệgi
số, Volterra;
gij, phân vbố;
(n)và
làx các
(n) mẫu của quả
là kết một đầu
chuỗi
ra nhiễu Gaussian
của mô hình Volterra.
Thuật ngữ tổng kết đầu tiên là mô hình chuỗi thời gian trung bình động (MA) quen thuộc,
và các thuật ngữ tổng kết còn lại là các thành phần phi tuyến của thứ tự ngày càng tăng.
Nhìn chung, việc ước lượng các hệ số Volterra được coi là khó, chủ yếu là do mối quan hệ
phi tuyến của chúng với dữ liệu.
Chúng tôi xem xét ví dụ đơn giản
x (n) = (n) + (n - 1) (n - 2)
Chuỗi thời gian có giá trị trung bình bằng 0, không tương quan và do đó có quang phổ trắng. Dù sao đi
nữa, các mẫu chuỗi thời gian không độc lập với nhau, và do đó có thể xây dựng một công cụ dự đoán bậc
cao hơn. Phương sai của đầu ra mô hình được cho bởi
2 = 2 + 2 4
x
phương sai 2tiếng ồn trắng ở đâu.
(a) Xây dựng perceptron nhiều lớp với lớp đầu vào gồm sáu nút, lớp ẩn là 16
nơron và một nơron đầu ra duy nhất. Bộ nhớ dòng trễ chạm được sử dụng để cung cấp đầu vào
lớp của mạng. Các tế bào thần kinh ẩn sử dụng các chức năng kích hoạt sigmoid giới hạn ở
khoảng [0, 1], trong khi nơ-ron đầu ra hoạt động như một bộ kết hợp tuyến tính. Mạng là
được đào tạo với thuật toán lan truyền ngược tiêu chuẩn có mô tả sau:
Tham số tốc độ học tập 0,001

Động lượng không đổi 0,6
Tổng số mẫu đã xử lý 100.000

Số lượng mẫu mỗi kỷ nguyên 1.000
Tổng số kỷ nguyên 2.500
2
Phương sai tiếng ồn trắng được đặt bằng thống nhất. Do đó, với phương 0,5, chúng tôi thấy rằng
2
sai đầu ra của bộ dự đoán là 1,25. x
Tính toán đường cong học tập của công cụ dự đoán phi tuyến, với phương sai của
đầu ra dự đoán x (n) được vẽ dưới dạng hàm của số kỷ nguyên của các mẫu huấn luyện
lên đến 2.500 kỷ nguyên. Để chuẩn bị cho mỗi kỷ nguyên được sử dụng để thực hiện đào tạo,
khám phá hai chế độ sau:
(i) Thứ tự thời gian của mẫu đào tạo được duy trì từ một kỷ nguyên đến
tiếp theo ở dạng chính xác giống như nó được tạo.
(ii) Thứ tự của mẫu đào tạo được ngẫu nhiên hóa từ mẫu (trạng thái) này sang mẫu (trạng thái) khác.
Ngoài ra, hãy sử dụng xác thực chéo (được mô tả trong Phần 4.13) với bộ xác nhận gồm 1.000 sam
ples để theo dõi hành vi học tập của bộ dự đoán.
(b) Lặp lại thử nghiệm, sử dụng thuật toán LMS được thiết kế để thực hiện dự đoán tuyến tính trên đầu
vào của sáu mẫu.
đến 10-5 .
2 2 5.
(c) Lặp lại toàn bộ thử nghiệm cho 1, Kết quả của 2, và sau đó cho 2,
mỗi thử nghiệm sẽ tiết lộ rằng ban đầu là thuật toán lan truyền ngược
và thuật toán LMS về cơ bản theo một đường dẫn tương tự, và sau đó là sự lan truyền ngược
thuật toán tiếp tục cải thiện, cuối cùng tạo ra một phương sai dự đoán gần với
2.
giá trị quy định là x
4,19 Trong thí nghiệm này, chúng tôi sử dụng một perceptron nhiều lớp được huấn luyện với thuật toán truyền
ngược để thực hiện dự đoán một bước trên chất thu hút Lorenz. Động lực học của ngọn lửa hấp dẫn này
được xác định bởi ba phương trình:
dx (t)
= - x (t) + y (t)
dt
dy (t)
= -x (t) z (t) + rx (t) - y (t)
dt
dz (t)
= x (t) y (t) - bz (t)
dt
Vấn đề 229
ở đâu , r và b là các tham số không thứ nguyên. Các giá trị điển hình cho các tham số
này là 10,vàb.r Các
28. thông số kỹ thuật của perceptron nhiều lớp như sau:
8
3 ,
Số nút nguồn: 20
Số lượng tế bào thần kinh ẩn: 200
Số lượng nơron đầu ra: 1 Các
thông số cụ thể của tập dữ liệu như sau: Mẫu
huấn luyện: 700 điểm dữ liệu Mẫu thử nghiệm: 800

điểm dữ liệu Số kỷ nguyên được sử dụng để huấn
luyện: 50 Các tham số của thuật toán lan truyền
ngược như sau: tham số -rate được ủ tuyến tính từ 10–1 xuống 10–5.
Động lượng: 0
(a) Tính toán đường cong học tập của MLP, vẽ biểu đồ sai số bình phương trung bình so với
số kỷ nguyên được sử dụng để thực hiện đào tạo. (b) Tính toán dự đoán một bước cho
chất thu hút Lorenz; cụ thể là vẽ biểu đồ kết quả thu được dưới dạng hàm số của thời gian
và so sánh dự đoán với sự phát triển của chất thu hút Lorenz.
CHƯƠNG 5
Phương thức hạt nhân và xuyên tâm

Mạng chức năng cơ sở
Trong chương này, chúng ta nghiên cứu một cách tiếp cận khác đối với học máy: một phương
pháp hạt nhân dựa trên phân cụm. Sau phần tài liệu giới thiệu được trình bày trong Phần
5.1, phần còn lại của chương được sắp xếp như sau: 1. Phần 5.2 đề cập đến định lý Cover
về khả năng phân tách của các mẫu.

được minh họa bằng cách xem lại vấn đề XOR.
2. Phần 5.3 thảo luận về giải pháp của bài toán nội suy sử dụng các hàm cơ sở
xuyên tâm, tạo tiền đề cho việc xây dựng các công trình mạng hàm cơ sở hướng
tâm (RBF) trong Phần 5.4; Phần sau này cũng bao gồm những cân nhắc thực tế
về việc kết nối mạng RBF.
3. Thuật toán K-mean, được thảo luận trong Phần 5.5, cung cấp một thuật toán phân
cụm đơn giản nhưng mang tính phổ biến cao, rất thích hợp để đào tạo lớp ẩn theo
cách không được giám sát. Phần 5.6 tiếp theo về thuật toán phân cụm K-mean để
mô tả việc triển khai đệ quy ước lượng bình phương nhỏ nhất (được thảo luận
trong Chương 2) để đào tạo lớp đầu ra của mạng RBF theo cách có giám sát.
Phần 5.7 đề cập đến những cân nhắc thực tế liên quan đến quy trình hai giai đoạn này
để thiết kế mạng RBF. Quy trình này được minh họa trong thí nghiệm máy tính được
trình bày trong Phần 5.8, nơi so sánh được thực hiện với kết quả của cùng một thí
nghiệm máy tính được thực hiện trong Chương 4 bằng cách sử dụng mặt sau thuật toán lan truyền.
4. Phần 5.9 kiểm tra các diễn giải của các đơn vị ẩn Gaussian, tiếp theo là Phần 5.10
về mối quan hệ giữa hồi quy hạt nhân trong thống kê và mạng RBF.
5.1 GIỚI THIỆU
Việc huấn luyện có giám sát của mạng nơron có thể được tiếp cận theo nhiều cách khác nhau .
Trong chương này, chúng tôi thực hiện một cách tiếp cận hoàn toàn khác. Cụ thể, chúng tôi giải
quyết vấn đề phân loại các mẫu có thể phân tách phi tuyến tính bằng cách tiến hành theo phương thức kết
hợp, bao gồm hai giai đoạn:
230
Phần 5.2 Định lý của Bìa về khả năng tách rời của các mẫu 231
• Giai đoạn đầu tiên chuyển một tập hợp các mẫu có thể phân tách phi tuyến tính nhất định thành một
đặt trong đó, trong những điều kiện nhất định, khả năng xảy ra các mẫu được chuyển đổi
trở nên phân tách tuyến tính là cao; sự biện minh toán học của sự hình thành trans này được
bắt nguồn từ một bài báo ban đầu của Cover (1965).
• Giai đoạn thứ hai hoàn thành giải pháp cho vấn đề phân loại theo quy định
bằng cách sử dụng ước lượng bình phương nhỏ nhất đã được thảo luận trong Chương 2.
Thông qua một cuộc thảo luận về vấn đề nội suy, trước tiên chúng tôi mô tả một đề cập đến
của phương pháp kết hợp này để phân loại mẫu bằng cách sử dụng một hàm cơ sở xuyên tâm
1
mạng tion (RBF), cấu trúc chỉ bao gồm ba lớp:
• Lớp đầu vào được tạo thành từ các nút nguồn (đơn vị cảm giác) kết nối công việc ròng với môi
trường của nó.
• Lớp thứ hai, bao gồm các đơn vị ẩn, áp dụng một phép biến đổi phi tuyến
từ không gian đầu vào đến không gian ẩn (tính năng). Đối với hầu hết các ứng dụng,
số chiều của lớp ẩn duy nhất của mạng là cao; lớp này được đào tạo
theo cách không được giám sát bằng cách sử dụng giai đoạn 1 của quy trình học lai.
• Lớp đầu ra là tuyến tính, được thiết kế để cung cấp phản hồi của mạng cho
mẫu kích hoạt được áp dụng cho lớp đầu vào; lớp này được đào tạo trong một
cách sử dụng giai đoạn 2 của quy trình lai.
Sự biến đổi phi tuyến từ không gian đầu vào sang không gian ẩn và cao
số chiều của không gian ẩn thỏa mãn hai điều kiện duy nhất của định lý Cover.
Phần lớn lý thuyết được phát triển trên mạng RBF được xây dựng dựa trên hàm Gaussian,
một thành viên quan trọng của lớp các hàm cơ sở xuyên tâm. Hàm Gaussian có thể
cũng được xem như một hạt nhân — do đó, việc chỉ định thủ tục hai giai đoạn dựa trên
hàm Gaussian như một phương thức hạt nhân.
Nói về hạt nhân, trong phần sau của chương, chúng ta cũng thảo luận về mối quan hệ
vận chuyển giữa hồi quy hạt nhân trong thống kê và mạng hàm cơ sở xuyên tâm.
5.2 LÝ THUYẾT CỦA BÌA VỀ TÍNH RIÊNG CỦA CÁC MẪU
Khi mạng hàm cơ sở xuyên tâm (RBF) được sử dụng để thực hiện nhiệm vụ phân loại mẫu phức tạp ,
vấn đề về cơ bản được giải quyết bằng cách chuyển nó thành không gian chiều cao theo cách phi
tuyến tính và sau đó tách các lớp trong đầu ra.
lớp. Sự biện minh cơ bản được tìm thấy trong định lý Cover về khả năng phân tách của
các mẫu, về mặt định tính, có thể được phát biểu như sau (Bìa, 1965):
Một bài toán phân loại mẫu phức tạp, được truyền trong không gian chiều cao một cách phi tuyến tính,
có nhiều khả năng được phân tách tuyến tính hơn là trong không gian chiều thấp, với điều kiện là
không gian không đông dân cư.
Từ công việc chúng tôi đã thực hiện trên cấu trúc một lớp trong Chương 1 đến Chương 3, chúng tôi biết rằng
một khi chúng ta có các mẫu có thể phân tách tuyến tính, bài toán phân loại rất dễ giải quyết.
Do đó, chúng tôi có thể phát triển nhiều hiểu biết sâu sắc về hoạt động của công việc ròng RBF
như một bộ phân loại mẫu bằng cách nghiên cứu vấn đề quan trọng về khả năng phân tách của các mẫu.
232 Chương 5 Các phương thức hạt nhân và mạng hàm cơ sở hướng tâm
Hãy xem xét một họ các bề mặt trong đó mỗi bề mặt tự nhiên chia không gian đầu vào
x
thành hai vùng, hãy biểu thị một bộ N mẫu (vectơ) x1, x2, ..., xN, mỗi mẫu được gán x1
cho
các điểm được cho là có một
thể x2
trong
phân hai
tách lớpđối
được và.với
sự họ
phân
bề đôi
mặt (phân hoạch
nếu một nhị tồn
bề mặt phân) của
tại
trong họ mà x1 phân tách các điểm trong lớp với các điểm trong lớp x. Đối với mỗi mẫu x
hàm có giá trị thực { i (x) | i 1,x,2,hãy xácm1},
..., địnhnhư
mộtđược
vectơ 2
được
hiển thịtạo
bênthành
dưới từ tập hợp các
(x) = [1 (x), 2 (x), p , m1 (x)] T (5,1)
Giả sử rằng mẫu x là một vectơ trong không gian đầu vào m0 chiều. Véc tơ (x) sau
đó ánh xạ các điểm trong không gian đầu vào m0 chiều thành các điểm tương ứng
phát một không gian mô phỏng vai trò
trong
củai thứ
(x) nguyên
mới dưới
m1.dạng
Tương
mộtứng,
hàm không
ẩn, vìgian
nó bao
trùm bởi tập các hàm ẩn { i (x)} m1
i = 1 được gọi là không gian tính năng.
nếu tồn tại một
{x1,
vectơ
x2} m1
1965):
x Một
chiềuphép
w sao
phâncho
đôichúng
được ta
chocólàthể
có viết
thể phân
như sau
tách(Cover,
được
wT (x) 7 0, x x1 x
(5.2)
wT (x) 6 0, x2
Siêu phẳng được xác định bởi phương trình
wT (x) = 0
mô tả bề mặt ngăn cách trong -space (tức là không gian đặc trưng). Hình ảnh nghịch đảo
của siêu phẳng này, nghĩa là,
x: wT (x) = 0 (5,3)
xác định bề mặt phân cách (tức là ranh giới quyết định) trong không gian đầu vào.
Hãy xem xét một lớp ánh xạ tự nhiên thu được bằng cách sử dụng tổ hợp tuyến tính
của tích bậc r của tọa độ vectơ mẫu . Một loạt hợp lý của thứ tự r trong không gian
có kích thước m0 được mô tả bởi một phương trình thuần nhất bậc r trong tọa độ của
vectơ đầu vào x, như được hiển thị bằng
= 0
một ai1i2pir xi1 xi2 p xir 0 (5,4)
i1 i2 p ir m0
trong đó xi là thành phần thứ i của vectơ đầu vào x và x0 được đặt bằng thống nhất để
biểu diễn phương trình ở dạng thuần nhất. Tích bậc r của các mục xi của x — nghĩa là
—được gọi là một đơn thức. Đối với không gian đầu vào có số chiều m0, xi1 xi2 p xir có
m0!
(m0 - r)! r!
các đơn thức trong phương trình (5.4). Ví dụ về loại bề mặt phân cách được mô tả bởi
phương trình (5.4) là siêu mặt phẳng (giống hữu tỉ bậc nhất), tứ phân (phương án hữu tỉ
bậc hai) và hyperspheres (tứ phân với các ràng buộc tuyến tính nhất định trên các hệ số).
Các ví dụ này được minh họa trong Hình 5.1 cho cấu hình năm điểm trong không gian đầu
vào hai chiều. Nói chung, khả năng phân tách tuyến tính ngụ ý khả năng phân tách hình cầu,
ngụ ý khả năng phân tách phần tư; tuy nhiên, các cuộc trò chuyện không nhất thiết phải đúng.
Trong một thử nghiệm xác suất, khả năng phân tách của một tập hợp các mẫu trở
thành một sự kiện chạy dom phụ thuộc vào sự phân đôi được chọn và sự phân bố của các mẫu
trong không gian đầu vào. Giả sử rằng các mẫu kích hoạt x1, x2, ..., xN được chọn
không xác định, theo một phép đo xác suất áp dụng cho không gian đầu vào. Cũng giả sử
N
rằng tất cả các phép phân đôi có thể có của x = {xi } là tương đương. Gọi P (N, m1 ) biểu thị
i = 1
xác suất mà một phép phân đôi cụ thể được chọn ngẫu nhiên có thể phân tách được, trong đó
lớp bề mặt phân cách được chọn có bậc tự do m1 . Bìa sau (1965),
sau đó chúng tôi có thể nói rằng
m1-1
cho N 7 m1 - 1
•
(21-N) a
P (N, m1) = a N m- b1 (5.5)
m = 0
1 cho N m1 - 1
trong đó các hệ số nhị thức bao gồm N -1 và m được xác định cho tất cả
số nguyên l và m bằng
l!
m b =
một l (l - m)! m!
Để giải thích bằng đồ thị của Eq. (5.5), tốt nhất là chuẩn hóa phương trình bằng cách
đặt N m1 và vẽ biểu đồ xác suất P ( m1, m1) so với các giá trị khác nhau của
m1 Cốt truyện này tiết lộ hai đặc điểm thú vị (Nilsson, 1965):
• hiệu ứng ngưỡng rõ rệt xung quanh 2;
• giá trị P (2m1, m1) 1/2 cho mỗi giá trị của m1.
Phương trình (5.5) thể hiện bản chất của định lý khả năng phân tách của Cover đối với dấu hiệu ngẫu nhiên
2
con nhạn biển.
Nó là một tuyên bố về thực tế rằng phân phối nhị thức tích lũy tương ứng
với xác suất (N - 1) lật một đồng xu công bằng sẽ dẫn đến (m1 - 1) hoặc ít đầu hơn.
HÌNH 5.1 Ba ví dụ về sự phân đôi-

không thể tách rời của
các bộ năm điểm khác nhau trong
(một) hai chiều: (a) tuyến tính
sự phân đôi tách biệt;
(b) có thể phân tách theo hình cầu
sự phân đôi; (c) bằng bốn lần

sự phân đôi tách biệt.
(b)
(c)
Mặc dù các bề mặt đơn vị ẩn được hình dung trong dẫn xuất của Eq. (5.5) có dạng đa
thức và do đó khác với các dạng thường được sử dụng trong mạng hàm cơ sở xuyên tâm, nội dung
cơ bản của phương trình có tính ứng dụng chung.
Cụ thể, chúng ta đặt kích thước m1 của không gian ẩn càng cao thì xác suất P (N, m1) sẽ càng
gần với sự thống nhất. Tóm lại, định lý Cover về khả năng phân tách của các mẫu bao gồm hai
thành phần cơ bản:
1. công thức phi tuyến của hàm ẩn xác định bởi i (x), với x là vectơ đầu vào 1, 2, ...,
và tôi m1; 2. số chiều cao của không gian ẩn (đặc trưng) so với không gian đầu vào,
trong đó chiều của không gian ẩn được xác định bởi giá trị được gán cho m1 (tức là số
lượng đơn vị ẩn).
Nói chung, như đã nêu trước đây, một bài toán phân loại mẫu phức tạp được đưa ra trong không
gian chiều cao một cách phi tuyến tính có nhiều khả năng được phân tách tuyến tính hơn là
trong không gian chiều thấp. Tuy nhiên, chúng tôi nhấn mạnh rằng trong một số trường hợp,
việc sử dụng ánh xạ phi tuyến (ví dụ, điểm 1) có thể đủ để tạo ra khả năng phân tách tuyến
tính mà không cần phải tăng số chiều của không gian đơn vị ẩn, như được minh họa trong ví dụ
sau.
VÍ DỤ 1 Bài toán XOR
Để minh họa tầm quan trọng của ý tưởng về khả năng phân tách của các mẫu, hãy xem xét bài
toán XOR đơn giản nhưng quan trọng. Trong bài toán XOR, có bốn điểm (mẫu) - (1, 1), (0, 1),
(0, 0) và (1, 0) —trong không gian đầu vào hai chiều, như được mô tả trong Hình 5.2a. Yêu
cầu là xây dựng một bộ phân loại mẫu tạo ra đầu ra nhị phân 0 để đáp ứng với đầu vào pat tern
(1, 1) hoặc (0, 0) và đầu ra nhị phân 1 để đáp ứng với mẫu đầu vào (0, 1) hoặc (1, 0) Do đó,
các điểm gần nhất trong không gian đầu vào, xét về khoảng cách Hamming, ánh xạ tới các vùng
cách xa nhau tối đa trong không gian đầu ra. Khoảng cách Hamming của một chuỗi được xác định
là số lần thay đổi từ ký hiệu 1 đến ký hiệu 0 và ngược lại, được tìm thấy trong một chuỗi nhị phân.
Do đó, khoảng cách Hamming của cả 11 và 00 là 0, trong khi khoảng cách Hamming của cả 01 và 10 là một.
Xác định một cặp hàm ẩn Gaussian như sau:
2 T
1 (x) = exp (- 7 x - t1 7 ), t1 = [1, 1]
2 T
2 (x) = exp (- 7 x - t2 7 ), t2 = [0, 0]
Sau đó, chúng tôi có thể xây dựng các kết quả được tóm tắt trong Bảng 5.1 cho bốn mẫu đầu vào khác
nhau được quan tâm. Các mẫu đầu vào được ánh xạ lên mặt phẳng ( 1, 2) như trong Hình 5.2b. Ở đây, bây
giờ chúng ta thấy rằng các mẫu đầu vào (0, 1) và (1, 0) có thể phân tách tuyến tính với các mẫu đầu
vào còn lại (1, 1) và (0, 0). Sau đó, vấn đề XOR có thể được giải quyết dễ dàng bằng cách sử dụng hàm
func 1 (x) và 2 (x) làm đầu vào cho bộ phân loại tuyến tính chẳng hạn như perceptron. ■
Trong ví dụ này, không có sự gia tăng về số chiều của không gian ẩn so với không gian
đầu vào. Nói cách khác, tính phi tuyến được thể hiện bằng cách sử dụng các hàm ẩn Gaussian
là đủ để biến bài toán XOR thành một bài toán có thể phân tách tuyến tính.
(0, 1) (1, 1) HÌNH 5.2 (a) Bốn mẫu của

vấn đề XOR; (b) ra quyết định
biểu đồ.
(0, 0) (1, 0)
(một)
1,0 (0, 0)
0,8
Quyết định
0,6
w2 ranh giới
0,4
(0, 1)
0,2 (1, 0)
(1, 1)
0 0,2 0,4 0,6 0,8 1,0 1,2
w1
(b)
BẢNG 5.1 Đặc điểm kỹ thuật của các chức năng ẩn cho XOR
Vấn đề của ví dụ 1
Mẫu đầu vào Hàm ẩn đầu tiên 1 (x) Hàm ẩn thứ hai 2 (x)
x
(1,1) 0,1353
(0,1) 1 0,3678
(0,0) 0,3678 1
(1,0) 0,1353 0,3678 0,3678
Khả năng phân tách của một bề mặt
Phương trình (5.5) có ý nghĩa quan trọng về số lượng tối đa dự kiến của các mẫu
đã được gán sẵn có thể phân tách tuyến tính trong một không gian đa chiều. Đến
khám phá vấn đề này, đặt x1, x2, ..., xN là một chuỗi các mẫu ngẫu nhiên (vectơ) như đã
mô tả trước đây. Gọi N là một biến ngẫu nhiên được xác định là số nguyên lớn nhất sao cho
dãy có thể phân tách được, trong đó có m1 bậc tự do. Sau đó, từ Eq. (5.5), chúng tôi
suy ra rằng xác suất mà N n được cho bởi
Prob (N = n) = P (n, m1) - P (n + 1, m1)

(5,6)
n = 0, 1, 2, p
= a 12 b n m1
a n- -1 1b ,
236 Chương 5 Các phương thức hạt nhân và mạng chức năng cơ sở hướng tâm
Để có cách giải thích kết quả này, hãy nhớ lại định nghĩa của phép phân tích
nhị thức âm. Phân phối này bằng xác suất k lần thất bại trước lần thành công thứ r
trong một chuỗi dài các thử nghiệm Bernoulli lặp lại . Trong một thử nghiệm xác
suất như vậy, chỉ có hai kết quả có thể xảy ra cho mỗi thử nghiệm — thành công hoặc
thất bại — và mối quan hệ xác suất của chúng vẫn như nhau trong suốt thử nghiệm.
Gọi p và q biểu thị xác suất thành công và thất bại tương ứng với pq 1. Phân phối
nhị thức âm được xác định như sau (Feller, 1968):
f (k; r, p) = pr qk a r + k
k - 1 b
Đối với trường hợp đặc biệt của

1 2 pq (nghĩa là thành công và thất bại là tương
đương) và kr n, phân phối nhị thức âm giảm xuống
1
n = 0, 1, 2, p
f a k; n - k, 2 b = a 1 2 b n a n1 -k b ,
Với định nghĩa này, bây giờ chúng ta thấy rằng kết quả được mô tả trong Eq. (5.6) chỉ
là phân phối nhị thức nega tive, được dịch chuyển bởi m1 đơn vị sang phải, và với các
1
2 tham số m1 và. Do đó, N tương ứng với "thời gian chờ" cho lỗi thứ m1 trong một chuỗi tung
của một đồng xu công bằng. Kỳ vọng của biến ngẫu nhiên N và giá trị trung bình của nó lần lượt là
[N] = 2m1 (5,7)
và
trung vị [N] = 2m1 (5,8)
Do đó, chúng ta có một hệ quả đối với định lý Cover dưới dạng một kết quả
tiệm cận nổi tiếng có thể được phát biểu như sau (Cover, 1965):
Số lượng tối đa dự kiến các mẫu (vectơ) được gán ngẫu nhiên có thể phân tách tuyến tính
trong không gian có kích thước m1 bằng 2m1.
Kết quả này gợi ý rằng 2m1 là định nghĩa tự nhiên về khả năng phân tách của một họ bề
mặt quyết định có bậc tự do m1 . Theo nghĩa lỏng lẻo, có thể lập luận rằng khả năng phân
tách của Cover có liên quan đến chiều VC, đã được thảo luận trước đây trong Chương 4.
5.3 VẤN ĐỀ TƯƠNG LAI
Điểm quan trọng xuất hiện từ định lý Cover về khả năng phân tách của các mẫu là trong việc
giải quyết một vấn đề phân loại mẫu có thể phân tách phi tuyến tính, thường có lợi ích thực
tế thu được bằng cách ánh xạ không gian đầu vào thành một không gian mới có kích thước đủ
cao. Về cơ bản, ánh xạ phi tuyến được sử dụng để biến đổi một bài toán phân loại có thể phân
tách phi tuyến thành một bài toán phân loại có thể phân tách tuyến tính với xác suất cao.
Theo cách tương tự, chúng ta có thể sử dụng ánh xạ phi tuyến để biến đổi một bài toán lọc
phi tuyến khó thành một bài toán dễ hơn có liên quan đến lọc tuyến tính.
Sau đó, hãy xem xét một mạng chuyển tiếp với một lớp đầu vào, một lớp ẩn duy nhất
và một lớp đầu ra bao gồm một đơn vị duy nhất. Chúng tôi đã cố ý chọn một đơn vị đầu
ra duy nhất để đơn giản hóa việc trình bày mà không làm mất đi tính tổng quát. Mạng
được thiết kế để thực hiện ánh xạ phi tuyến từ không gian đầu vào đến không gian ẩn,
tiếp theo là ánh xạ tuyến tính từ không gian ẩn sang không gian đầu ra. Gọi mo là thứ nguyên
Phần 5.3 Bài toán nội suy 237
của không gian đầu vào. Sau đó, về tổng thể, mạng biểu thị một bản đồ từ
không gian đầu vào một chiều thành không gian đầu ra một chiều, được viết dưới dạng
S: m0 S 1
(5,9)
( m0
Chúng ta có thể nghĩ về bản đồ s như một siêu bề mặt (đồ thị), + 1giống như chúng ta nghĩ
cũng
1 S
S: một 1 2
về bản đồ sơ cấp như parabol,trong
được đó
vẽ strong
(x) x2 ,của gian.
không đầu raMặt
nhưsur
mộtlàhàm
mộtcủa
biểu
đầuđồvào.
đa chiều
Trong
một thực tế
tình hình, bề mặt không xác định và dữ liệu đào tạo thường bị nhiễm
Giai đoạn đào tạo và giai đoạn tổng quát của quá trình học tập có thể được xem xét một
cách cẩn thận như sau (Broomhead và Lowe, 1988):
• Giai đoạn đào tạo tạo thành việc tối ưu hóa quy trình phù hợp cho bề mặt dựa
trên các
, điểm dữ liệu đã biết được trình bày cho mạng dưới dạng
ví dụ đầu vào - đầu ra (mẫu).
• Giai đoạn tổng quát hóa đồng nghĩa với việc nội suy giữa các điểm dữ liệu,
với phép nội suy được thực hiện dọc theo bề mặt hạn chế được tạo ra
bằng quy trình lắp như là sự gần đúng tối ưu với bề mặt thật.
Do đó, chúng ta được dẫn đến lý thuyết nội suy đa biến trong không gian chiều cao,
có lịch sử lâu đời (Davis, 1963). Bài toán nội suy, theo nghĩa chặt chẽ của nó , có thể
được nêu như sau:
Cho tập N điểm khác nhau {xi {di H m0 i = 1, 2, ..., N} và một tập N tương ứng
số thực , tìm 1i N S 1
một
= hàm F: ...,
1, 2, điều N}
kiện lation: điều đó thỏa mãn khoảng thời gian
F (x i ) = di , i = 1, 2, ..., N (5.10)
Đối với nội suy nghiêm ngặt như được chỉ định ở đây, bề mặt nội suy (tức là, hàm F) là
bị ràng buộc để đi qua tất cả các điểm dữ liệu đào tạo.
Kỹ thuật radial-basic-functions (RBF) bao gồm việc chọn một hàm F mà
có hình thức
N
F (x) = a wi (@ @x - xi @ @) (5.11)
i = 1
đâu là tập hợp

{(@ @x N @tùy
- xi @) ý
@ i(thường
= 1, 2, là
...,phi
N} tuyến tính) func 7 7 tions, được gọi là các hàm
thường là Euclide cơ sở xuyên tâm và biểu thị một chuẩn
(Powell, 1988). Các điểm dữ liệu đã biết mO, i = 1, 2, ..., N được coi là trung tâm
xi của các hàm cơ sở bán kính.
Chèn các điều kiện nội suy của Eq. (5.10) thành phương trình (5.11), chúng tôi thu được một tập hợp
của các phương trình tuyến tính đồng thời cho các hệ số (trọng số) chưa biết của lũy thừa
{wi } được cho bởi
11 12 giờ 1N w1 d1
21 w2 = d2
≥ ¥ ≥ ¥ ≥ ¥
22 giờ 2 giờ
(5.12)
ooo o o o
N1 N2 p NN wN dN
ở đâu
= (@ @xj - xj @ @), i, j = 1, 2, ...,

N
ij
Để cho
T
d = [d1, d2, ..., dN]
w T
= [w1, w2, ..., wN]
N-x-1 vectơ d và w đại diện cho vectơ phản hồi mong muốn và vectơ trọng số tuyến tính,
tương ứng, trong đó N là kích thước của mẫu đào tạo. Hãy biểu thị một ma trận N-x-N
với các phần tử ij:
N
= { ij} i, j = 1 (5,14)
Chúng ta gọi ma trận này là ma trận nội suy, sau đó chúng ta có thể viết lại phương trình. (5.12) trong hình thức
hiệp ước hợp tác
w = x (5,15)
-1
Giả sử điều đó là không cần chú ý, và do đó ma trận nghịch đảo có thể tiếp tồn tại, chúng tôi
tục giải được phương trình. (5.15) đối với vectơ trọng lượng w, thu được
w = -1 x
(5,16)
Câu hỏi quan trọng là: Làm thế nào chúng ta có thể chắc chắn rằng ma trận nội suy là không thông số?
Nó chỉ ra rằng đối với một lớp lớn các hàm cơ sở bán kính và trong những điều kiện nhất định,
câu trả lời cho câu hỏi cơ bản này được đưa ra trong một định lý quan trọng được thảo luận tiếp theo.
Định lý Micchelli
Trong Micchelli (1986), định lý sau được chứng minh:
m0
Để cho
{xi } N i = 1 là tập hợp các điểm phân biệt trong. Khi đó phần tử thứ ij-thứ của ma trận , của ai
nội suy N-by-N là nonsingular.

ij = (7 xi - xj7 ) ,
Có một lớp lớn các hàm cơ sở bán kính được bao hàm bởi định lý Micchelli; nó
bao gồm các chức năng sau được quan tâm đặc biệt trong nghiên cứu mạng RBF:
1. Đa số:
(r) = (r2 + c2 ) 1 2 cho một số c 7 0 và r (5,17)
2. Đa số nghịch đảo:
1
(r) = cho một số c 7 0 và r (5,18)
(r2 + c2 ) 1 2
3. Các hàm Gaussian:
r2
(5,19)
(r) = exp a - 2 2 b cho một số 7 0 và r
Đa số và đa số nghịch đảo đều là do Hardy (1971).

Phần 5.4 Mạng bán kính-cơ sở-chức năng 239
Đối với các hàm cơ sở bán kính được liệt kê trong Eqs. (5.17) đến (5.19) để không cần chú ý,
N
đối với {xi
điểm nonsin
} i = 1 tất cả
củaphải
ma trận
khác nội
nhausuy
(tức
bấtlàkểkhác
giá biệt).
trị củaĐây
kích
là thước
tất cảN những
của các
gì điểm
được dữ
yêuliệu
cầu
,
hoặc mo chiều của các vectơ (điểm) xi xảy ra.
Đa số nghịch đảo của Eq. (5.18) và các hàm Gaussian của Eq. (5,19)
chia sẻ một tài sản chung: Cả hai đều là các chức năng được bản địa hóa , theo nghĩa là (r) S 0
như r S q . Trong cả hai trường hợp này, ma trận nội suy là xác định dương. Qua
ngược lại, đa số của Eq. (5.17) là phi địa phương, trong đó ( r) trở nên không bị ràng buộc như
r S q , và ma trận nội suy tương ứng có N 1 giá trị riêng âm
và chỉ có một giá trị đặc trưng dương tính, với kết quả là nó không phải là giá trị dương xác
định (Mic chelli, 1986). Tuy nhiên, điều đáng chú ý là ma trận nội suy dựa trên
Hardy's multiquadrics là không cần chú ý và do đó thích hợp để sử dụng trong thiết kế của RBF
mạng lưới.
Điều đáng chú ý hơn nữa là các hàm cơ sở bán kính phát triển ở vô cùng,
chẳng hạn như đa số, có thể được sử dụng để ước tính ánh xạ đầu vào - đầu ra mượt mà với
độ chính xác cao hơn những gì mang lại ma trận nội suy xác định dương. Đây
kết quả đáng ngạc nhiên được thảo luận trong Powell (1988).
5.4 CÁC MẠNG CHỨC NĂNG-CƠ SỞ XẠ
Theo Eqs. (5.10) đến (5.16), bây giờ chúng ta có thể hình dung một hàm cơ sở bán kính (RBF)
mạng ở dạng cấu trúc phân lớp, như minh họa trong Hình 5.3; đặc biệt, chúng tôi có
Ba lớp:
1. Lớp đầu vào, bao gồm các nút nguồn mo , trong đó mo là kích thước của
vectơ đầu vào x.
2. Lớp ẩn, bao gồm cùng một số đơn vị tính toán với kích thước
của mẫu đào tạo, cụ thể là N; mỗi đơn vị được mô tả toán học bằng một hàm cơ sở
bán kính
j (x) = (7 x - xj7 ), j = 1, 2, ..., N
Điểm dữ liệu đầu vào thứ j xj xác định tâm của hàm cơ sở bán kính và
vectơ x là tín hiệu (mẫu) được áp dụng cho lớp đầu vào. Do đó, không giống như một lớp đa lớp.
perceptron, các liên kết kết nối các nút nguồn với các đơn vị ẩn là các liên kết
trực tiếp không có trọng số.
3. Lớp đầu ra , trong cấu trúc RBF của Hình.5.3, bao gồm một tính toán duy nhất
đơn vị. Rõ ràng, không có hạn chế về kích thước của lớp đầu ra, ngoại trừ việc nói rằng
thường kích thước của lớp đầu ra nhỏ hơn nhiều so với kích thước của lớp ẩn.
Do đó, chúng tôi tập trung vào việc sử dụng một hàm Gaussian làm hàm cơ sở bán
kính, trong trường hợp này, mỗi đơn vị tính toán trong lớp ẩn của mạng Hình 5.3
được định nghĩa bởi
j (x) = (x - xj)
1
2 j = 1, 2, ..., N (5,20)
= exp a - 2 @ @x - xj @ @ 2 b ,
j
w1
( ) tâm x1
x1
•
•
• w1
Vectơ
w2
đầu vào x2
•
w2
( ) tâm x2 • Σ Đầu ra
y F (x)
x •
•
• •
wN
•
•
• •
•
•
•
• •
xm0
wN
( ) tâm xN
Lớp đầu vào Lớp ẩn kích Lớp đầu ra có
có kích thước N kích thước một
thước m0 HÌNH 5.3 Cấu trúc của mạng RBF, dựa trên lý thuyết nội suy.
ở đâu
là jsố đo chiều rộng của hàm Gaussian thứ j với tâm xj . Về mặt thông thường, nhưng
không phải lúc nào, tất cả các đơn vị ẩn Gaussian đều được gán một chiều rộng chung.Trong
các trạng thái kiểu này, tham số phân biệt một đơn vị ẩn này với một đơn vị ẩn khác là tâm
xj . Lý do đằng sau việc lựa chọn hàm Gaussian làm hàm cơ sở xuyên tâm trong việc xây dựng
mạng RBF là nó có nhiều đặc tính mong muốn, điều này sẽ trở nên rõ ràng khi cuộc thảo luận
diễn ra.
Các sửa đổi thực tế đối với mạng RBF
Công thức của mạng RBF trong Hình 5.3 thông qua lý thuyết nội suy là khá gọn gàng. Tuy nhiên,
chúng tôi thấy rằng mẫu huấn luyện thường nhiễu, có thể trong
là trong
thựcbối
hồi
hành
cảnh
quy
{xi,
phân
phidituyến.
loại
} N imẫu
Thật
= 1hoặc
,
không may, việc sử dụng phép nội suy dựa trên dữ liệu nhiễu có thể dẫn đến kết quả sai lệch
- do đó cần có một cách tiếp cận khác để thiết kế mạng RBF.
Có một vấn đề thực tế khác cần chú ý: Có một lớp ẩn có cùng kích thước với lớp đầu vào
có thể gây lãng phí tài nguyên tính toán, đặc biệt là khi xử lý các mẫu huấn luyện lớn. Khi
lớp ẩn của mạng RBF được chỉ định theo cách được mô tả trong Eq. (5.20), chúng tôi thấy rằng
bất kỳ mối tương quan nào tồn tại giữa các điểm dữ liệu liền kề trong mẫu huấn luyện sẽ được
cấy ghép tương ứng vào các đơn vị liền kề trong lớp ẩn. Nói theo cách khác, có sự dư thừa
của các nơ-ron trong lớp ẩn khi chúng được chọn phù hợp với Eq. (5.20) bởi
Phần 5.4 Mạng bán kính-cơ sở-chức năng 241
đức tính dư thừa vốn có thể tồn tại trong mẫu đào tạo. Trong các tình huống kiểu này, do đó,
thực hành thiết kế tốt là làm cho kích thước của lớp ẩn bằng một phần nhỏ kích thước của mẫu
huấn luyện, như được minh họa trong Hình 5.4. Lưu ý rằng mặc dù các mạng RBF của Hình. 5.3 và
5.4 thực sự khác nhau, chúng có chung một điểm chung: Không giống như trường hợp đối với
perceptron nhiều lớp, việc huấn luyện mạng RBF không liên quan đến việc lan truyền ngược lại
các tín hiệu lỗi.
Hơn nữa, hàm xấp xỉ được thực hiện bởi cả hai hàm RBF này
tures có cùng một dạng toán học,
F (x) = a wj (x, xj) (5,21)

j = 1
trong đó chiều của vectơ đầu vào x (và do đó của lớp đầu vào) là m0 và mỗi đơn vị ẩn được đặc
trưng bởi hàm cơ sở xuyên tâm (x, xj ), trong đó j 1, 2, ..., K, với K nhỏ hơn N. Lớp đầu ra,
giả sử bao gồm một đơn vị sin gle, được đặc trưng bởi vectơ trọng lượng w, có chiều cũng là K.
Cấu trúc của Hình 5.3 khác với cấu trúc của Hình 5.4 ở hai khía cạnh:
1. Trong Hình 5.3, kích thước của lớp ẩn là N, trong đó N là kích thước của
tập huấn luyện, trong khi tập của Hình 5.4 là K N.
w1
( ) tâm x1
x1
••
• w1
Vectơ
w2
đầu vào
x2
•
w2
( ) tâm x2 • Σ Đầu ra
y F (x)
x
• •
• •
wK
•
• •
• •
•
•
xm0 ••
wK ( )
trung tâm xK
Lớp đầu vào có Lớp ẩn của kích Lớp đầu ra có
kích thước m0 thước KN kích thước một
HÌNH 5.4 Cấu trúc của mạng RBF thực tế. Lưu ý rằng mạng này có cấu trúc tương tự như trong Hình 5.3.
Tuy nhiên, hai mạng khác nhau ở chỗ kích thước của lớp ẩn trong Hình 5.4 nhỏ hơn trong Hình 5.3.
N
2. Giả sử rằng mẫu huấn luyện {xi , di } i = 1 là không ồn, thiết kế của lớp ẩn trong Hình 5.3 được
giải quyết đơn giản bằng cách sử dụng vectơ đầu vào xj để xác định tâm của hàm cơ sở xuyên tâm (x,
xj ) cho j 1, 2, ..., N. Mặt khác, để thiết kế lớp ẩn trong Hình 5.4, chúng ta phải đưa ra một
quy trình mới.
Tài liệu được đề cập trong phần tiếp theo giải quyết điểm sau này một cách thực tế
cho trường hợp khi các đơn vị ẩn sử dụng các hàm Gaussian.
5.5 ĐIỀU CHỈNH K-MEANS
Khi thiết kế mạng RBF của Hình 5.4, một vấn đề chính cần được giải quyết là làm thế nào để
tính toán các tham số của các đơn vị Gaussian cấu thành lớp ẩn bằng cách sử dụng dữ liệu
không được gắn nhãn . Nói cách khác, việc tính toán phải được thực hiện theo cách không
được kiểm tra. Trong phần này, chúng tôi mô tả một giải pháp cho vấn đề này bắt nguồn từ
việc phân cụm, theo đó chúng tôi muốn nói như sau:
Phân cụm là một hình thức học tập không giám sát, theo đó một tập hợp các quan sát (tức là
các điểm dữ liệu) được phân chia thành các nhóm tự nhiên hoặc các cụm mẫu theo cách sao cho
phép đo mức độ giống nhau giữa bất kỳ cặp quan sát nào được gán cho mỗi cụm sẽ giảm thiểu một
hàm chi phí cụ thể .
Có rất nhiều kỹ thuật phân cụm để lựa chọn, chúng tôi đã chọn tập trung vào cái gọi là thuật toán K-
3
mean, hình thức, hai tính năng đã làm chobởi vì nó
nó rất phổđơn giản
biến. {xiđể
} Nthực
i = hiện, nhưng
1 Hãy biểu hiệu
thị một quả trong
tập hợp cácmỗi
quan sát nhiều chiều sẽ được phân chia thành một tập đề xuất gồm K cụm, trong đó K nhỏ hơn số lượng quan
sát, N. Hãy cho mối quan hệ.
j = C (i), i = 1, 2, ..., N (5,22)
biểu thị bộ ánh xạ nhiều-một, được gọi là bộ mã hóa, chỉ định xi quan sát thứ i cho cụm thứ j theo một
quy tắc chưa được xác định. (Người đọc cảnh báo có thể thắc mắc tại sao chúng tôi lại chọn chỉ mục j để
tham chiếu đến một cụm khi lựa chọn hợp lý sẽ là k; lý do cho sự lựa chọn này là ký hiệu k được sử dụng
để chỉ một hàm nhân sẽ là được thảo luận ở phần sau của chương.) Để thực hiện mã hóa này, chúng ta cần
một số đo được ký hiệu là d ( xi , ) . , cả xi và được gán cho cùng một cụm; xi¿ nếu không, chúng được
,gán cho các cụm khác nhau.
xi¿
Để tối ưu hóa quy trình phân nhóm, chúng tôi giới thiệu hàm chi phí sau (Hastie và cộng sự, 2001):
1 K
J (C) = d (xi , một
xi¿ ) 2một
j = 1 một (5,23)
C (i) = j C (i¿) = j
Đối với một K quy định, yêu cầu là tìm bộ mã hóa C (i) j mà chi phí func tion J (C) được giảm thiểu.
Tại thời điểm này trong cuộc thảo luận, chúng tôi lưu ý rằng bộ mã hóa C chưa được biết - do đó sự phụ
thuộc hàm của hàm chi phí J vào C.

Phần 5.5 K-Means Clustering 243
Trong phân cụm K-mean, tiêu chuẩn Euclid bình phương được sử dụng để xác định độ
đo mức độ giống nhau giữa các quan sát xi và xi¿, như được hiển thị bởi
2
d (xi , xi¿ ) = 7 xi - xi¿ 7 (5,24)
Do đó, thay thế Eq. (5.24) thành phương trình (5.23), chúng tôi nhận được
1 K
2
J (C) = một một một 7 xi - xi 7 (5,25)
2
j = 1
C (i) = j C (i) = j
Bây giờ chúng tôi đưa ra hai điểm:
1. Khoảng cách Euclid bình phương giữa các quan sát xi và là đối xứng;
xi¿
đó là,
2 2
7 xi - xi¿ 7 = 7 xi¿ - xi 7
2. Tổng kết bên trong trong Eq. (5.25) đọc như sau: Đối với một giá
định,
trị
bộnhất
mã hóa
C xi¿ gán cho cụm j tất cả các quan sát
lệ,gần
tổng
nhất
cácvới
quan
xi sát
. Ngoại
được trừ
ấn định
hệ sốnhư
tỉ
vậy là ước tính của vec xi¿ tor trungđược
bìnhđềliên
cập quan
là 1 đến
/ Njcụm
, trong
j; hệ đó
số Nj
tỷ là
lệ
số điểm dữ liệu trong cụm j.
Do đó, do hai điểm này, chúng tôi có thể giảm Eq. (5.25) sang dạng đơn giản
K
2
J (C) = a một 7 xi - ˆj7 (5,26)
j = 1 C (i) = j
trong đóˆjbiểu thị vectơ trung bình “ước tính” được liên kết với cụm j.4 Trên thực tế, giá
ˆj bình có thể được xem là trung tâm của cụm j. Theo Eq. (5.26), bây giờ chúng ta
trị trung
có thể trình bày lại vấn đề phân cụm như sau:
Cho một tập hợp N quan sát, hãy tìm bộ mã hóa C gán những quan sát này cho K cụm sao cho
trong mỗi cụm, số đo trung bình về sự khác biệt của các quan sát được chỉ định từ giá trị
trung bình của cụm được giảm thiểu.
Thật vậy, chính vì bản chất của tuyên bố này mà kỹ thuật phân cụm được mô tả ở
đây thường được gọi là thuật toán K-mean.
Để giải thích hàm chi phí J (C) được xác định trong phương trình. (5.26), chúng ta có
thể nói rằng, ngoại trừ hệ số tỷ lệ 1 / phương
Nj , tổng
sai bên
của trong
các quan
trong
sátphương
được liên
trình
kết
này
với
là cụm
ước jtính
cho một bộ mã hóa C nhất định, như được hiển thị bằng
ˆ 2 2
j = a 7 xi - ˆj7 (5,27)
C (i) = j
Theo đó, chúng ta có thể xem hàm chi phí J (C) như là một thước đo của tổng biến
thể cụm kết quả từ việc gán tất cả N quan sát cho K cụm được thực hiện bởi bộ mã
hóa C.
Với bộ mã hóa C là ẩn số, làm thế nào để chúng ta tối thiểu hóa hàm chi phí J (C)? Để giải
quyết câu hỏi quan trọng này, chúng tôi sử dụng một thuật toán đi xuống lặp đi lặp lại, mỗi lần lặp lại
liên quan đến tối ưu hóa hai bước. Bước đầu tiên sử dụng quy tắc láng giềng gần nhất để giảm thiểu hàm chi
phí J (C) của phương trình (5.26) đối với vectơ trung bình của một giá trị nhất định ˆj
bộ mã hóa C. Bước thứ hai tối thiểu hóa tổng bên trong của Eq. (5.26) với sự tôn trọng
ˆ
tới bộ mã hóa C cho một vectơ trung bình nhất định. Quyj trình lặp lại hai bước này được thực hiện cho đến
khi đạt được sự hội tụ.
Do đó, về mặt toán học, thuật toán K-mean tiến hành theo hai bước: 5
Bước 1. Đối với một bộ mã hóa C nhất định, tổng phương sai cụm được giảm thiểu so với
được chỉ định tập hợp của cụm có nghĩa {;ˆ jnghĩa
} K j = 1 là, chúng tôi thực hiện, những điều sau
là giảm thiểu:
K
2
min một một 7 xi - ˆj 7 cho một C nhất định (5,28)
K
{ ˆ }j = 1
j = tôi C (i) = j
Bước 2. Sau khi tính toán cụm được tối ưu hóa có nghĩa là trong bước 1, tiếp
{ ˆ jtheo
} K j =chúng
1 tôi tối ưu hóa
mize bộ mã hóa như sau:
2
C (i) = arg min 7 x (i) - ˆ j7 (5,29)
1 j K
Bắt đầu từ một số lựa chọn ban đầu của bộ mã hóa C, thuật toán lặp đi lặp lại
giữa hai bước này cho đến khi không có sự thay đổi nào nữa trong các nhiệm vụ của cụm.
Mỗi bước trong số hai bước này được thiết kế để giảm hàm chi phí J (C) của riêng nó
đường; do đó, sự hội tụ của thuật toán được đảm bảo. Tuy nhiên, vì thuật toán
thiếu tiêu chí tối ưu toàn cục, kết quả có thể hội tụ về mức tối thiểu cục bộ, dẫn đến giải pháp tối ưu
dưới mức tối ưu cho phép phân nhóm. Tuy nhiên, thuật toán có
lợi thế thực tế:
1. Thuật toán K-mean hiệu quả về mặt tính toán, trong đó độ phức tạp của nó là tuyến tính
với số lượng các cụm.
2. Khi các cụm được phân phối chặt chẽ trong không gian dữ liệu, chúng được
được phục hồi bởi thuật toán.
Một nhận xét cuối cùng là: Để khởi tạo thuật toán K-mean, quy trình sửa chữa gợi ý là bắt đầu thuật
toán với nhiều lựa chọn ngẫu nhiên khác nhau cho
có nghĩa cho kích thước đề xuất K và sau đó chọn tập hợp cụ thể mà
{ ˆ j }j =Ktôi
tổng gấp đôi trong Eq. (5.26) giả định giá trị nhỏ nhất (Hastie và cộng sự, 2001).
Thuật toán K-Means phù hợp với khuôn khổ của Định lý Cover
Thuật toán K-mean áp dụng một phép biến đổi phi tuyến cho tín hiệu đầu vào x.
như vậy bởi vì thước đo của sự khác biệt — cụ thể là, khoảng cách Euclid bình phương
2
7 x - xj7 , dựa vào đó nó dựa trên — là một hàm phi tuyến của tín hiệu đầu vào x đối với một
cụm trung tâm xj . Hơn nữa, với mỗi cụm được phát hiện bởi thuật toán K-mean
xác định một đơn vị tính toán cụ thể trong lớp ẩn, nó theo sau rằng nếu số
của các cụm, K, đủ lớn, thuật toán K-mean sẽ đáp ứng yêu cầu khác
Phần 5.6 Ước tính bình phương tối thiểu đệ quy của vectơ khối lượng 245
của định lý Cover — nghĩa là, số chiều của lớp ẩn đủ cao.

Do đó, chúng tôi kết luận rằng thuật toán K-mean thực sự đủ mạnh về mặt tính toán để
biến đổi một tập hợp các mẫu có thể phân tách phi tuyến tính thành các mẫu có thể
phân tách theo định lý này.
Bây giờ mục tiêu này đã được thỏa mãn, chúng tôi đã sẵn sàng xem xét thiết kế
lớp đầu ra tuyến tính của mạng RBF.
5.6 NHẬN ƯỚC LƯỢNG MẶT PHNG ÍT NHẤT CỦA VECTOR TRỌNG LƯỢNG
Thuật toán K-mean thực hiện tính toán theo phương thức đệ quy. cũng vậy. Với
mục tiêu này trong tâm trí, chúng tôi viết lại phương trình (2.33) ở dạng
R (n) wˆ (n) = r (n), n = 1, 2, ..., (5.30)
trong đó cả ba đại lượng được biểu thị dưới dạng hàm của thời gian rời rạc n. Khi viết phương trình
này, được gọi là phương trình bình thường trong thống kê, chúng tôi đã giới thiệu ba thuật ngữ:
1. hàm tương quan K-x-K của các đầu ra đơn vị ẩn, được xác định bởi
R (n) = a (xi ) T (xi ) (5,31)

i = 1
ở đâu
(xi ) = [(xi , 1), (xi , 2), ..., (xi , K)] T (5,32)
và
1
7 xi - j7 j = 1, 2, ..., K (5,33)
(xi , j) = exp a - 2 2 2 b ,
j
2. véc tơ tương quan chéo K-x 1 giữa phản hồi mong muốn ở đầu ra của mạng RBF và
đầu ra của đơn vị ẩn, được xác định bởi
N
r (n) = a (xi ) d (i) (5,34)

i = 1
(n) 3. véc tơ trọng lượng chưa biết

wˆ ,được tối ưu hóa theo nghĩa bình phương nhỏ nhất.
Yêu cầu là giải phương trình bình thường trong phương trình (5.30) cho trọng số vec
tor w (n). Tất nhiên, chúng ta có thể thực hiện phép tính này bằng cách đầu tiên đảo ngược
ma trận tương quan R (n) và sau đó nhân ma trận nghịch đảo thu được R-1 (n) với vectơ tương
quan chéo r (n), đó là những gì được thực hiện trong phương pháp số bình phương nhỏ nhất. Tuy
nhiên, khi kích thước của lớp ẩn, K, lớn, điều này thường xảy ra, việc tính toán ma trận
nghịch đảo R-1 (n) cho n K có thể là một công việc đòi hỏi nhiều khó khăn. phương pháp bình
phương nhỏ nhất giải quyết khó khăn tính toán này. Các
6 nguồn gốc
thuật toán kết quả được gọi là thuật toán bình phương nhỏ nhất đệ quy (RLS),
sẽ được thảo luận tiếp theo.
Thuật toán RLS
Chúng tôi bắt đầu tạo ra thuật toán RLS bằng cách định dạng lại Eq. (5.34) cho vectơ tương
quan chéo r (n), như được hiển thị bởi
n-1
r (n) = a (xi ) d (i) + (xn) d (n)
i = 1
= r (n - 1) + (xn) d (n)
= R (n - 1) wˆ (n - 1) + (xn) d (n) (5,35)
trong đó, ở dòng đầu tiên, chúng tôi đã tách thuật ngữ tương ứng với trong khỏi tổng kết trong
Phương trình. (5.34), và ở dòng cuối cùng, chúng tôi sử dụng Eq. (5.30), thay n bằng n - 1. Tiếp
một cách có chủ
theo,
đích
chúng
và trừ
ta thêm
số hạng
(n) tương
thân
T (n)phương
tự
wˆ khỏi
(n trình
- nó
1) trong
số
không
hạng
một
thay
vào
phần
đổi;
vế khác
phải
do của
đó
củachúng
phương
phương
tatrình,
trình.
viết (sau
để
(5.35)
bản
khi
tính các số hạng chung) r (n) = [R (n - 1) + (n) T (n)] wˆ (n - 1) + (n) [d (n) - T (n) wˆ (n - 1)]
(5,36)
Biểu thức bên trong tập hợp dấu ngoặc đầu tiên ở phía bên phải của Eq. (5.36) được
công nhận là hàm tương quan
R (n) = R (n - 1) + (n) T (n) (5.37)
Đối với biểu thức bên trong tập hợp dấu ngoặc thứ hai ở phía bên phải của Eq. (5.36), chúng
tôi giới thiệu thuật ngữ mới
(n) = d (n) - T (n) w (n - 1) = d
(n) - wT (n - 1) (n) (5,38)
Thuật ngữ mới này được gọi là sai số ước lượng trước, trong đó việc sử dụng "trước" nhằm nhấn mạnh
thực tế là sai số ước lượng (n) dựa trên ước tính cũ wˆ (n - 1) của vectơ trọng số — nghĩa là,
“Trước khi” ước tính trọng số được cập nhật . (N) còn được gọi là sự đổi mới, bởi vì vectơ đầu vào
x (n) được nhúng trong (n) và phản hồi mong muốn tương ứng d (n) đại diện cho thông tin “mới” có
sẵn cho thuật toán ước lượng tại thời điểm n.
Quay lại Eq. (5.36), bây giờ chúng ta có thể sử dụng Eqs. (5.37) và (5.38) để đơn giản hóa
các vấn đề như sau:
r (n) = R (n) wˆ (n - 1) + (n) (n) (5,39)
Theo đó, việc sử dụng phương trình này trong Eq. (5.30) sản lượng
R (n) wˆ (n) = R (n) wˆ (n - 1) + (n) (n) (5,40)
có thể được biểu diễn ở dạng mong muốn để cập nhật vectơ trọng lượng, như được hiển thị bằng
-1
wˆ (n) = wˆ (n - 1) + R (n) (n) (n) (5,41)
Phần 5.6 Ước tính bình phương tối thiểu đệ quy của vectơ khối lượng 247
trong đó chúng ta đã nhân cả hai vế của Eq. (5.40) bởi ma trận nghịch đảo (n). TuyR-1
nhiên, để cập
nhật một cách hiệu quả về mặt tính toán, chúng ta cần một giá trị tương ứng cho R-1 R-1 (n), với
giá trị quá đảo
nghịch khứ sẽ
củađược
nó (n - 1);
thảo tính
vấn
luận toán
đề theo.
tiếp này
ma mula
trận để
Công thức đệ quy cho tính toán (n) R-1
Xem lại phương trình (5.37), chúng ta thấy rằng chúng ta có một công thức để cập
nhật đệ quy ma trận tương
đảo được
quan thảo
( n )luận
. bổtrong
đề, là
Phần
công
4.14.
thức sive cho ma trận nghịch
Tóm lại, hãy xem xét ma trận
A = B-1 + CDCT (5.42)
trong đó giả định rằng ma trận B không phải là số ít và do đó ma trận B-1 tồn tại. Ma
trận A và B có kích thước tương tự nhau, ma trận D là một ma trận không có kích thước
khác với kích thước khác nhau, và ma trận C là ma trận hình chữ nhật có kích thước thích hợp.
Theo bổ đề nghịch đảo ma trận, chúng ta có
A-1 = B - BC (D + CTBC) -1 CTB (5,43)
Đối với vấn đề hiện tại, chúng tôi sử dụng Eq. (5.37) để thực hiện các nhận dạng
sau: A = R (n)
B-1 = R (n - 1)
C = (n)
D = 1
Theo đó, việc áp dụng Eq. (5.43) đối với bộ ma trận đặc biệt này mang lại kết quả
R-1 (n - 1) (n) T (n) R-1T (n - 1)

R-1 (n) = R-1 (n - 1) - (5,44)
1 + T (n) R-1 (n - 1) (n)
trong đó, trong số hạng thứ hai ở vế phải của phương trình, chúng ta đã sử dụng tính chất
đối xứng của ma trận tương quan; đó là,
RT (n - 1) = R (n - 1)
Để đơn giản hóa việc xây dựng thuật toán RLS, bây giờ chúng tôi giới thiệu hai
định nghĩa mới:
1. R-1 (n) P (n)
Do đó, chúng tôi có thể định dạng lại Eq. (5.44) như
P (n - 1) (n) T (n) P (n - 1)
P (n) = P (n - 1) - (5,45)
P (n - 1) (n) T (n) PT (n - 1)
trong đó mẫu số ở bên phải của phương trình là dạng bậc hai và do đó là một vô
hướng.
Để cung cấp cách giải thích cho P (n), hãy xem xét mô hình hồi quy tuyến tính
d (n) = wT (n) + (n)
là mô hình tổng quát cho phản hồi mong muốn d (n), với (n) là bộ hồi quy. Các
2
thuật ngữ nhiễu cộng (n) được giả định là màu trắng với giá trị trung bình và phương sai bằng không. Sau đó,
xem vectơ trọng lượng chưa biết w là trạng thái của mô hình và wˆ
là (n)
ước lượng
được tạo ra bởi thuật toán RLS, chúng tôi xác định ma trận hiệp phương sai lỗi trạng thái như sau:
2
[(w - wˆ (n)) (w - wˆ (n)) T] = P (n) (5,46)
Việc xác minh kết quả này được đề cập trong Bài toán 5.5.
2. g (n) = R-1 (n) (n)

(5,47)
= P (n) (n)
Thuật ngữ mới g (n) được gọi là vectơ khuếch đại của thuật toán RLS, bởi vì, trong ánh sáng
của Eq. (5.41), chúng ta có thể xem sai số ước lượng trước (n) nhân với g (n) là phép tính cor wˆ
thành giá trị mới wˆ (n) , như
(n - 1) cần thiết để cập nhật ước tính cũ
hiển thị bởi
wˆ (n) = wˆ (n - 1) + g (n) (n) (5,48)
Tóm tắt về Thuật toán RLS7
Với Eqs. (5,45), (5,47), (5,38) và (5,48), theo thứ tự đó, bây giờ chúng ta có thể tóm tắt
thuật toán RLS như sau:
N
Cho mẫu huấn luyện {(i), d (i)} i = 1 , thực hiện các phép tính sau đây cho
n 1, 2, ..., N:
P (n - 1) (n) T (n) P (n - 1)
P (n) = P (n - 1) -
1 + T (n) P (n - 1) (n)
g (n) = P (n) (n)
(n) = d (n) - wˆ T (n - 1) (n)
wˆ (n) = wˆ (n - 1) + g (n) (n)
Để khởi tạo thuật toán, hãy đặt
wˆ (0) = 0
và
-1
P (0) = TÔI, là một hằng số dương nhỏ
Lưu ý rằng hàm được sử dụng trong quá trình khởi tạo thuật toán thực hiện vai trò của một reg
tham số ularizing trong hàm chi phí
1 N 1
2
eav (w) = một (d (i) - wT (i)) 2 + 7 w7
2 2
i = 1
Khi được chọn tương đối nhỏ, thường là trường hợp, khi đó, gián tiếp, chúng ta
N
khẳng định niềm tin vào chất lượng của mẫu đào tạo {x (i), d (i)} i = 1.
Phần 5.7 Quy trình học kết hợp cho mạng RBF 249
5.7 QUY TRÌNH HỌC HYBRID CHO MẠNG RBF
Được trang bị với thuật toán phân cụm K-mean được mô tả trong Phần 5.5 và thuật
toán bình phương nhỏ nhất (RLS) định kỳ có nguồn gốc trong Phần 5.6, giờ đây chúng
tôi đã sẵn sàng để mô tả một quy trình học kết hợp8 cho mạng RBF của Hình 5.4. Thuật
toán K-mean để đào tạo lớp ẩn được áp dụng đầu tiên; sau đó nó được theo sau bởi
thuật toán RLS để đào tạo lớp đầu ra. Sau đây, chúng tôi gọi quy trình học kết hợp
này là thuật toán “K có nghĩa là, RLS”, nhằm mục đích đào tạo mạng RBF với phép toán
so sánh sau:
Lớp đầu vào. Kích thước của lớp đầu vào được xác định bởi kích thước của vectơ
đầu vào x, được ký hiệu là m0.
Lớp ẩn.
1. Kích thước của lớp ẩn, m1, được xác định bởi số lượng cụm được đề xuất, K. Thật
vậy, tham số K có thể được xem như một bậc tự do dưới sự kiểm soát của người
thiết kế . vấn đề lựa chọn mô hình và do đó kiểm soát không chỉ hiệu suất mà
còn cả độ phức tạp theo từng giai đoạn của mạng.
2. Cụm có nghĩa là ˆj, được tính toán bởi thuật toán K-mean làm việc trên unla-
N
mẫu vành đai của vectơ đầu vào, xác định tâm xj tion (., xj )
{x i } i = 1 trong hàm Gaussian
K
được gán cho đơn vị ẩn j 1, 2, ..., 3. Để đơn giản hóa thiết kế,
cùng một chiều rộng, ký hiệu là, được gán cho tất cả các Gaussian
các chức năng phù hợp với sự
trải rộng của các trung tâm được phát hiện bởi thuật toán K-mean, như được hiển thị bằng
dmax
=
(5,49)
22 nghìn
trong đó K là số tâm và dmax là khoảng cách lớn nhất giữa chúng (Lowe,
1989). Công thức này đảm bảo rằng các đơn vị Gaussian riêng lẻ không quá
đỉnh hoặc quá phẳng; cả hai điều kiện khắc nghiệt nên được tránh trong thực tế.
Lớp đầu ra. Sau khi quá trình đào tạo lớp ẩn được hoàn thành, quá trình đào tạo lớp
đưa ra có thể bắt đầu. Cho vectơ K-x-1
(xi , 2)
¥
o
(xi ) = ≥ (xi
(xi ,, 1)
K)
biểu thị kết quả đầu ra của K đơn vị trong lớp ẩn . vectơ này được tạo ra để đáp
ứng với kích thích
đầuxi
di ,là1,
vào 2,
xiphản ...,
. Việc N. mẫu
hồi đào
mongtạo được
muốn xác ra
nàyở được
đầu định
thực bởi
tổng
hiện{(xi
thể của),thuật
bằng di }RBF
mạng trong
toáncho đó
RLS.
N
Khi quá trình đào tạo mạng hoàn tất, việc kiểm tra toàn bộ
i 1, mạng
từngvới
thấy
dữtrước
liệu đây
chưa
có thể bắt đầu.
Một tính năng hấp dẫn của thuật toán “K-means, RLS” là hiệu quả tính toán của nó,
sau thực tế là thuật toán K-mean và RLS đều hiệu quả về mặt lý thuyết theo những cách
riêng của chúng.
thuật toán là sự vắng mặt của một tiêu chí tối ưu tổng thể kết hợp việc đào tạo
các lớp ẩn và lớp đầu ra, đảm bảo toàn bộ hệ thống tối ưu theo một số ý nghĩa thống kê.
Trong phần này, chúng tôi sử dụng một thử nghiệm máy tính để đánh giá phân loại mẫu theo
dạng của thuật toán “K-mean, RLS” được sử dụng để đào tạo mạng RBF. Biểu tượng thử nghiệm
sử dụng dữ liệu thu được bằng cách lấy mẫu ngẫu nhiên cấu hình trăng đôi của
Hình 1.8. Mục đích cụ thể của thử nghiệm là so sánh hiệu suất của RBF
mạng được đào tạo theo cách này với mạng perceptron nhiều lớp (MLP) được đào tạo bằng cách sử dụng
thuật toán lan truyền ngược, vốn là tâm điểm chú ý trong thử nghiệm
thực hiện trong Mục 4.7.
Lớp ẩn của mạng RBF được chọn bao gồm 20 đơn vị Gaussian,
do đó làm cho nó có cùng kích thước với lớp ẩn của MLP đã được điều tra
trong Phần 4.7. Để đào tạo mạng RBF, 1.000 điểm dữ liệu đã được sử dụng; va cho
thử nghiệm, 2.000 điểm dữ liệu đã được sử dụng. Theo cách tương tự như đối với các thí
nghiệm MLP, các thí nghiệm RBF được thực hiện cho hai cài đặt khác nhau của hình mặt
trăng đôi, d - 5 và d - 6, với cài đặt sau khó hơn một trong số
cả hai.
(a) Tách dọc: d - 5
Đối với sự phân cách thẳng đứng giữa hai mặt trăng, K 20 được gán là số lượng các cụm
(tức là số đơn vị ẩn). Bằng cách áp dụng thuật toán K-mean để
phần không được gắn nhãn của mẫu đào tạo, các trung tâm của các cụm, và do đó
tâm của các đơn vị Gaussian trong lớp ẩn, đã được xác định. Với sự lan tỏa
của các trung tâm đã biết, công thức của Eq. (5.49) sau đó được sử dụng để tính toán
chiều rộng com mon 2,6 được gán cho tất cả các đơn vị Gaussian. Thiết kế của lớp ẩn
của mạng RBF do đó đã hoàn thành. Cuối cùng, thuật toán RLS được sử dụng để đào tạo
lớp đầu ra và do đó tính toán ranh giới quyết định, chuẩn bị cho
phiên thử nghiệm.
Kết quả của phần đầu tiên của thí nghiệm được trình bày trong Hình 5.5. Phần (a) của
hình bên cho thấy đường cong học tập của thuật toán RLS và phần (b) cho thấy ranh giới
deci sion được học bởi mạng RBF. Như có thể thấy từ Hình 5.5a, trong vòng hai
các kỷ nguyên đào tạo, thiết kế của lớp đầu ra đã hoàn thành. Phần (b) của hình
xác nhận khả năng phân tách gần như hoàn hảo của hai mẫu hình mặt trăng bởi mạng RBF.
(b) Tách dọc: d - 6
Sau đó, thử nghiệm phân loại mẫu trên mạng RBF đã được lặp lại cho điều này
khó thiết lập cấu hình trăng đôi của Hình 1.8. Lần này, chiều rộng com mon 2,4 được gán
cho 20 đơn vị Gaussian,
(5,49). phép gán một lần nữa được hình thành theo công thức của Eq.

0,024
0,022
0,02
0,018
0,016
0,014
MSE
0,012
0,01
0,008
0,006
0,004
0 10 20 30 40 50
Số kỷ nguyên
Phân loại sử dụng RBF với khoảng cách 5, bán kính 10 và chiều rộng 6
12
10
số 8
4
y
2
10 5 0 5 10 15 20
x
HÌNH 5.5 Mạng RBF được huấn luyện với thuật toán K-means và RLS cho khoảng cách d -5.
MSE trong phần (a) của hình là viết tắt của sai số bình phương trung bình.
Kết quả của phần thứ hai của thử nghiệm được trình bày trong Hình 5.6, với phần (a)
của hình thể hiện đường cong học tập của thuật toán RLS và phần (b) hiển thị ranh giới
quyết định do mạng RBF học được. đào tạo theo thuật toán “K-means, RLS”. Tổng cộng mười
lỗi phân loại trong số 2.000 điểm dữ liệu thử nghiệm đã được ghi lại, mang lại tỷ lệ lỗi
phân loại là 0,5%.
Đối với cả hai phần (a) và (b) của thử nghiệm, ngưỡng phân loại đã được đặt
bằng 0 ở đầu ra duy nhất của mạng RBF.
So sánh kết quả MLP và RBF
So sánh kết quả của thí nghiệm (a) và (b) thực hiện trên mạng RBF trong phần này với kết
quả của thí nghiệm tương ứng được thực hiện trên MLP trong Phần 4.7, chúng tôi rút ra các
kết luận sau:
1. Mạng RBF được đào tạo với thuật toán “K-means, RLS” hoạt động tốt hơn MLP được đào
tạo với thuật toán lan truyền ngược. Cụ thể, phân loại MLP trên mỗi loài không thành
công đối với cài đặt d - 5 của mặt trăng đôi, trong khi công việc ròng RBF báo cáo
phân loại gần như hoàn hảo. Tỷ lệ phân loại sai 0,5% do mạng RBF tạo ra đối với cài
đặt khó d - 6 lớn hơn một chút so với 0,15% do MLP tạo ra đối với cài đặt dễ dàng
hơn d - 5. Chắc chắn, thiết kế MLP có thể đã được cải thiện; tuy nhiên, điều tương
tự cũng có thể xảy ra đối với mạng RBF.
2. Quá trình đào tạo được thực hiện trên mạng RBF nhanh hơn đáng kể so với
được thực hiện trên MLP.
5.9 TUYÊN BỐ CỦA CÁC ĐƠN VỊ LẮP RÁP CỦA GAUSSIAN
Ý tưởng về trường tiếp thu
Trong bối cảnh sinh học thần kinh, trường tiếp nhận được định nghĩa là “vùng của trường
cảm giác mà từ đó kích thích cảm giác thích hợp sẽ tạo ra phản ứng” (Churchland và
Sejnowski, 1992). Điều thú vị để nhận ra là trường tiếp nhận của các tế bào ở các khu vực
cao hơn của vỏ não thị giác có xu hướng lớn hơn nhiều so với các trường của tế bào trong
giai đoạn trước của hệ thống thị giác.
Theo định nghĩa sinh học thần kinh này về trường tiếp nhận, chúng ta có thể hình
dung mỗi đơn vị ẩn của mạng nơ-ron có một trường tiếp nhận của riêng nó. Thật vậy, chúng
ta có thể tiếp tục đưa ra tuyên bố tương ứng sau:
Trường tiếp nhận của một đơn vị tính toán (ví dụ, đơn vị ẩn) trong mạng nơ-ron, trong gen
eral, là vùng của trường cảm giác (ví dụ, lớp đầu vào của các nút nguồn) mà từ đó kích thích
cảm giác thích hợp (ví dụ: mẫu) sẽ gợi ra một phản ứng.
Định nghĩa này cũng áp dụng tốt cho mạng perceptron nhiều lớp và mạng RBF. Chưa bao giờ,
việc phân định toán học của trường tiếp nhận trong mạng RBF dễ xác định hơn so với trong
perceptron nhiều lớp.
Phần 5.9 Giải thích về các đơn vị ẩn của Gaussian 253

0,05
0,045
0,04
0,035
0,03
MSE
0,025
0,02
0,015
0,01
0,005
0 10 20 30 40 50
Số kỷ nguyên
Phân loại sử dụng RBF với khoảng cách 6, bán kính 10 và chiều rộng 6
12
10
số 8
y 4
10 5 0 5 10 15 20
x
HÌNH 5.6 Mạng RBF được huấn luyện với các thuật toán K-means và RLS cho d -6 xa.
MSE trong phần (a) là viết tắt của sai số bình phương trung bình.
Gọi (x, xj ) biểu thị sự phụ thuộc hàm của một đơn vị tính toán vào đầu vào
vectơ x, cho rằng đơn vị nằm ở tâm điểm xj . Theo Xu và cộng sự (1994),
trường tiếp nhận của đơn vị tính toán này được xác định bởi
(x) = (x, xj) - a (5,50)
trong đó a là một hằng số dương. Nói cách khác, phương trình này nói rằng trường tiếp nhận
của hàm (x, xj ) là tập con cụ thể của miền của vectơ đầu vào x cho
mà hàm (x, xj ) nhận các giá trị đủ lớn, tất cả chúng đều bằng hoặc
lớn hơn mức quy định a.
VÍ DỤ 2: Trường tiếp nhận của một đơn vị ẩn Gaussian
Hãy xem xét một đơn vị tính toán Gaussian được xác định bởi
2 2 7 x - xj7
(x, xj) = exp a - 2 b
Theo Eq. (5.50), trường tiếp nhận của đơn vị này là
2 2 7 x - xj7
(x) = exp a - 2 b - a
trong đó a <1. Giá trị cho phép tối thiểu của (x) bằng 0, mà phương trình này cho kết quả
7 x - xj7 = 2 log ( ) 1
một
Do đó, trường tiếp nhận của hàm Gaussian (x, xj) được xác định
bởi một bề mặt đa chiều, có tâm đối xứng xung quanh điểm xj trong một hình cầu man
ner. Thuộc tính đối xứng hình cầu của trường tiếp nhận được kế thừa tự nhiên từ
Bản thân hàm Gauss.
Hình 5.7 mô tả hai trường hợp đặc biệt của bề mặt này:
1. Trường tiếp nhận một chiều, (x), trong đó miền của đầu vào x được giới hạn trong
khoảng thời gian đóng cửa
[(xi - 22 log (1 a)), (xi + 22 log (1 a))] , như thể hiện trong phần (a) của
nhân vâ t.
2. Trường tiếp nhận hai chiều, (x), trong đó miền của đầu vào x được giới hạn trong một
đĩa tròn tâm hình xi . T và bán kính
= [xi, 1, xi, 2] như22 log
thể a) ,phần (b) của
(1 trong
hiện
■
x2
˙2 log (1 / a)
xi
2 ˙2 log (1 / a)
x1
x 0
0
(một) (b)
HÌNH 5.7 Minh họa khái niệm trường tiếp nhận cho hai trường
hợp đặc biệt: (a) một chiều và (b) hai chiều.
Phần 5.10 Hồi quy hạt nhân và mối liên quan của nó với mạng RBF 255
Giải thích hàm Gaussian như một Kernel
Một khía cạnh quan trọng khác của hàm Gaussian (x, xj ) là nó có thể được giải thích
như một hạt nhân, một thuật ngữ được sử dụng rộng rãi trong các tài liệu thống kê; nó cũng
đang được gia tăng sử dụng trong tài liệu học máy.
Hãy xem xét một hàm phụ thuộc vào một vectơ đầu vào x, với tâm của nó nằm ở
nguồn gốc của không gian Ơclit. Cơ bản để xây dựng hàm này dưới dạng hạt nhân,
được ký hiệu là k (x), là hàm có các thuộc tính tương tự như các thuộc tính được liên kết với
hàm mật độ xác suất của một biến ngẫu nhiên:
Tính chất 1. Hạt nhân k (x) là một hàm liên tục, có giới hạn và thực của x và
đối xứng về điểm gốc, tại đó nó đạt giá trị lớn nhất.
Tính chất 2. Tổng thể tích dưới bề mặt của hạt nhân k (x) là khối hợp nhất; đó là,
đối với một vectơ m-chiều x, chúng ta có
k (x) dx = 1
3 m
Ngoại trừ hệ số tỷ lệ, hàm Gaussian (x, xj ) thỏa mãn cả hai sai số hỗ trợ này đối với tâm
xj nằm tại gốc. Đối với một giá trị khác không của xj , thuộc tính 1 và 2
vẫn giữ ngoại trừ thực tế là xj thay thế nguồn gốc.
Chính vì việc giải thích hàm Gaussian như một hạt nhân mà chúng ta
đã sử dụng thuật ngữ “các phương thức hạt nhân” trong tiêu đề của chương này.
5.10 VỊ TRÍ KERNEL VÀ MỐI QUAN HỆ CỦA NÓ ĐẾN CÁC MẠNG RBF
Lý thuyết về mạng RBF, được trình bày trong Phần 5.3, được xây dựng dựa trên khái niệm phân
cực liên. Trong phần này, chúng tôi đưa ra một quan điểm khác — cụ thể là hồi quy hạt nhân ,
xây dựng dựa trên khái niệm ước tính mật độ.
Để cụ thể, hãy xem xét một mô hình hồi quy phi tuyến được xác định bởi
yi = f (xi ) + (i), i = 1, 2, ..., N (5.51)
. bằng 0 Để
trong đó (i) là thuật ngữ nhiễu trắng cộng của phương sai và giá trị trung bình
tránh kết hợp nhầm lẫn, chúng tôi đã sử dụng ký hiệu yi (thay vì di như trước đây) để biểu
thị mô hình được đưa ra. f (x), chúng ta có thể lấy
giá trị trung bình của các giá trị có thể quan sát được (tức là các giá trị của đầu ra mô hình y) gần một điểm x. Đối với cách tiếp cận này
để thành công, tuy nhiên, mức trung bình địa phương nên được giới hạn trong các quan sát trong một
vùng lân cận nhỏ (tức là trường tiếp nhận) xung quanh điểm x vì nói chung, các vectơ
quan sát tương ứng với các điểm cách xa x sẽ có các giá trị trung bình khác nhau.
Chính xác hơn, chúng ta thấy rằng hàm chưa biết f (x) bằng với trung bình có điều kiện của
y có thể quan sát được với bộ hồi quy x, như được hiển thị bởi
f (x) = [yx]
=
ypYX (yx) dy (5.52)
3 q
trong đó pY | X (y | x) là hàm mật độ xác suất có điều kiện (pdf) của biến ngẫu nhiên
9
có thể Y cho rằng vectơ ngẫu nhiên X được gán giá trị x. chúngTừtalý
cóthuyết xác suất,
pXY (xy)
pYX (yx) = pX (x) (5.53)
trong đó pX (x) là pdf của X và px, y (x, y) là pdf chung của X và Y. Do đó, sử
dụng Eq. (5.53) trong Eq. (5.52), chúng tôi thu được công thức sau cho hàm hồi quy:
ypX, Y (x, y) dy
3 -qq
f (x) = (5.54)
pX (x)
Mối quan tâm đặc biệt của chúng tôi là trong tình huống mà mật độ xác suất chung
func tion pX, Y (x, y) là không xác định và tất cả những gì chúng tôi có sẵn là mẫu huấn
luyện {(xi , sử
yi dụng
)} N công
i = 1cụ. ước
Để ước tính
lượng phipX, Y (x,
tham y) vàgọi
số được do là
đó công
là pXcụ(x),
ước chúng ta có
tính mật độ thể
Parzen – Rosenblatt (Rosenblatt, 1956, 1970; Parzen, 1962). Cơ bản để xây dựng công thức
ước lượng này là sự sẵn có của một nhân k (x). Giả sử rằng các quan sát x1, x2, ..., xN
độc lập về mặt thống kê và phân bố giống nhau (iid), chúng ta có thể chính thức xác định
ước tính mật độ Parzen – Rosenblatt của fX (x) là
1 N
cho x m0
pˆ X (x) = một (5,55)
Nhm0 i = 1
k a x -h xi
b
trong đó tham số làm mịn h là một số dương được gọi là băng thông, hay
đơn giản là chiều rộng; h kiểm soát kích thước của nhân . _
lim h (N) = 0,
NS q
sau đó
lim [pˆ X (x)] = pX (x)

NS q
Để phương trình sau này được giữ vững, x phải là một điểm liên tục đối với pˆ X (x) .
Theo cách tương tự như được mô tả trong Eq. (5.55), chúng tôi có thể xây dựng Parzen–
Ước tính mật độ Rosenblatt của hàm mật độ xác suất khớp pX, Y (x, y) như
1 N
P X,
Y (x, y) =
Nhm0 + 1
một
i = 1
k a x -h xi
b k a y - yi
b đối
h với x
m0 và y (5.56)
Tích hợp pˆ X,
Y (x, y) pˆ X (x) của phương trình. (5.55), như chúng ta nên làm. đối với y, chúng tôi nhận được
Hơn thế nữa,
1 N
y P X, Y (x, y) dy = một
3 -qq Nhm0 + 1 i = 1
k a x -h xi
b 3 q yk
-q
a y - yi dy
h b
Phần 5.10 Hồi quy hạt nhân và mối liên quan của nó với mạng RBF 257
Thay đổi biến tích hợp bằng cách đặt kernel (y 2 yi ) / h và sử dụng Thuộc tính 2 của
k (.), Chúng ta thu được kết quả
1 N
y P Y (x, y) dy = một (5.57)
3 q X, yi k a x xi
- h b
-q
Nhm0 i = 1
Do đó, bằng cách sử dụng Eqs. (5.57) và (5.55) là ước lượng của các đại lượng ở tử số
và mẫu số của phương trình. (5.54), tương ứng, chúng ta thu được ước lượng sau của hàm
regres sion f (x), sau khi hủy các số hạng chung: F (x) = f ˆ (x)
N
một
yi k a x xi
- h b
= i = 1
(5.58)
N
một
k a x -h xj
b
j = 1
Ở đây, trong mẫu số, để trình bày rõ ràng, chúng tôi đã sử dụng j thay vì i làm chỉ
số của tổng.
Có hai cách để hàm gần đúng F (x) của Eq. (5.58) có thể được xem:
1. Công cụ ước lượng hồi quy Nadaraya – Watson. Đối với quan điểm đầu tiên, hãy xác định
chức năng trọng số chuẩn hóa
k a x -h xi
b
WN, i (x) = , i = 1, 2, ..., N (5.59)
N
a
k a x -h xj
b
j = 1
với
N
cho tất cả x (5,60)
một WN, i (x) = 1
i = 1
Sau đó, chúng tôi có thể viết lại ước lượng hồi quy hạt nhân của phương trình (5.58) ở dạng đơn giản
N
F (x) = a WN, i (x) yi (5,61)
i = 1
trong đó mô tả F (x) như là một trung bình có trọng số của {yi } có Ntôi 1. Các hạt
thể quan sát được của hàm trọng số WN (x, i) cho trong Phương trình. (5.61) do
Nadaraya (1964) và Watson (1964) đặt ra một cách chuyên nghiệp, theo đó, hàm xấp xỉ
của Eq. (5.61) thường được gọi là công cụ ước lượng hồi quy Nadaraya – Watson (NWRE)
.11 2. Mạng RBF chuẩn hóa. Đối với quan điểm thứ hai, chúng tôi giả sử metry sym hình
cầu của kernel k (x), trong trường hợp đó chúng tôi có thể đặt
x - xi
cho tất cả tôi
(5,62)
k a h b = k a 7 x - xi b7 h
như thường lệ, et

7 .al.,
7 biểu
1996).
thị Tương
chuẩn ứng,
Euclide
chúng
củatôi
vectơ
xác kèm
định
theo
hàm (Krzyzak,
cơ sở bán
kính chuẩn hóa
k a 7 x 7
- h
xib
% N (x, xi ) = , i = 1, 2, ..., N (5,63)
N 7 x - xj7
một
k a h b
j = 1
với
N
cho tất cả x (5,64)
một % N (x, xi ) = 1
i = 1
Chỉ số con N trong % N (x, xi ) biểu thị việc sử dụng chuẩn hóa.
Đối với bài toán hồi quy được xem xét theo quan điểm thứ hai, chúng tôi nhận
ra rằng "trọng số tuyến tính" , được áp dụng cho các hàm cơ bản % N (x, xi ) là
phần tử có thể quan sát được, yi của mô hình hồi quy cho dữ liệu đầu vào xi . Do đó, để
yi = wi , i = 1, 2, ..., N
chúng ta có thể định dạng lại hàm xấp xỉ của Eq. (5.58) ở dạng chung
N
F (x) = a wi % N (x, xi ) (5,65)
i = 1
Phương trình (5.65) biểu diễn ánh xạ đầu vào - đầu ra của mạng hàm cơ sở bán
kính (RBF) chuẩn hóa (Moody và Darken, 1989; Xu và cộng sự, 1994). Lưu ý rằng
0 % N (x, xi ) 1 cho tất cả x và xi (5,66)
Theo đó, % N (x,

hiểuxi
là) xác
có
mộtthể
sự được
suất kiện
của được mô tả bởi vectơ đầu vào x, có điều kiện
là xi .
Sự khác biệt cơ bản giữa hàm cơ sở xuyên tâm chuẩn hóa % N (x, xi ) của phương
trình. (5.63) và một hàm cơ sở bán kính thông thường là một số hạng mẫu số cấu thành
hệ số chuẩn hóa. Hệ số chuẩn hóa này là một ước lượng của hàm mật độ khả năng cơ bản
của vectơ đầu vào x. Do đó, hàm cơ sở % N (x, xi ) cho i 1, 2, ..., N tổng thành
thống
nhất cho mọi x, như được mô tả trong phương trình. (5,64).
Phân phối Gaussian đa biến
Nói chung có thể có nhiều chức năng nhân. Tuy nhiên, cả lý thuyết và thực hành đều
hạn chế sự lựa chọn. Một nhân được sử dụng rộng rãi là phân phối Gaussian đa biến
1 7 x7
2
k (x) = (5,67)
2 exp a - 2 b
(2 ) m0
trong đó m0 là kích thước của vectơ đầu vào x. Tính đối xứng cầu của hạt nhân
k (x) là rõ ràng trong phương trình. (5,67). Giả sử sử dụng băng thông chung
đóng vai trò làm trơn tham số h cho phân phối Gaussian và căn giữa
kernel trên một điểm dữ liệu xi , chúng ta có thể viết
2
1 7 x - xi 7
2 2 i = 1, 2, ..., N (5,68)
k a x -h xi
b = (2
) m0 exp a - 2 2 b ,
Do đó, bằng cách sử dụng Eq. (5.68), chúng tôi thấy rằng công cụ ước lượng hồi quy Nadaraya – Watson lấy
hình thức
N 2
7 x - xi 7
một
i = 1
yi exp a - 2 2 b
F (x) = N 2 (5,69)
7 x - xj7
một
j = 1 exp a - 2 2 b
trong đó thuật ngữ mẫu số, đại diện cho công cụ ước tính mật độ Parzen – Rosenblatt,
bao gồm tổng N phân bố Gaussian đa biến tập trung vào các điểm dữ liệu
x1, x2, ..., xN (Specht, 1991).
Tương ứng, sử dụng Eq. (5,68) trong Eq. (5.63) và sau đó là phương trình (5,65), chúng tôi thấy rằng
chức năng ánh xạ đầu vào-đầu ra của mạng RBF chuẩn hóa có dạng
N 2
7 x - xi 7
một
i = 1
wi exp a - 2 2 b
F (x) = N 2 (5,70)
7 x - xj7
một
j = 1 exp a - 2 2 b
Trong Eqs. (5.69) và (5.70),
N tâm của các hàm cơ sở bán kính được chuẩn hóa đồng
xu với các điểm dữ liệu {xi } 1. Giống như với các hàm cơ sở bán kính thông thường, có thể sử
tôi
dụng một số nhỏ hơn của các hàm cơ sở bán kính được chuẩn hóa, với các tâm của chúng được coi là miễn phí
các tham số được chọn theo một số heuristic (Moody và Darken, 1989), hoặc
được xác định một cách có nguyên tắc như đã thảo luận trong Chương 7.
Trong chương này, chúng tôi tập trung vào các mạng chức năng bán kính (RBF) như một giải pháp thay thế cho
perceptron nhiều lớp. Giống như perceptron nhiều lớp, được thảo luận trong Chương 4, RBF
mạng là một công cụ xấp xỉ phổ quát theo đúng nghĩa của nó (Sandberg và Xu, 1997a, 1997b).
Sự khác biệt cơ bản về cấu trúc giữa chúng được tóm tắt như sau:
Trong perceptron nhiều lớp, xấp xỉ hàm được xác định bởi một tập hợp các phép tổng có
trọng số lồng nhau, trong khi trong mạng RBF, xấp xỉ được xác định bằng một tổng có trọng số.
Cân nhắc thiết kế
Việc thiết kế mạng RBF có thể tuân theo lý thuyết nội suy, theo thuật ngữ toán học,
lý thuyết này rất thanh lịch. Tuy nhiên, từ góc độ thực tế, cách tiếp cận thiết kế này có
hai thiếu sót. Đầu tiên, mẫu đào tạo có thể bị nhiễu, có thể gây hiểu nhầm
kết quả của mạng RBF. Thứ hai, khi kích thước của mẫu đào tạo lớn, việc sử dụng
một mạng RBF với một lớp ẩn có cùng kích thước với mẫu huấn luyện sẽ gây lãng phí tài
nguyên tính toán.
Một cách tiếp cận thiết thực hơn để thiết kế mạng RBF là tuân theo quy trình học
tập kết hợp được mô tả trong Phần 5.5 đến 5.7. Về cơ bản, quy trình tiến hành theo hai
giai đoạn:
• Giai đoạn 1 áp dụng thuật toán phân cụm K-mean để huấn luyện lớp ẩn trong một cách
thức không được giám sát. Về mặt thông thường, số lượng cụm và do đó số lượng đơn
vị tính toán trong lớp ẩn nhỏ hơn đáng kể so với kích thước của mẫu huấn luyện.
• Giai đoạn 2 áp dụng thuật toán bình phương nhỏ nhất đệ quy (RLS) để tính trọng số
vector của lớp đầu ra tuyến tính.
Quy trình thiết kế hai giai đoạn này có một vài đặc điểm mong muốn: tính toán mô phỏng
linh hoạt và hội tụ gia tốc.
Kết quả thực nghiệm
Kết quả của thí nghiệm máy tính về vấn đề "đồ chơi" hai mặt trăng, được trình bày trong
Phần 5.8, cho thấy rằng bộ phân loại "K-mean, RLS" lai có khả năng mang lại hiệu suất ấn
tượng. Khi kết quả của thí nghiệm này được so sánh với kết quả của cùng một thí nghiệm
bằng máy vectơ hỗ trợ (SVM), sẽ được thảo luận trong chương tiếp theo, chúng tôi thấy
rằng hai bộ phân loại hoạt động rất giống nhau. Tuy nhiên, trình phân loại “K-mean, RLS”
hội tụ nhanh hơn nhiều và ít đòi hỏi nỗ lực theo từng giai đoạn hơn SVM.
Đáng chú ý là Rifkin (2002), trong luận án tiến sĩ của mình, đã thực hiện một con
số so sánh chi tiết giữa RLS và SVM để phân loại các mẫu có thể phân tách tuyến tính,
sử dụng một bộ sưu tập các ví dụ đồ chơi. kết quả:
• Bộ phân loại RLS và SVM thể hiện hiệu suất gần như giống hệt nhau. •
Cả hai đều dễ bị ảnh hưởng bởi sự hiện diện của các ngoại lệ trong mẫu đào tạo.
Rifkin (2002) cũng thực hiện các thí nghiệm về phân loại hình ảnh, sử dụng hai dif
tập dữ liệu không có:
• Bộ dữ liệu viết tay của Dịch vụ Bưu điện Hoa Kỳ (USPS), bao gồm 7.291 ví dụ đào
tạo và 2.007 ví dụ kiểm tra. Bộ đào tạo chứa 6.639 phiếu kiểm tra tiêu cực và 652
ví dụ tích cực, trong khi bộ kiểm tra chứa 1.807 ví dụ tiêu cực và 200 ví dụ tích
cực.
• Bộ nhận dạng MIT, được gọi là khuôn mặt. Tập huấn luyện chứa 2.429 khuôn mặt và
4.548 phi mặt, và tập thử nghiệm chứa 572 khuôn mặt và 23.573 phi mặt.
Đối với tập dữ liệu USPS, báo cáo rằng bộ phân loại RLS phi tuyến hoạt động tốt bằng
hoặc tốt hơn SVM trên toàn bộ phạm vi của đường cong đặc tính hoạt động của máy thu
(ROC). Đường cong ROC vẽ biểu đồ tỷ lệ dương tính thực so với tỷ lệ dương tính giả cho
một ngưỡng quyết định khác nhau khi sử dụng một đầu ra mạng duy nhất; thuật ngữ "tỷ lệ"
là một cách khác để chỉ xác suất phân loại. Các thử nghiệm được thực hiện trên các mặt
được đặt tạo ra kết quả hỗn hợp: Đối với một tập hợp các thông số thiết kế, SVM
thực hiện tốt hơn đáng kể so với bộ phân loại RLS phi tuyến tính. Đối với một tập hợp các tham số thiết
kế khác, các biểu diễn gần giống nhau . chương.
Một thông điệp quan trọng, liên quan đến các thí nghiệm "đồ chơi" ở mặt trăng đôi của chúng ta
và các thí nghiệm mở rộng hơn được báo cáo trong Rifkin (2002), gấp đôi:
1. Thuật toán RLS đã được nghiên cứu kỹ lưỡng trong các tài liệu về xử lý tín hiệu và điều khiển
(Haykin, 2002; Goodwin và Sin, 1984). Thật không may, nó gần như bị bỏ qua hoàn toàn trong tài
liệu về học máy, ngoại trừ luận án của Rifkin (2002) và một số ấn phẩm khác.
2. Cần có nhiều thử nghiệm mở rộng hơn, sử dụng các tập dữ liệu trong thế giới thực, để đưa ra kết
luận chắc chắn hơn về cách mạng RBF dựa trên thuật toán RLS (để thiết kế lớp đầu ra của nó) và
SVM so sánh với từng khác, không chỉ về hiệu suất, mà còn về tỷ lệ hội tụ, cũng như độ phức tạp
tính toán.
Hồi quy Kernel
Một chủ đề quan trọng khác được nghiên cứu trong chương này là hồi quy hạt nhân, được xây dựng dựa
trên khái niệm ước lượng mật độ. Đặc biệt, chúng tôi tập trung vào một ma trận ước tính phi tham số
được gọi là công cụ ước tính mật độ Parzen – Rosenblatt, công thức của nó phụ thuộc vào sự sẵn có của
một hạt nhân. mô hình hồi quy: công cụ ước lượng hồi quy Nadaraya – Watson và mạng RBF chuẩn hóa. Đối
với cả hai, phân phối Gaussian nhiều biến thể cung cấp một lựa chọn tốt cho hạt nhân.
1. Các hàm cơ sở bán kính lần đầu tiên được giới thiệu trong lời giải của bài toán liên cực đa biến
thực. Công trình ban đầu về chủ đề này được khảo sát tại Powell (1985). Bây giờ nó là một trong
những lĩnh vực nghiên cứu chính trong phân tích số.
Broomhead và Lowe (1988) là những người đầu tiên khai thác việc sử dụng các hàm cơ sở
xuyên tâm trong thiết kế mạng nơ-ron. Một đóng góp lớn khác cho lý thuyết và thiết kế của mạng
hàm cơ sở quay số là do Poggio và Girosi (1990a). Bài báo thứ hai này nhấn mạnh việc sử dụng lý
thuyết chính quy hóa được áp dụng cho lớp mạng này như một phương pháp để cải thiện tổng quát
hóa cho dữ liệu mới; Lý thuyết chính quy hóa được thảo luận chi tiết trong Chương 10.
2. Chứng minh định lý Cover dựa trên hai cân nhắc cơ bản (Cover, 1965):
• Định lý Schalfi, hoặc định lý đếm hàm, phát biểu rằng số lượng phân đôi có thể phân tách tuyến
tính đồng nhất của N vectơ, nằm ở vị trí chung trong không gian Euclidean-m1 , bằng
m1-1
C (N, m1) = 2 a a N1-m b

m = 0
Một tập hợp các vectơ h = {xi } N i = 1 được cho là ở "vị trí chung" trong không gian Euclide-m1
nếu mọi tập con trên vectơ m1 trở xuống là độc lập tuyến tính.
• Bất biến phản ánh của phân phối xác suất chung của h, ngụ ý rằng xác suất (có điều kiện đối
với h) mà một phép phân đôi ngẫu nhiên có thể phân tách được bằng
262 Chương 5 Các phương thức hạt nhân và mạng chức năng cơ sở hướng tâm
xác suất vô điều kiện mà một sự phân đôi cụ thể của h (tất cả N vectơ trong một loại)
có thể tách rời.
Định lý đếm hàm đã được chứng minh một cách độc lập ở các dạng khác nhau và áp dụng cho các
cấu hình cụ thể của các perceptron (tức là các đơn vị ngưỡng tuyến tính) bởi Cameron
(1960), Joseph (1960), và Winder (1961). Trong Cover (1968), định lý này đã được áp dụng cho
đánh giá năng lực của một mạng lưới các perceptron về tổng số lượng có thể điều chỉnh
tham số, được hiển thị là giới hạn dưới của N / (1 log2 / N), trong đó N là số lượng các mẫu
đầu vào.
3. Clustering, nói chung, được thảo luận trong một số cuốn sách, bao gồm Theodoridis và Koutroumbas
(2003); Duda và cộng sự. (2001); và Fukunaga (1990).
Thuật toán K-mean đã đặt tên này theo tên của MacQueen (1967), người đã nghiên cứu nó
như một thủ tục phân cụm thống kê, bao gồm các thuộc tính hội tụ của thuật toán.
Ý tưởng trước đây đã được mô tả trong Foregey (1962) trong bối cảnh phân cụm.
Ding and He (2004) trình bày một mối quan hệ rất thú vị giữa K-means
thuật toán phân cụm và phân tích thành phần chính để giảm dữ liệu. Cụ thể, nó được chỉ ra rằng
các thành phần chính đại diện cho một giải pháp liên tục (thoải mái) của
các chỉ số thành viên cụm trong K-means clustering. Theo một cách nào đó, hai chế độ xem này
là thiếu sót, theo nghĩa phân nhóm dữ liệu cũng là một hình thức giảm dữ liệu, cả hai đều là,
tất nhiên, được thực hiện trong một cách thức không được giám sát. Chủ đề của phân tích các thành phần
chính được trình bày trong Chương 8.
Trong tài liệu truyền thông liên quan đến lượng tử hóa vectơ, phương tiện K
thuật toán được gọi là thuật toán Lloyd tổng quát, là sự tổng quát hóa của
Phương pháp điều trị ban đầu của Lloyd đã xuất hiện trong một báo cáo năm 1957 chưa được công bố tại Bell
Laborato ries. Mãi sau này, vào năm 1982, báo cáo của Lloyd mới xuất hiện dưới dạng xuất bản.
4. Phân biệt tuyến tính của Fisher Hàm chi phí được xác định trong phương trình. (5.26) không là gì ngoài dấu vết
của cái gọi là ma trận hiệp phương sai (phân tán) trong lớp (Theodoridis và Koutroumbas, 2003).
Để hiểu ý nghĩa của câu lệnh này, hãy xem xét một biến y được xác định bởi một
sản phẩm bên trong như sau:
y = wTx (MỘT)
Vectơ x được vẽ từ một trong hai tập hợp và c2 c1 ,cái nào khác nhau
và là 2, và w là một vectơ của para mét có thể điều
theo các vectơ trung bình tương 1ứng
chỉnh được. Tiêu chí Fisher để phân biệt giữa hai loại này được xác định bởi
wTCbw
J (w) = (B)
wTCtw
Trong đó Cb là ma trận hiệp phương sai giữa các lớp, được xác định bởi
Cb = ( 2 - 1) ( 2 - 1) T (C)
và Ct là ma trận hiệp phương sai tổng trong lớp, được xác định bởi
(D)
Ct = anHc1 (xn - 1) (xn - 1) T + anHc2 (xn - 2) (xn - 2) T
Ma trận hiệp phương sai trong lớp Ct tỷ lệ với ma trận hiệp phương sai mẫu của
mẫu đào tạo. Nó là xác định đối xứng và không âm và thường là không cần chú ý nếu
kích thước của mẫu huấn luyện lớn. Ma trận hiệp phương sai giữa các lớp Cb cũng là đối xứng
Vấn đề 263
và xác định không âm, nhưng số ít. Một thuộc tính được quan tâm đặc biệt là ma trận
sản phẩm Cbw luôn theo hướng của vectơ trung bình khác biệt Tính chất này 1 2.
theo sau trực tiếp từ định nghĩa của Cb.

Biểu thức xác định J (w) được gọi là thương số Rayleigh tổng quát . Vec tor w cực đại J (w)
phải thỏa mãn điều kiện
Cbw = Ctw (E)
hệ số tỷ lệ ở đâu. Phương trình (E) là một bài toán giá trị riêng tổng quát. Công nhận
rằng, trong trường hợp của chúng ta, tích ma trận Cbw luôn có hướng của vectơ sai phân
1 2, chúng tôi thấy rằng giải pháp cho phương trình. (E) chỉ đơn giản là
w -1
= Ct ( 1 - 2) (F)
được gọi là phép phân biệt tuyến tính của Fisher (Duda và cộng sự, 2001).
Lấy dấu vết của ma trận hiệp phương sai trong lớp Ct của phương trình. (D), chúng tôi thấy rằng
hàm chi phí của Eq. (5.26) thực sự là dấu vết của ma trận hiệp phương sai này, như đã
đã nêu.
5. Về mặt triết học, quy trình tối ưu hóa hai bước được mô tả trong văn bản cho thuật toán K mean tương
tự như tối ưu hóa hai bước liên quan đến thuật toán EM,
trong đó bước đầu tiên là một trong những kỳ vọng, được ký hiệu là “E” và bước thứ hai là một trong
những mức tối ưu hóa tối đa, được ký hiệu là “M”. Thuật toán EM ban đầu được phát triển trong bối cảnh
tính toán khả năng xảy ra tối đa; nó được mô tả trong Chương 11.
6. Trong tài liệu, từ viết tắt “RLS” được sử dụng làm tên viết tắt của thuật toán bình phương nhỏ nhất
chính quy được thảo luận trong Chương 2 cũng như thuật toán bình phương nhỏ nhất đệ quy được đề cập
trong chương này. Từ bối cảnh của cuộc thảo luận thích hợp, chúng tôi thường có thể
phân biệt thuật toán nào trong số hai thuật toán này mà acroynm đề cập đến.
7. Bản chất của thuật toán RLS được tóm tắt trong Phần 5.6, một thuật toán cổ điển, được mô tả trong
sách của Diniz (2002); Haykin (2002).
8. Các quy trình học tập kết hợp cho mạng RBF đã được mô tả khác nhau trong lít ature, sử dụng các thuật
toán khác nhau cho hai giai đoạn của quy trình; xem Moody and Darken
(1989) và Lippman (1989b).
9. Công cụ ước lượng trung bình có điều kiện của Eq. (5.52) cũng là một công cụ ước lượng bình phương trung bình tối thiểu; một
bằng chứng của tuyên bố này được trình bày trong Chú giải 7 của Chương 14 dưới sự bảo trợ của Bayes
lý thuyết ước lượng.
10. Để có bằng chứng về tính chất tiệm cận không thiên vị của esti mật độ Parzen – Rosenblatt
mator, xem Parzen (1962) và Cacoullos (1966).
11. Công cụ ước lượng hồi quy Nadaraya – Watson đã là chủ đề của nghiên cứu sâu rộng trong
văn học thống kê. Trong một bối cảnh rộng hơn, ước lượng hàm không tham số chiếm một vị trí trong
thống kê; xem Härdle (1990) và bộ sưu tập các bài báo trong Roussas (1991).
CÁC VẤN ĐỀ
Định lý Cover
5.1 Như đã đề xuất trong Phần 5.2, cách tốt nhất để nghiên cứu Eq. (5.5) là chuẩn hóa nó bằng cách đặt N
m1. Sử dụng chuẩn hóa này, vẽ biểu đồ P ( m1, m1) so với N 1, 5, 15 và 25. Do đó,
xác nhận hai đặc điểm của Eq. (5.5) được mô tả trong phần.
5.2 Xác định điểm mạnh và điểm yếu của định lý Cover như đã nêu ở phần đầu của Sec
tion 5.2.
5.3 Ví dụ được đưa ra trong Hình 5.1b mô tả một phép toán chính tả có thể phân tách theo hình
cầu. Giả sử rằng bốn điểm dữ liệu bên ngoài bề mặt phân cách nằm trên một vòng tròn và điểm
dữ liệu duy nhất bên trong nằm ở tâm của bề mặt phân tách. Điều tra xem mẫu điểm dữ liệu này
được biến đổi phi tuyến tính như thế nào, sử dụng (a) đa số
(x) = (x2 + 1) 1 2
(b) đa số nghịch đảo
1
(x) =
(x2 + 1) 1 2
K-means Clustering 5.4
Xem xét sửa đổi sau đây của hàm chi phí được xác định trong phương trình. (5,26):
K N
2
J ( j) = aa wij7 xi - j7
j = 1 i = 1
Trong hàm này, hệ số trọng số wij được định nghĩa như sau:
wij = e 10 nếu
nếu không
điểm dữ liệu xi nằm trong cụm j
Chứng tỏ rằng giải pháp tối thiểu hóa của hàm chi phí này là
một wijxi
=
ˆj
i = 1
, j = 1, 2, ..., K
N
một wij
i = 1
Làm thế nào để bạn giải thích các biểu thức ở tử số và mẫu số của công thức này?
Đối chiếu kết luận từ hai câu trả lời của bạn với kết luận mà chúng ta đã học trong văn
bản trong ngữ cảnh phân cụm.
Thuật toán bình phương tối thiểu đệ quy
5.5 Trong bài toán này, chúng ta giải thích một cách thống kê ma trận P được định nghĩa là nghịch đảo
của ma trận tương quan R.
(a) Sử dụng mô hình hồi quy tuyến tính
di = wT + tôi , i = 1, 2, ..., N
tôi
cho thấy rằng ước tính tối ưu hóa bình phương nhỏ nhất của w được biểu thị bằng
wˆ = w + (
T ) -1 T
Vấn đề 265
ở đâu
1
T
= ≥ T ¥ o
T
N
và
T
= [ 1, 2, ..., N]
2.
Giả sử rằng lỗi là một mẫu của quá trình nhiễu trắng có phương sai (b)
tôi
Do đó, hãy chỉ ra rằng ma trận hiệp phương sai
[(w - wˆ ) (w - wˆ ) T] = 2 R-1
= 2P
ở đâu
R = a T ii
i = 1
5.6 Bắt đầu với hàm chi phí chính quy
1 N 1
2
eav (w) = a (d (i) - wT (i)) 2 + 2 7 w7
2
tôi = 1
làm như sau: (a)

1 2 không ảnh hưởng gì đến
Cho thấy rằng việc bổ sung thuật ngữ chính quy 2 7
w7 thành phần của thuật toán RLS, như được tóm tắt trong Phần 5.6.
(b) Tác dụng duy nhất của việc giới thiệu thuật ngữ chính quy là sửa đổi biểu thức cho
ma trận tương quan của dữ liệu đầu vào thành biểu mẫu
R (n) = a (i) T (i) + I

i = 1
trong đó tôi là ma trận nhận dạng. Xác minh công thức mới này của ma trận tương quan R
(n), và chứng minh lợi ích thực tế thu được bằng cách đưa vào chính quy hóa.
5.7 Thuật toán bình phương nhỏ nhất (LMS) để lọc thích ứng đã được thảo luận trong Chương 3.
So sánh ưu điểm và nhược điểm của thuật toán bình phương nhỏ nhất (RLS) đệ quy với
thuật toán LMS.
Đào tạo có giám sát của mạng RBF 5.8 Mối
quan hệ đầu vào - đầu ra của mạng RBF dựa trên Gaussian được xác định bởi
K 1
y (i) = a 7 x (i) - j (n) i = 1, 2, ..., N
wj (n) exp a - 2 2
7 (n) 2 b ,
j = 1
trong đó (n) là điểm chính giữa của đơn vị Gaussian thứ j, chiều rộng (n) là chung cho tất cả các
j
đơn vị K và wj (n) là trọng số tuyến tính được gán cho đầu ra của đơn vị thứ j; tất cả những thứ này
các tham số được đo tại thời điểm n. Hàm chi phí được sử dụng để đào tạo mạng được xác định bởi
N
1
e = 2
a e2 (i)
i = 1
ở đâu
e (i) = d (i) - y (i)
Hàm chi phí e là một hàm lồi của các trọng số tuyến tính trong lớp đầu ra, nhưng không lồi đối với các
tâm và chiều rộng của các đơn vị Gauss. (a) Đánh giá các đạo hàm riêng của hàm chi phí đối với từng tham
số mạng wj (n), (n) và (n), với mọi i. (b) Sử dụng các gradient thu được trong phần (a) để thể hiện các
công thức cập nhật cho tất

j cả các tham số mạng, giả sử các tham số tốc độ học w, µ và cho các tham
số có thể điều chỉnh của mạng, tương ứng. (c) Vectơ gradient 0e j (n) có ảnh hưởng đến dữ liệu đầu vào
tương tự như phân cụm.
Biện minh cho tuyên bố này.
Ước tính hạt nhân

N
5.9 Giả sử rằng bạn được cung cấp một mẫu đào tạo “không ồn ào” {f (xi )} i = 1 ,và yêu cầu là thiết kế
một mạng tổng quát hóa thành các mẫu dữ liệu bị hỏng do nhiễu cộng và do đó không được
đưa vào tập huấn luyện. Gọi F (x) biểu thị hàm xấp xỉ được thực hiện bởi một mạng như
vậy, được chọn sao cho sai số bình phương mong đợi
N
1
J (F) = một [f (xi ) - F (xi ,)] 2 f () d
2 i = 1 3 m0
là tối thiểu, trong đó không là hàm mật độ xác suất của phân bố nhiễu trong. Chứng tỏ rằng
m0
gian đầu vào f () lời giải của bài toán bình phương nhỏ nhất này được đưa ra như sau
(Webb, 1994):
a f (xi ) f (x - xi )
i = 1
F (x) = N
af (x - xi )
i = 1
So sánh công cụ ước lượng này với công cụ ước lượng hồi quy Nadaraya – Watson.
Thí nghiệm máy tính 5.10

Mục đích của thí nghiệm máy tính này là để khảo sát quá trình phân cụm được thực hiện bởi
thuật toán K-mean. Để cung cấp thông tin chi tiết về thí nghiệm, chúng tôi cố định số
lượng cụm tại K 6, nhưng thay đổi sự phân tách theo chiều dọc giữa hai mặt trăng trong
Hình 1.8. Nếu cụ thể, yêu cầu là thực hiện như sau, sử dụng một mẫu đào tạo không gắn
nhãn gồm 1.000 điểm dữ liệu được chọn ngẫu nhiên từ hai vùng của mặt trăng đôi trong hình
ˆj trung bình và j phương
ˆ 2
1.8: (a) Bằng thực nghiệm, xác định giá trị , j = 1, 2, ..., 6, cho chuỗi
sai
tám khoảng cách thẳng đứng cách đều nhau bắt đầu từ d 1 và giảm chúng đi một cho
đến khi đạt đến khoảng cách cuối cùng d - 6.
ˆj cụm j bị ảnh
(b) Dựa trên các kết quả thu được trong phần (a), hãy nhận xét về giá trị trung bình của
hưởng như thế nào khi giảm độ phân tách d đối với j = 1, 2 và 3.
Vấn đề 267
(c) Vẽ đồ thị phương sai ˆso

2
j
với khoảng cách d cho j = 1, 2, ..., 6.
2
(d) So sánh công thức tính toán chung
nghiệm
phùcủa
hợpphương
với công
trình.
thức thực
(5.49) với các xu hướng được trình bày trong các ô thu được ở phần (c).
5.11 Mục đích của thử nghiệm thứ hai này là để so sánh hiệu suất phân loại của hai
thuật toán học tập kết hợp: thuật toán “K-mean, RLS” được nghiên cứu trong Phần 5.8 và
Thuật toán “K-mean, LMS” đã được nghiên cứu trong vấn đề này.
Như trong Phần 5.8, giả sử các thông số kỹ thuật sau:
Số đơn vị Gaussian ẩn: 20
Số lượng mẫu đào tạo: 1.000 điểm dữ liệu

Số lượng mẫu thử nghiệm: 2.000 điểm dữ liệu
Hãy để tham số tốc độ học của thuật toán LMS được ủ tuyến tính từ 0,6 trở xuống
đến 0,01.
(a) Xây dựng ranh giới quyết định được tính toán cho thuật toán “K-mean, LMS” cho
sự phân cách thẳng đứng giữa hai mặt trăng trong Hình 1.8 đặt tại d = - 5.
(b) Lặp lại thí nghiệm cho d = - 6.
(c) So sánh kết quả phân loại thu được bằng cách sử dụng thuật toán “K-mean, LMS” với
thuật toán “K-mean, RLS” được nghiên cứu trong Phần 5.8.
(d) Nói chung, thảo luận về cách so sánh độ phức tạp của thuật toán “K-mean, LMS” như thế nào
với thuật toán “K-mean, RLS”.
CHƯƠNG 6
Hỗ trợ Máy Vector
Chương này được dành cho việc nghiên cứu máy vectơ hỗ trợ: một thuật toán học máy có
lẽ là phương pháp tốt nhất trong tất cả các phương pháp học hạt nhân. Tiếp theo phần
giới thiệu, Phần 6.1, phần còn lại của chương được tổ chức như sau: 1. Phần 6.2 thảo
luận về việc xây dựng một siêu phẳng tối ưu cho trường hợp đơn giản của các mẫu phân
tách tuyến tính, tiếp theo là xem xét trường hợp khác biệt hơn của các mẫu không
thể tách rời trong Phần 6.3.
2. Trong Phần 6.4, ý tưởng về một nhân sản phẩm bên trong được giới thiệu, từ đó xây
dựng khuôn khổ để xem thuật toán học liên quan đến việc xây dựng một máy vectơ hỗ
trợ như một phương pháp nhân. Trong phần đó, chúng tôi cũng giới thiệu một khái
niệm được sử dụng rộng rãi được gọi là “thủ thuật hạt nhân”. Triết lý thiết kế của
máy vectơ hỗ trợ được tóm tắt trong Phần 6.5, tiếp theo là xem xét lại vấn đề XOR
prob lem trong Phần 6.6. Phần thứ hai của chương kết thúc với một kiến thức chuyên
môn máy tính về phân loại mẫu, được trình bày trong Phần 6.7.
3. Phần 6.8 giới thiệu khái niệm về hàm mất mát-nhạy cảm, việc sử dụng
trong việc giải quyết các vấn đề hồi quy được thảo luận trong Phần 6.9.
4. Phần 6.10 đề cập đến định lý đại diện, cung cấp cái nhìn sâu sắc về cách xử lý một hàm gần
đúng trong bối cảnh của các hạt nhân Mercer.
6.1 GIỚI THIỆU
Trong Chương 4, chúng tôi đã nghiên cứu các perceptron nhiều lớp được huấn luyện với thuật
toán lan truyền ngược. Đặc điểm mong muốn của thuật toán này là tính đơn giản, nhưng thuật
toán hội tụ chậm và thiếu tính tối ưu. Trong Chương 5, chúng tôi đã nghiên cứu một lớp khác
của mạng chuyển tiếp nguồn được gọi là mạng hàm cơ sở xuyên tâm, chúng tôi đã phát triển từ
lý thuyết nội suy; sau đó chúng tôi mô tả một quy trình hai giai đoạn không tối ưu cho thiết kế của nó.
Trong chương này, chúng tôi nghiên cứu một danh mục khác của mạng chuyển tiếp được
gọi chung là máy vectơ hỗ trợ (SVM) .1
Về cơ bản, máy vectơ hỗ trợ là một máy học nhị phân với một số đặc tính cao cấp.
268

Neural Networks and Learning Machines by Simon O. Haykin-Pages-1-299

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Neural Networks and Learning Machines by Simon O. Haykin-Pages-1-299

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

Machine Translated by Google

Mạng thần kinh và

New York Boston San Francisco

Bao gồm tài liệu tham khảo và chỉ mục.

Pearson® là nhãn hiệu đã đăng ký của Pearson plc

Pearson Education Ltd. Pearson Education Australia Pty. Limited

Pearson Education Canada, Ltd. Pearson Educación de Mexico, SA de CV

Pearson Education – Japan Pearson Education Malaysia Pte. Ltd.

Trang này cố ý để trống

Lời nói đầu x

Chương 1 Rosenblatt's Perceptron 47

Chương 2 Xây dựng mô hình thông qua hồi quy 68

2.9 Tóm tắt và thảo luận 88

Chương 3 Thuật toán bình phương tối thiểu 91 Giới thiệu

3.3 Tối ưu hóa không giới hạn: Đánh giá 94 3.4 Bộ

Chương 4 Perceptron đa lớp 122 4.1 Giới thiệu

Nội dung vii

Chương 6 Máy vectơ hỗ trợ 268 6.1 Giới thiệu 268

Chương 7 Lý thuyết điều tiết 313 7.1 Giới

Chương 8 Phân tích các thành phần chính 367

viii Nội dung

Chương 9 Bản đồ tự tổ chức 425 Giới thiệu

Kernel SOM 462

10,5 Kullback – Leibler Phân kỳ 486 10,6

11,4 Thuật toán Metropolis 591

Chương 12 Lập trình động 627 12.1 Giới thiệu

Chương 13 Neurodynamics 672

Thư mục 845

Lời nói đầu

Tổ chức của Sách

xii Lời nói đầu

nhiệt động lực học không cân bằng).

Ba chương này, mặc dù khác nhau về khái niệm, nhưng có chung

tập quy mô nhỏ và quy mô lớn.

Lời nói đầu xiii

có thể phân tách tuyến tính và khi nào thì không;

các vấn đề;

xiv Lời nói đầu

(i) Định đề của Hebb về việc học tập để tự khuếch đại;

Chủ đề chính của chương gồm ba phần: • Các

• khớp mật độ đầu vào - đầu ra; •

Lời nói đầu xv

xvi Lời nói đầu

Lời nói đầu xvii

xviii Lời nói đầu

• lan truyền ngược lại theo thời gian, và

Các tính năng khác biệt của cuốn sách

Lời nói đầu xix

Trang này cố ý để trống

xxii Lời cảm ơn

Tôi cảm ơn tất cả họ một cách chân thành nhất.

Tôi biết ơn các sinh viên sau đại học của

Viết tắt và ký hiệu

CÁC TỪ VIẾT TẮT

BBTT lan truyền ngược thời gian

cmm bộ nhớ ma trận tương quan

DFA dữ liệu tự động trạng thái hữu hạn xác định

EKF bộ lọc Kalman mở rộng

GCV xác nhận chéo tổng quát

ICA phân tích các thành phần độc lập

Imax biến thể của Infomax

KSOM bản đồ tự tổ chức hạt nhân