Gradient ngẫu nhiên và Mẫu hữu hạn

You might also like

Download as txt, pdf, or txt
Download as txt, pdf, or txt
You are on page 1of 1

Tới phần này, ta đi khá nhanh và chưa chặt chẽ khi thảo luận về hạ gradient ngẫu

nhiên. Ta ngầm định lấy các đối tượng xi


, thường là cùng với nhãn yi
từ phân phối p(x,y)
nào đó và sử dụng chúng để cập nhật các trọng số w
theo cách nào đó. Cụ thể, với kích thước mẫu hữu hạn, ta đơn giản lập luận rằng
phân phối rời rạc p(x,y)=1n∑ni=1δxi(x)δyi(y)
cho phép áp dụng SGD.

Tuy nhiên, đó thật ra không phải là cách ta đã làm. Trong các ví dụ đơn giản ở phần
này ta chỉ thêm nhiễu vào gradient không ngẫu nhiên, tức giả sử đang có sẵn các cặp
giá trị (xi,yi)
. hóa ra cách làm đó khá hợp lý (xem phần bài tập để thảo luận chi tiết). Vấn đề
là ở tất cả các thảo luận trước, ta không hề làm thế. Thay vào đó ta duyệt qua tất
cả các đối tượng đúng một lần. Để hiểu tại sao quá trình này được ưa chuộng, hãy
xét trường hợp ngược lại khi ta lấy có hoàn lại N
mẫu từ một phân phối rời rạc. Xác suất phần tử i
được chọn ngẫu nhiên là N−1
. Do đó xác suất chọn i
ít nhất một lần là

(11.8.17)
P( chọn i)=1−P( loại i)=1−(1−N−1)N≈1−e−1≈0.63.

Tương tự, ta có thể chỉ ra rằng xác suất chọn một mẫu đúng một lần là
(N1)N−1(1−N−1)N−1=N−1N(1−N−1)N≈e−1≈0.37
. Điều này gây tăng phương sai và giảm hiệu quả sử dụng dữ liệu so với lấy mẫu
không hoàn lại. Do đó trong thực tế, ta thực hiện lấy mẫu không hoàn lại (và đây
cũng là lựa chọn mặc định trong quyển sách này). Điều cuối cùng cần chú ý là mỗi
lần duyệt lại tập dữ liệu, ta sẽ duyệt theo một thứ tự ngẫu nhiên khác.

You might also like