Professional Documents
Culture Documents
Phân Tích H I T Cho Hàm M C Tiêu L I
Phân Tích H I T Cho Hàm M C Tiêu L I
Phân Tích H I T Cho Hàm M C Tiêu L I
lại
trong một cách chứng minh đơn giản được trình bày trong [Nesterov & Vial, 2000].
Cũng có những cách chứng minh nâng cao hơn, ví dụ như khi hàm mục tiêu được định
nghĩa tốt. :cite: Hazan.Rakhlin.Bartlett.2008 chỉ ra rằng với các hàm lồi chặt, cụ
thể là các hàm có cận dưới là x⊤Qx
, ta có thể cực tiểu hóa chúng chỉ với một số lượng nhỏ bước lặp trong khi giảm
tốc độ học theo η(t)=η0/(βt+1)
. Thật không may, trường hợp này không xảy ra trong học sâu, trên thực tế mức độ
giảm tốc độ học chậm hơn rất nhiều.
(11.8.6)
wt+1=wt−ηt∂wl(xt,w).
Cụ thể, ta giả sử xt
được lấy từ phân phối P(x)
và l(x,w)
là hàm lồi theo biến w
với mọi x
. Cuối cùng, ta kí hiệu
(11.8.7)
R(w)=Ex∼P[l(x,w)]
(11.8.8)
∥wt+1−w∗∥2=∥wt−ηt∂wl(xt,w)−w∗∥2=∥wt−w∗∥2+η2t∥∂wl(xt,w)∥2−2ηt⟨wt−w∗,∂wl(xt,w)⟩.
Gradient ∂wl(xt,w)
có cận trên là một hằng số Lipschitz L
, do đó ta có
(11.8.9)
η2t∥∂wl(xt,w)∥2≤η2tL2.
(11.8.10)
l(xt,w∗)≥l(xt,wt)+⟨w∗−wt,∂wl(xt,wt)⟩.
Kết hợp hai bất đẳng thức trên, ta tìm được cận cho khoảng cách giữa các tham số
tại bước t+1
như sau:
(11.8.11)
∥wt−w∗∥2−∥wt+1−w∗∥2≥2ηt(l(xt,wt)−l(xt,w∗))−η2tL2.
Điều này có nghĩa quá trình học vẫn sẽ cải thiện miễn là hiệu số giữa hàm mất mát
hiện tại và giá trị mất mát tối ưu vẫn lớn hơn ηtL2
. Để đảm bảo hàm mất mát hội tụ về 0
, tốc độ học ηt
cũng cần phải giảm dần.
Tiếp theo chúng ta tính giá trị kỳ vọng cho biểu thức trên
(11.8.12)
Ewt[∥wt−w∗∥2]−Ewt+1∣wt[∥wt+1−w∗∥2]≥2ηt[E[R[wt]]−R∗]−η2tL2.
Ở bước cuối cùng, ta tính tổng các bất đẳng thức trên cho mọi t∈{t,…,T}
. Rút gọn tổng và bỏ qua các hạng tử thấp hơn, ta có
(11.8.13)
∥w0−w∗∥2≥2∑t=1Tηt[E[R[wt]]−R∗]−L2∑t=1Tη2t.
(11.8.14)
w¯:=∑Tt=1ηtwt∑Tt=1ηt.
(11.8.15)
∑tηtE[R[wt]]≥∑ηt⋅[E[w¯]].
(11.8.16)
[E[w¯]]−R∗≤r2+L2∑Tt=1η2t2∑Tt=1ηt.
Trong đó r2:=∥w0−w∗∥2
là khoảng cách giới hạn giữa giá trị khởi tạo của các tham số và kết quả cuối
cùng. Nói tóm lại, tốc độ hội tụ phụ thuộc vào tốc độ thay đổi của hàm mất mát
thông qua hằng số Lipschitz L
và khoảng cách r
giữa giá trị ban đầu so với giá trị tối ưu. Chú ý rằng giới hạn ở trên được kí
hiệu bởi w¯
thay vì wT
do w¯
là quỹ đạo tối ưu được làm mượt. Hãy cùng phân tích một số cách lựa chọn ηt
.