Phân Tích H I T Cho Hàm M C Tiêu L I

You might also like

Download as txt, pdf, or txt
Download as txt, pdf, or txt
You are on page 1of 3

Đây là phần đọc thêm để mang lại cái nhìn trực quan hơn về bài toán, giới hạn

lại
trong một cách chứng minh đơn giản được trình bày trong [Nesterov & Vial, 2000].
Cũng có những cách chứng minh nâng cao hơn, ví dụ như khi hàm mục tiêu được định
nghĩa tốt. :cite: Hazan.Rakhlin.Bartlett.2008 chỉ ra rằng với các hàm lồi chặt, cụ
thể là các hàm có cận dưới là x⊤Qx
, ta có thể cực tiểu hóa chúng chỉ với một số lượng nhỏ bước lặp trong khi giảm
tốc độ học theo η(t)=η0/(βt+1)
. Thật không may, trường hợp này không xảy ra trong học sâu, trên thực tế mức độ
giảm tốc độ học chậm hơn rất nhiều.

Xét trường hợp

(11.8.6)
wt+1=wt−ηt∂wl(xt,w).

Cụ thể, ta giả sử xt
được lấy từ phân phối P(x)
và l(x,w)
là hàm lồi theo biến w
với mọi x
. Cuối cùng, ta kí hiệu

(11.8.7)
R(w)=Ex∼P[l(x,w)]

là giá trị mất mát kỳ vọng và R∗


là cực tiểu của hàm mất mát theo w
. Ta kí hiệu w∗
là nghiệm tại cực tiểu (minimizer) với giả định giá trị này tồn tại trong miền
xác định. Trong trường hợp này, chúng ta lần theo khoảng cách giữa tham số hiện tại
wt
và nghiệm cực tiểu w∗
, và xem liệu giá trị này có cải thiện theo thời gian không:

(11.8.8)
∥wt+1−w∗∥2=∥wt−ηt∂wl(xt,w)−w∗∥2=∥wt−w∗∥2+η2t∥∂wl(xt,w)∥2−2ηt⟨wt−w∗,∂wl(xt,w)⟩.

Gradient ∂wl(xt,w)
có cận trên là một hằng số Lipschitz L
, do đó ta có

(11.8.9)
η2t∥∂wl(xt,w)∥2≤η2tL2.

Điều chúng ta thực sự quan tâm là khoảng cách giữa wt


và w∗
thay đổi như thế nào theo kỳ vọng. Thực tế, với chuỗi các bước bất kỳ, khoảng
cách này cũng có thể thể tăng lên, tuỳ thuộc vào giá trị của xt
mà ta gặp phải. Do đó cần xác định cận cho tích vô hướng. Từ tính chất lồi, ta có

(11.8.10)
l(xt,w∗)≥l(xt,wt)+⟨w∗−wt,∂wl(xt,wt)⟩.

Kết hợp hai bất đẳng thức trên, ta tìm được cận cho khoảng cách giữa các tham số
tại bước t+1
như sau:

(11.8.11)
∥wt−w∗∥2−∥wt+1−w∗∥2≥2ηt(l(xt,wt)−l(xt,w∗))−η2tL2.

Điều này có nghĩa quá trình học vẫn sẽ cải thiện miễn là hiệu số giữa hàm mất mát
hiện tại và giá trị mất mát tối ưu vẫn lớn hơn ηtL2
. Để đảm bảo hàm mất mát hội tụ về 0
, tốc độ học ηt
cũng cần phải giảm dần.

Tiếp theo chúng ta tính giá trị kỳ vọng cho biểu thức trên

(11.8.12)
Ewt[∥wt−w∗∥2]−Ewt+1∣wt[∥wt+1−w∗∥2]≥2ηt[E[R[wt]]−R∗]−η2tL2.

Ở bước cuối cùng, ta tính tổng các bất đẳng thức trên cho mọi t∈{t,…,T}
. Rút gọn tổng và bỏ qua các hạng tử thấp hơn, ta có

(11.8.13)
∥w0−w∗∥2≥2∑t=1Tηt[E[R[wt]]−R∗]−L2∑t=1Tη2t.

Lưu ý rằng ta tận dụng w0


cho trước và do đó có thể bỏ qua giá trị kỳ vọng. Cuối cùng, ta định nghĩa

(11.8.14)
w¯:=∑Tt=1ηtwt∑Tt=1ηt.

Từ đó, theo tính chất lồi, ta có

(11.8.15)
∑tηtE[R[wt]]≥∑ηt⋅[E[w¯]].

Thay vào bất đẳng thức ở trên, ta tìm được cận

(11.8.16)
[E[w¯]]−R∗≤r2+L2∑Tt=1η2t2∑Tt=1ηt.

Trong đó r2:=∥w0−w∗∥2
là khoảng cách giới hạn giữa giá trị khởi tạo của các tham số và kết quả cuối
cùng. Nói tóm lại, tốc độ hội tụ phụ thuộc vào tốc độ thay đổi của hàm mất mát
thông qua hằng số Lipschitz L
và khoảng cách r
giữa giá trị ban đầu so với giá trị tối ưu. Chú ý rằng giới hạn ở trên được kí
hiệu bởi w¯
thay vì wT
do w¯
là quỹ đạo tối ưu được làm mượt. Hãy cùng phân tích một số cách lựa chọn ηt
.

Thời điểm xác định. Với mỗi r,L


và T
xác định ta có thể chọn η=r/LT−−√
. Biểu thức này dẫn tới giới hạn trên rL(1+1/T)/2T−−√<rL/T−−√
. Điều này nghĩa là hàm sẽ hội tụ đến nghiệm tối ưu với tốc độ O(1/T−−√)
.
Thời điểm chưa xác định. Khi muốn nghiệm tốt cho bất kì thời điểm T
nào, ta có thể chọn η=O(1/T−−√)
. Cách làm trên tốn thêm một thừa số logarit, dẫn tới giới hạn trên có dạng
O(logT/T−−√)
.
Chú ý rằng đối với những hàm mất mát lồi tuyệt đối l(x,w′)≥l(x,w)+⟨w′−w,∂wl(x,w)⟩
+λ2∥w−w′∥2
ta có thể thiết kế quy trình tối ưu nhằm tăng tốc độ hội tụ nhanh hơn nữa. Thực
tế, sự suy giảm theo cấp số mũ của η
dẫn đến giới hạn có dạng O(logT/T).

You might also like