Dual Augmented Lagrangian Algorithm 法によるスパース正則化

Dual Augmented Lagrangian Algorithm 法による
スパース正則化 .
冨岡亮太1 , 鈴木大慈 1 , 杉山将 2 .
1 東大数理情報学専攻
2 東工大計算工学専攻
tomioka@mist.i.u-tokyo.ac.jp
2010-4-13 @ 統計学輪講
冨岡亮太 (数理情報) DAL 2010-4-13 1 / 36

イントロ — スパース正則化具体例
スパース回帰（組み合わせ的）
入出力の組み
(x 1 , y1 ), (x 2 , y2 ), . . . , (x m , ym ), (x i ∈ Rn ).
仮定：
yi = 〈w , x i 〉 + ϵi , ϵi ∼ N (0, σ 2 ).
経験誤差：
1X
m
1
L(w ) = (yi − 〈w , x i 〉)2 = ∥y − Aw ∥2 .
2 2
i=1
問題：
minimize L(w ), s.t. ∥w ∥0 ≤ C (NP 困難!!)
動機 1：現実には多くの場合 m < n．
動機 2：なるべく少ない数の変数で説明したい！
（w の非ゼロ要素の数 ∥w ∥0 が少なければ少ないほどよい）
冨岡亮太 (数理情報) DAL 2010-4-13 2 / 36
スパース回帰（連続）
p-ノルムの p 乗（のようなもの）
(
P p ≥ 1 ならば凸
∥w ∥pp = nj=1 |wj |p :
p < 1 ならば非凸
4
|x|0.01
|x|0.5
3 |x|
x2
0
−3 −2 −1 0 1 2 3
∥w ∥1 の正則化は凸の中ではもっとも ∥w ∥0 の正則化に近い！
冨岡亮太 (数理情報) DAL 2010-4-13 3 / 36
スパース回帰（連続）
p-ノルムの p 乗（のようなもの）
(
P p ≥ 1 ならば凸
∥w ∥pp = nj=1 |wj |p :
p < 1 ならば非凸
4
|x|0.01
|x|0.5
3 |x|
x2
0
−3 −2 −1 0 1 2 3
∥w ∥1 の正則化は凸の中ではもっとも ∥w ∥0 の正則化に近い！
冨岡亮太 (数理情報) DAL 2010-4-13 3 / 36
Lasso 回帰（連続かつ凸）
問題 1:
minimize ∥w ∥1 , s.t. L(w ) ≤ C.
問題 2:
minimize L(w ), s.t. ∥w ∥1 ≤ C ′ .
問題 3:
minimize L(w ) + λ∥w ∥1 . [From Efron et al. (2003)]

注意：
上の 3 つの問題はいずれも等価．
正則化項やロス項に単調な非線形変換をしても等価．
この発表では問題 3 を扱う．
冨岡亮太 (数理情報) DAL 2010-4-13 4 / 36

なぜ ℓ1 -正則化か？
凸の中で最も ∥ · ∥0 に近い．
原点で微分不可能（有限の λ で
ゼロに打ち切ることができる．）
凸でない正則化
→ 繰り返し（重み付き）ℓ1 -正
則化問題を解けばよい．
ベイズ周辺化尤度最大化
→（特殊な場合に）繰り返し 2
（重み付き）ℓ1 -正則化問題を解 1.5
けばよい． 1
(Wipf&Nagarajan, 08) 0.5
0
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2
冨岡亮太 (数理情報) DAL 2010-4-13 5 / 36

イントロ — スパース正則化問題設定
問題設定
以下の最適化問題を効率良く解くためのアルゴリズムが求められている．
minimize fℓ (Aw ) + φλ (w ).
w ∈R
n
ただし，
A ∈ Rm×n （m: サンプル数，n: 未知変数の数）．
fℓ は凸で 2 回微分可能．
φλ (w ) は例えば，φλ (w ) = λ∥w ∥1 など，凸だが，微分不可能であっ
てもよい．また，ηφλ = φηλ を仮定．
特定の fℓ に依存したアルゴリズム（LARS など）ではもの足りない．
No Free Lunch – 観測の数が変数の数より少ない場合 (m ≪ n) や A
のコンディションが悪い場合が応用上重要．
冨岡亮太 (数理情報) DAL 2010-4-13 6 / 36

どこが難しいか？
今までの見方: φλ (w ) の微分不可能性が原因．
正則化項を微分可能な関数で上から押
さえる．
FOCUSS
(Rao & Kreutz-Delgado, 99)
Majorization-Minimization
(Figueiredo et al., 07)
微分不可能性を陽に考慮する．
Sub-gradient L-BFGS (Andrew &
Gao, 07; Yu et al., 08)
我々の見方: A が変数の間にからみを導入するのが原因．
冨岡亮太 (数理情報) DAL 2010-4-13 7 / 36

どこが難しいか？
我々の見方: A が変数の間にからみを導入するのが原因．
A = I n （単位行列の場合）
µ ¶ Xn µ ¶
1 1
min ∥y − w ∥2 + λ∥w ∥1 =
2
min (yj − wj ) + λ|wj | .
2
w ∈Rn 2 wj ∈R 2
j=1
⇒ wj∗ = STλ (yj )



yj − λ (λ ≤ yj ),
= 0 (−λ ≤ yj ≤ λ),

 −λ λ
yj + λ (yj ≤ −λ).
解析的に解ける！
本発表では φλ として，上の最小化が解析的に求められるもののみを扱う．
冨岡亮太 (数理情報) DAL 2010-4-13 8 / 36
φλ に関する proximation は解析的に計算できる

仮定
φλ に関する proximation (soft-thresholding)
µ ¶
1
STλ (y) = argmin φλ (w ) + ∥y − w ∥22
w ∈Rn 2
.
は解析的に計算できる．
グループラッソー
X
φλ (w ) = ∥w g∥2 : グループ単位のノルムの和.
g∈G
トレースノルム .
X
r
φλ (W ) = σj (W ) : 特異値の和（W は行列）.
j=1
冨岡亮太 (数理情報) DAL 2010-4-13 9 / 36

Proximation の解釈（脱線）
Proximation は集合に対する射影の一般化．
集合 C の定義関数 δC (x) を
(
0, x ∈ C のとき,
δC (x) =
+∞, その他,
と定義する．
δC に関する proximation ≡ 集合 C への２乗距離の意味での射影．
Proximation による分解：
proxf (z) + proxf ∗ (z) = z.
ただし，f と f ∗ は凸共役な関数の組み．
参照： Moreau 1965, Rockafellar 1970.
冨岡亮太 (数理情報) DAL 2010-4-13 10 / 36

発表の流れ
1 イントロ
スパース正則化
どこが難しいか：微分不可能性 ⇒ 変数の間のからみ
2 最適化アルゴリズム
Iterative shrinkage-thresholding (IST)
Dual Augmented Lagrangian （提案手法）
3 収束レート：超１次収束
厳密な内部最小化の場合
近似的な内部最小化の場合
4 実験
OWLQN, SpaRSA, and FISTA との比較．
5 まとめ
冨岡亮太 (数理情報) DAL 2010-4-13 11 / 36

手法
Iterative Shrinkage/Thresholding (IST)

IST 法 (Figueiredo&Nowak, 03; Daubechies et al., 04;...)
1 適当に初期解 w 0 を決める.
2 停止条件が満たされるまで反復：
³ ´
w t+1 ← STηt λ w t − ηt A⊤ ∇fℓ (Aw t ) . .
| {z } | {z }
縮小勾配ステップ
利点: 実装が簡単．
欠点: デザイン行列 A の条件数が悪い
と遅い． .
冨岡亮太 (数理情報) DAL 2010-4-13 12 / 36

手法
Iterative Shrinkage/Thresholding (IST)

IST 法 (Figueiredo&Nowak, 03; Daubechies et al., 04;...)
1 適当に初期解 w 0 を決める.
³ ´
w t+1 ← STηt λ w t − ηt A⊤ ∇fℓ (Aw t ) . .
| {z } | {z }
縮小勾配ステップ
利点: 実装が簡単．
欠点: デザイン行列 A の条件数が悪い
と遅い． .
冨岡亮太 (数理情報) DAL 2010-4-13 12 / 36

手法
Dual Augmented Lagrangian (DAL) 法（提案手法）
主問題双対問題
minimize fℓ (Aw ) + φλ (w ) maximize − fℓ∗ (−α).− φ∗λ (v )
w | {z } α,v
s.t. v = A⊤ α
f (w )
.
fℓ∗ ，φ∗λ は fℓ ，φλ の凸共役：
. fℓ∗ (α) = sup (〈α, z〉 − fℓ (z))

z∈Rm
..
.
φ∗λ (v ) = sup (〈v , w 〉 − φλ (w ))
w ∈Rn
主問題の最小値 = 双対問題の最大値（強双対性）
冨岡亮太 (数理情報) DAL 2010-4-13 13 / 36

手法
主問題双対問題 .
minimize fℓ (Aw ) + φλ (w ) maximize − fℓ∗ (−α) − φ∗λ (v )
w | {z } α,v
s.t. v = A⊤ α
f (w )
Proximal minimization: ⇔Augmented Lagrangian

µ ¶ (Tomioka & Sugiyama, 09):
1
w t+1 = argmin f (w ) + ∥w − w ∥
t 2
w 2ηt w t+1 = STλη (w t + ηt A⊤ αt ) t
t
(η0 ≤ η1 ≤ · · · ) α = argmin ϕt (α)
α
解析がしやすい．例えば
1 ϕt (α) の最小化は簡単（なめ
f (w t+1 ) + 2ηt
∥w t+1 − w t ∥2 ≤ f (w t ).
らか）.
実用的でない（もとの問題と同
. ステップサイズ ηt は増加．
程度に難しい！）
同値性については Rockafellar 76 を参照．
冨岡亮太 (数理情報) DAL 2010-4-13 14 / 36
手法
w | {z } α,v
s.t. v = A⊤ α
f (w )

1
w t+1 = argmin f (w ) + ∥w − w ∥
t 2
t
(η0 ≤ η1 ≤ · · · ) α = argmin ϕt (α)
α
f (w t+1 ) + 2ηt
∥w t+1 − w t ∥2 ≤ f (w t ).
らか）.
冨岡亮太 (数理情報) DAL 2010-4-13 14 / 36
手法
w | {z } α,v
s.t. v = A⊤ α
f (w )

1
w t+1 = argmin f (w ) + ∥w − w ∥
t 2
t
(η0 ≤ η1 ≤ · · · ) α = argmin ϕt (α)
α
f (w t+1 ) + 2ηt
∥w t+1 − w t ∥2 ≤ f (w t ).
らか）.
冨岡亮太 (数理情報) DAL 2010-4-13 14 / 36
手法
Dual Augmented Lagrangian 法 (ℓ1 -正則化)

1 適当に初期解 w 1 を決める．
³ ´
w t+1 = STηt λ w t + ηt A⊤ αt
ただし，
³ 1 ´
αt = argmin fℓ∗ (−α) + ∥STηt λ (w t + ηt A⊤ α)∥22
α∈Rm | {z } 2ηt
損失関数 fℓ の凸共役 .
冨岡亮太 (数理情報) DAL 2010-4-13 15 / 36

手法
Dual Augmented Lagrangian 法（ℓ1 -正則化の場合）

(1) この計算は解析的にできると仮定．
³ ´
w t+1 = STηt λ w t + A⊤ αt
Ã !
“アクティブな”
(2) この計算はスパースであればあるほど効率的．未知変数の数
に線形
³ 1 ´
α∈Rm | {z } 2ηt
| {z }
A のスケーリン
∂ t ⊤
グの影響を受け ∂α : ASTηt λ (w + ηt A α)
ない ∂
∂α2
: ηt A+ A+ ⊤
（A+ は A の “アクティブな” 列から
なる部分行列; ℓ1 -正則化の場合）
.
(3) A のスケーリングの悪さの影響を受けにくい．
冨岡亮太 (数理情報) DAL 2010-4-13 16 / 36

手法
IST と DAL の違い：いかに変数の間の絡みを取り除くか

目的関数 f に関する Proximation は難しい：
f (w )
³z }| { 1 ´
w t+1 = argmin fℓ (Aw ) +φλ (w ) + ∥w − w t ∥2
w | {z } 2ηt
変数が絡みあっている
IST（既存手法）: 線形にロス項を近似：
fℓ (Aw ) ≅ fℓ (Aw t ) + (w − w t )⊤ A⊤ ∇fℓ (Aw t )
→ 現在の点 w t で最もタイト
DAL（提案法）: 線形なロス項の下限
³ ´
fℓ (Aw ) = maxm −fℓ∗ (−α) − w ⊤ A⊤ α
α∈R
→ 次の点 w t+1 で最もタイト

冨岡亮太 (数理情報) DAL 2010-4-13 17 / 36
手法

f (w )
³z }| { 1 ´
w | {z } 2ηt
→ 現在の点 w t で最もタイト wt+1 wt

³ ´
fℓ (Aw ) = maxm −fℓ∗ (−α) − w ⊤ A⊤ α
α∈R

冨岡亮太 (数理情報) DAL 2010-4-13 17 / 36
手法

f (w )
³z }| { 1 ´
w | {z } 2ηt
→ 現在の点 w t で最もタイト wt+1 wt

³ ´
fℓ (Aw ) = maxm −fℓ∗ (−α) − w ⊤ A⊤ α
α∈R

wt+1 wt
冨岡亮太 (数理情報) DAL 2010-4-13 17 / 36
手法
数値例
デザイン行列 A のコンデイションが悪くなるほど，DAL の方が有利．
IST
2 2
DAL 2
1.5 1.5 1.5
1 1 1
0.5 0.5 0.5
0 0 0
−0.5 −0.5 −0.5
−1 −1 −1
−1.5 −1.5 −1.5
−2 −2 −2
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2
冨岡亮太 (数理情報) DAL 2010-4-13 18 / 36

収束レート
定理 1（厳密な最小化）
定義
w t ：厳密な DAL 法（∥∇ϕt (αt )∥ = 0）で得られる点列．
.
w ∗ ：目的関数 f を最小化する点．
仮定 .
正の定数 σ が存在して
f (w t+1 ) − f (w ∗ ) ≥ σ∥w t+1 − w ∗ ∥2 (t = 0, 1, 2, . . .).
定理１
1
∥w t+1 − w ∗ ∥ ≤ ∥w t − w ∗ ∥. .
1 + σηt
⇒ ηt が増加するなら，w t は w ∗ に超１次収束する．
冨岡亮太 (数理情報) DAL . 2010-4-13 19 / 36

収束レート
定理 2（近似的最小化）
定義
w t : 以下の停止基準による近似的な DAL 法で得られる点列．
q µ ¶
γ .
1/γ: 損失関数の微分
∥∇ϕt (α )∥ ≤ ηt ∥w
t t+1 −w ∥
t
∇fℓ のリプシッツ定数.
定理 2
定理 1 と同じ仮定のもとで .
1
∥w t+1 − w ∗ ∥ ≤ √ ∥w t − w ∗ ∥.
1 + 2σηt
収束レートは厳密な場合 (∥∇ϕt (αt )∥ = 0) より少し悪い．
同程度の収束レートは内部最小化をもう少し厳しくすることで達成
∥∇ϕ (αt )∥
可能 ∥w t+1t −w t ∥ ≤ O(1/ηt ).
.
冨岡亮太 (数理情報) DAL 2010-4-13 20 / 36
収束レート
定理 2（近似的最小化）
定義
w t : 以下の停止基準による近似的な DAL 法で得られる点列．
q µ ¶
γ .
1/γ: 損失関数の微分
∥∇ϕt (α )∥ ≤ ηt ∥w
t t+1 −w ∥
t
∇fℓ のリプシッツ定数.
定理 2
定理 1 と同じ仮定のもとで .
1
∥w t+1 − w ∗ ∥ ≤ √ ∥w t − w ∗ ∥.
1 + 2σηt
収束レートは厳密な場合 (∥∇ϕt (αt )∥ = 0) より少し悪い．
同程度の収束レートは内部最小化をもう少し厳しくすることで達成
∥∇ϕ (αt )∥
可能 ∥w t+1t −w t ∥ ≤ O(1/ηt ).
.
冨岡亮太 (数理情報) DAL 2010-4-13 20 / 36
収束レート
定理 1 の証明（エッセンス）
2ηt ∥w − w t ∥2 を最小化するので，
1
w t+1 は，f (w ) +
(w t − w t+1 )/ηt ∈ ∂f (w t+1 ) （劣微分に入る）

.
従って (Beck & Teboulle 09)，
D E
f (w ∗ ) − f (w t+1 ) ≥ (w t − w t+1 )/ηt , w ∗ − w t+1 .
f(wt+1)
.
f(w∗)
w∗ wt+1
冨岡亮太 (数理情報) DAL 2010-4-13 21 / 36

収束レート
定理 2 の証明（エッセンス）
D E 1
f (w ∗ ) − f (w t+1 ) ≥ (w t − w t+1 )/ηt , w ∗ − w t+1 − ∥∇ϕt (αt )∥2 .
2γ
| .{z }
近似最小化のコスト
1/γ: 損失関数の微分 ∇fℓ のリプシッツ定数．
f(wt+1) .
f(w∗)
w∗ wt+1
冨岡亮太 (数理情報) DAL 2010-4-13 22 / 36

収束レート
他の手法との比較
手法説明収束オーダー
１次 IST O(1/k )
FISTA IST の収束性を改善した O(1/k 2 )
もの
SpaRSA 曲率の情報を利用して ?
IST のステップサイズを
改善したもの
OWLQN 劣微分を利用した擬似ニ ?
ュートン法
高次内点法 Koh, Kim, & Boyd 2007 O(e−k )
DAL 提案法 o(e−k )
冨岡亮太 (数理情報) DAL 2010-4-13 23 / 36

数値実験
数値実験: ℓ1 -正則化付きロジスティック回帰
#samples=1, 024, #unknowns=16, 384.
FISTA DAL
0 0
10 DAL (thm2) 10
２段階 IST (Beck & ||wt − w*|| DAL (thm1)
FISTA
Teboulle 09) −2
10 OWLQN −2
10
SpaRSA
OWLQN −4
10
−4
10
劣微分準ニュートン 10
0 1
10 10
2
10
3
10
4 0
10 10
1 2
10
(Andrew & Gao 07) 2 2

10 10
SpaRSA 0
10
0
10
f(wt) − f(w*)
−2 −2
ステップサイズ改良 10
−4
10
−4
10 10
IST (Wright et al. 09) −6
10
−6
10
DAL
FISTA
OWLQN
−8 −8
10 10 SpaRSA
0 1 2 3 4 0 1 2
10 10 10 10 10 10 10 10
#iteretions CPU time (sec)
冨岡亮太 (数理情報) DAL 2010-4-13 24 / 36

数値実験
未知変数の数に対する計算時間の増加
m = 1,024. n = 4,096–524,288
4
10
DAL
FISTA
OWLQN
3 SpaRSA
10
IRS
DAL−B
L1_LOGREG
CPU time (s)
2
10
1
10
0
10 3 4 5 6
10 10 10 10
Number of unknowns
冨岡亮太 (数理情報) DAL 2010-4-13 25 / 36

応用
脳波解析における接続関係の推定
独立・源信号観測信号
非ガウス信号
P
!
z(t) = H (p) z(t − p) x(t) = M z(t)
p=1
+ ξ(t)
ξ z x
時空間空間方向
スパース即時的
AR過程混合
P
3
2
1
S. Haufe, R. Tomioka, G. Nolte,
空間方向に K‐R Müller and M. Kawanabe,
スパース
IEEE TBME 2010. accepted.
冨岡亮太 (数理情報) DAL 2010-4-13 26 / 36

応用
EM アルゴリズム
E-ステップ：隠れ信号 z(t) の推定（B に関する最尤法）

混合行列の逆行列 M −1 とする．
PPB := (p)
ξ(t) = Bx(t) − p=1 H Bx(t − p) は sech 分布に従うと仮定．
Y
D
1
p(ξ) ∝
e−ξd + eξd
d=1
M-ステップ：AR 係数の推定（H (p) に関するスパース推定）

尤度：sech 分布
正則化：（空間方向に）スパースな接続関係をみつけたい
⇒ 時間方向にグループしたグループラッソー正則化．
冨岡亮太 (数理情報) DAL 2010-4-13 27 / 36

応用
結果（人工データ）
SCSA_EM（提案手法）が混合行列 M の推定および結合係数 H (P) の推
定の両方の意味で優れている．
SCSA_EM（提案手法）
冨岡亮太 (数理情報) DAL 2010-4-13 28 / 36

まとめ
Summary
なぜスパース正則化は難しい? – 変数の間の絡み
微分不可能性は悪くない．
内部最小化はスパースであればあるほど速い．
微分不可能性は効率的な内部最小化のために使える
いかに変数の間の絡みを取り除くか
線形近似の代わりにパラメトリックな下限を使う．
厳密／近似的内部最小化のもとでの超１次収束．
スパース正則化の状況に特殊化することで，現実的・使いやすい条件
のもとで，既存の収束レートを改善．
実験結果も理論をサポート
既存手法 OWLQN, SpaRSA, and FISTA より速い．かつより複雑な
正則化に対応可能．
冨岡亮太 (数理情報) DAL 2010-4-13 29 / 36

まとめ
Summary
冨岡亮太 (数理情報) DAL 2010-4-13 29 / 36

まとめ
Summary
冨岡亮太 (数理情報) DAL 2010-4-13 29 / 36

まとめ
Summary
冨岡亮太 (数理情報) DAL 2010-4-13 29 / 36

Appendix
Benchmark datasets (dorothea)
m = 800, n = 100,000.
500 100
DAL
DAL−B
400 90
Cumulative CPU time (s)
FISTA
Test accuracy (%)

OWLQN
300 SpaRSA 80
L1_LOGREG
200 70
100 60
0 0 −1 −2 −3
50 0 −1 −2 −3
10 10 10 10 10 10 10 10
Regularization constant λ̄. Regularization constant λ̄.
冨岡亮太 (数理情報) DAL 2010-4-13 30 / 36

Appendix
Benchmark datasets (madelon)
m = 2,000, n = 500.
20 64
DAL
DAL−B 62
Cumulative CPU time (s)
15 FISTA
60
Test accuracy (%)

OWLQN
SpaRSA
58
L1_LOGREG
10
56
54
5
52
0 0 −1 −2 −3
50 0 −1 −2 −3
10 10 10 10 10 10 10 10
Regularization constant λ̄. Regularization constant λ̄.
冨岡亮太 (数理情報) DAL 2010-4-13 31 / 36

Appendix
(1) Proximation wrt φλ is analytic (though non-smooth):

³ ´
w t+1 = STηt λ w t + ηt A⊤ αt
(2) Inner minimization is smooth:
³ 1 ´
α∈Rm | {z } 2ηt | {z }
independent of A. = Φ∗λ (·)
(linear to the number of
active variables)
φ∗λ(w) Φ∗λ(w)
−λ 0 λ
冨岡亮太 (数理情報) DAL 2010-4-13 32 / 36
Appendix
Comparison to Rockafellar 76
Assumption
The multifunction ∇f ∗ is (locally) Lipschitz continuous at the origin:
∥∇f ∗ (β) − ∇f ∗ (0)∥ ≤ L∥β∥ (∥β∥ ≤ τ )

.
⇒ Implies our assumption with σ = 1
2 min(1/L, τ /∥w 0 − w ∗ ∥).
Convergence (exact minimization) – comparable to Thm 1

1
∥w t+1 − w ∗ ∥ ≤ p ∥w t − w ∗ ∥
1 + (ηt /L)2 .
Convergence (approximate minimization) – much worse than Thm 2
µt + ϵt ³ ´
∥w t+1 − w ∗ ∥ ≤ ∥w t − w ∗ ∥ µt = √ 1
1 − ϵt 1+(ηt /L)2
p
(assuming ∥∇ϕt ∥ ≤ ϵt . t ∥)
γ/ηt ∥w t+1 − w
冨岡亮太 (数理情報) DAL 2010-4-13 33 / 36
Appendix
Outline of proof of Theorem 1

³ ´
2ηt ∥w − w t ∥2 ,
1
1 Since w t+1 = argminw f (w ) +
(w t − w t+1 )/ηt is a subgradient of f at w t+1 . I.e.,
D E
f (w ∗ ) − f (w t+1 ) ≥ (w t − w t+1 )/ηt , w ∗ − w t+1 .
2 For any µ > 0,

µ ∗ 1
∥w ∗ − w t+1 ∥∥w t − w ∗ ∥ ≤ ∥w − w t+1 ∥2 + ∥w t − w ∗ ∥2 .
2 2µ
3 Combining 1 & 2 and using f (w t+1 ) − f (w ∗ ) ≥ σ∥w t+1 − w ∗ ∥2 ,

1 t µ2
∥w − w ∗ ∥2 ≥ ((1 + σηt )µ − )∥w t+1 − w ∗ ∥2 .
2 2
4 Maximize RHS wrt µ.
冨岡亮太 (数理情報) DAL 2010-4-13 34 / 36
Appendix

³ ´
2ηt ∥w − w t ∥2 ,
1
D E
f (w ∗ ) − f (w t+1 ) ≥ (w t − w t+1 )/ηt , w ∗ − w t+1 .
2 For any µ > 0,

µ ∗ 1
∥w ∗ − w t+1 ∥∥w t − w ∗ ∥ ≤ ∥w − w t+1 ∥2 + ∥w t − w ∗ ∥2 .
2 2µ

1 t µ2
∥w − w ∗ ∥2 ≥ ((1 + σηt )µ − )∥w t+1 − w ∗ ∥2 .
2 2
冨岡亮太 (数理情報) DAL 2010-4-13 34 / 36
Appendix

³ ´
2ηt ∥w − w t ∥2 ,
1
D E
f (w ∗ ) − f (w t+1 ) ≥ (w t − w t+1 )/ηt , w ∗ − w t+1 .
2 For any µ > 0,

µ ∗ 1
∥w ∗ − w t+1 ∥∥w t − w ∗ ∥ ≤ ∥w − w t+1 ∥2 + ∥w t − w ∗ ∥2 .
2 2µ

1 t µ2
∥w − w ∗ ∥2 ≥ ((1 + σηt )µ − )∥w t+1 − w ∗ ∥2 .
2 2
冨岡亮太 (数理情報) DAL 2010-4-13 34 / 36
Appendix
1 Let δ t := ∇ϕt (αt ),

D E 1
f (w ∗ ) − f (w t+1 ) ≥ (w t − w t+1 )/ηt , w ∗ − w t+1 − ∥δ t ∥2 .
2γ
2 By assumption
f (w t+1 ) − f (w ∗ ) ≥ σ∥w t+1 − w ∗ ∥2 ,

γ
∥δ t ∥2 ≤ ∥w t+1 − w t ∥2 .
ηt
3 Combining 1 & 2,
1 ∗ 1
∥w − w t ∥2 ≥ (σηt + )∥w ∗ − w t+1 ∥2 .
2 2
冨岡亮太 (数理情報) DAL 2010-4-13 35 / 36

Dual Augmented Lagrangian Algorithm 法による スパース正則化

Uploaded by

Copyright:

Available Formats

You might also like

Dual Augmented Lagrangian Algorithm 法による スパース正則化

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Dual Augmented Lagrangian Algorithm 法による スパース正則化

Uploaded by

Copyright:

Available Formats

Dual Augmented Lagrangian Algorithm 法による

冨岡 亮太 (数理情報) DAL 2010-4-13 1 / 36

minimize ∥w ∥1 , s.t. L(w ) ≤ C.

minimize L(w ), s.t. ∥w ∥1 ≤ C ′ .

minimize L(w ) + λ∥w ∥1 . [From Efron et al. (2003)]

冨岡 亮太 (数理情報) DAL 2010-4-13 4 / 36

（重み付き）ℓ1 -正則化問題を解 1.5

(Wipf&Nagarajan, 08) 0.5

冨岡 亮太 (数理情報) DAL 2010-4-13 5 / 36

冨岡 亮太 (数理情報) DAL 2010-4-13 6 / 36

冨岡 亮太 (数理情報) DAL 2010-4-13 7 / 36

⇒ wj∗ = STλ (yj )

φλ に関する proximation は解析的に計算できる

冨岡 亮太 (数理情報) DAL 2010-4-13 9 / 36

proxf (z) + proxf ∗ (z) = z.

冨岡 亮太 (数理情報) DAL 2010-4-13 10 / 36

冨岡 亮太 (数理情報) DAL 2010-4-13 11 / 36

Iterative Shrinkage/Thresholding (IST)

冨岡 亮太 (数理情報) DAL 2010-4-13 12 / 36

Iterative Shrinkage/Thresholding (IST)

冨岡 亮太 (数理情報) DAL 2010-4-13 12 / 36

Dual Augmented Lagrangian (DAL) 法（提案手法）

fℓ∗ ，φ∗λ は fℓ ，φλ の凸共役：

. fℓ∗ (α) = sup (〈α, z〉 − fℓ (z))

冨岡 亮太 (数理情報) DAL 2010-4-13 13 / 36

Dual Augmented Lagrangian (DAL) 法（提案手法）

Proximal minimization: ⇔Augmented Lagrangian

Dual Augmented Lagrangian (DAL) 法（提案手法）

Proximal minimization: ⇔Augmented Lagrangian

Dual Augmented Lagrangian (DAL) 法（提案手法）

Proximal minimization: ⇔Augmented Lagrangian

Dual Augmented Lagrangian 法 (ℓ1 -正則化)

冨岡 亮太 (数理情報) DAL 2010-4-13 15 / 36

Dual Augmented Lagrangian 法（ℓ1 -正則化の場合）

冨岡 亮太 (数理情報) DAL 2010-4-13 16 / 36

IST と DAL の違い：いかに変数の間の絡みを取り除くか

IST（既存手法）: 線形にロス項を 近似：

fℓ (Aw ) ≅ fℓ (Aw t ) + (w − w t )⊤ A⊤ ∇fℓ (Aw t )

→ 次の点 w t+1 で最もタイト

IST と DAL の違い：いかに変数の間の絡みを取り除くか

IST（既存手法）: 線形にロス項を 近似：

fℓ (Aw ) ≅ fℓ (Aw t ) + (w − w t )⊤ A⊤ ∇fℓ (Aw t )

→ 現在の点 w t で最もタイト wt+1 wt

→ 次の点 w t+1 で最もタイト

IST と DAL の違い：いかに変数の間の絡みを取り除くか

IST（既存手法）: 線形にロス項を 近似：

fℓ (Aw ) ≅ fℓ (Aw t ) + (w − w t )⊤ A⊤ ∇fℓ (Aw t )

→ 現在の点 w t で最もタイト wt+1 wt

→ 次の点 w t+1 で最もタイト

1.5 1.5 1.5

0.5 0.5 0.5

−0.5 −0.5 −0.5

−1.5 −1.5 −1.5

冨岡 亮太 (数理情報) DAL 2010-4-13 18 / 36

f (w t+1 ) − f (w ∗ ) ≥ σ∥w t+1 − w ∗ ∥2 (t = 0, 1, 2, . . .).

冨岡 亮太 (数理情報) DAL . 2010-4-13 19 / 36

(w t − w t+1 )/ηt ∈ ∂f (w t+1 ) （劣微分に入る）

冨岡 亮太 (数理情報) DAL 2010-4-13 21 / 36

Dual Augmented Lagrangian Algorithm 法によるスパース正則化

Dual Augmented Lagrangian Algorithm 法によるスパース正則化

Dual Augmented Lagrangian Algorithm 法によるスパース正則化

冨岡亮太 (数理情報) DAL 2010-4-13 1 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 4 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 5 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 6 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 7 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 9 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 10 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 11 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 12 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 12 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 13 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 15 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 16 / 36

IST（既存手法）: 線形にロス項を近似：

IST（既存手法）: 線形にロス項を近似：

IST（既存手法）: 線形にロス項を近似：

冨岡亮太 (数理情報) DAL 2010-4-13 18 / 36

冨岡亮太 (数理情報) DAL . 2010-4-13 19 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 21 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 22 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 23 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 24 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 25 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 26 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 27 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 28 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 29 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 29 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 29 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 29 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 30 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 31 / 36

冨岡亮太 (数理情報) DAL 2010-4-13 35 / 36