PRML 5.2.1,5.2.2section

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 13

PRML 5.2.1節,5.2.

2節
5.2.1パラメータ最適化(1)
• 誤差関数E(w)を最小化する重み
ベクトルwを探す
• この場合、誤差関数の幾何的な
イメージをつくのは役に立つ
• 重み空間において、 w → w + ±w
場合、誤差関数値は ±E ≃ ±wT ∇E(w)
程度変化する。ベクトル ∇E(w) は 図5.5 E(w)は重み空間
にある曲面である。wA
誤差関数が最速に増加する方向 は極小値、wBは最小値。
任意の点wcにおいて、
を指している 曲面の局所勾配を
とする ∇E(w)
5.2.1パラメータ最適化(2)
• 誤差関数E(w)はwに関する連続関
数であるため、その最小値は重み空
間の中の誤差関数の勾配が消える
点のところ発生する。つまり以下の
式(5.26)が成り立つ。
∇E(w) = 0 (5.26)

そうじゃないと −∇E(w) 方向に小さい


ステップで誤差関数をもっと減少す 図5.5
ることができる
• 勾配が消える点は停留点という。停
留点は極大値点、極小値点、鞍点に
分けられる。
5.2.1パラメータ最適化(3)
• 私たちの目標は E(w)が最小値をとる場合のベクトル
wを探す
• しかし、誤差関数は重みそしてバイアスパラメータに
ついて複雑な非線形であるため、重み空間において
数多くの点の勾配が消える(あるいは非常に小さい値
をとる)場合は多い
• 5.1.1節の議論からわかるように、もしある点wは極小
値点である場合、重み空間において等しい極小値を
とる点が必ず存在する。例えば図5.1のようなM個の
隠れユニットを持つ2層ネットワークの場合、重み空間
においての任意の点は M!2M 個の等価する点の中の
一つである
5.2.1パラメータ最適化(4)
• そのほか、通常では複数の等価でない停留点、特
に複数の等価でない最小値点が存在している
• すべての重みベクトルにおいて、誤差関数が最小値
をとる場合の値を最小値と呼ばれ、そのほかのより
大きい値に対応する最小値は極小値と呼ぶ
• 良いニューラルネットワークのアプリケーションに関
しては、必ず最小値を見つからなくでも(一般的では、
最小値であるかどうかについて判断できない)、十
分にいい解を見つけるため、いくつの極小値を比べ
る必要がある
5.2.1パラメータ最適化(5)
• 式 ∇E(w) = 0 について解析的な解を求める方法が明らかに
難しいであるため、私たちは繰り返し計算に頼る。
• 連続非線形関数の最適化は広く研究された問題で、どうやっ
て効率的に解くことついては大量な文献が存在している。
• 多くの手法では、まず重みベクトルに初期値w(0)を与え、そし
て重み空間において、相続な式(5.27)のようなステップで移動
する。その中に τ は繰り返しの回数を示す。
w(τ +1) = w(τ ) + ∆w(τ ) (5.27)
異なるアルゴリズムは異なる重みベクトルの変化量 ∆w(τ ) を
利用している。多くのアルゴリズムは勾配の情報を利用する
ため、一回の更新のあと、勾配の値∇E(w)が新しい重みベク
トル ∆w(τ +1) を用いて計算する。勾配情報の重要さを理解する
ため、誤差関数をテーラー展開基づいて近似するのを考える
ことが役に立つ
5.2.2 局所二次近似(1)
• 誤差関数の局所二次近似をすることで最適化問題そ
して最適化問題を解くための色んな手法を深く理解す
ることができる
• 重み空間の中の点ŵ においてE(w)をテーラー展開す
る場合を考える
1
E(w) ≃ E(ŵ) + (w − ŵ)T b + (w − ŵ)T H(w − ŵ) (5.28)
2
この場合三次そしてもっと高次の項を省略した。
b ´ ∇E| w=ŵ (5.29)

∂E 
(H)ij ´ (5.30)
∂wi ∂wj w=ŵ
式(5.28)から対応する勾配の局所近似は式(5.31)になる。特に
ŵ に近い点wについてはこれらの式は誤差とその勾配に関する
合理的な近似を与える
∇E ≃ b + H(w − ŵ) (5.31)
局所二次近似(2)
• 局所近似を誤差関数の最小値点w⋆において
行ったという特殊な場合を考える。この場合、
点w⋆において∇E = 0ため、線形の部分は無い、
つまり式(5.28)は式(5.32)になる
1
E(w) ≃ E(w ) + (w − w⋆ )T H(w − w⋆ )

(5.32)
2

その中ヘッセ行列は点 において計算される。
w ⋆
局所二次近似(3)
• 幾何的な解釈をするため、ヘッセ行列の固有
式を考える。
Hui = λi ui (5.33)

その中固有ベクトルは正規直交セットを生成
するため、つまり式(5.34)が成り立つ。
uTi uj = ±
ij (5.34)

• そして(w − w⋆) を固有ベクトルの線形結合であ


らわす(式(5.35))


w−w = αi ui (5.35)
i
局所二次近似(4)


w−w = αi ui (5.35)
i

• 式(5.35)を座標系変換と見ることが出来る。
詳しくは付録Cに参照
– 原点が w⋆ に移動され
– 軸の方向は固有ベクトルの方向になる
• 式(5.35)を式(5.32)に代入し、式(5.33),(5.34)を
利用して、誤差関数を式(5.36)のように書くこ
とができる
1

E(w) = E(w ) + λi α2i (5.36)
2 i
局所二次近似(5)
• 行列Hは正定値である場合、任意のベクトルv
について、以下の式のみが成り立つ
vT Hv > 0 (5.37)

• 固有ベクトル{ui}は完全セットになるため、任
意のベクトルvを式(5.38)のように書くことがで
きる

v= ci ui (5.38)
i
局所二次近似(6)
Hui = λi ui (5.33)

uTi uj = ±
ij (5.34)

• 式(5.33),(5.34)から、式(5.39)を導きことができ


T
v Hv = c2i λi (5.39)
i

• もしHは正定値であれば、固有値はすべて正
でなければならない
局所二次近似(7)
• 新しい座標系(図5.6)の中に
– 基底ベクトルは固有ベクトル{ui}
– Eが同じ値をとるときの等高線は原点を
中心とする楕円である
• 一次元の重み空間の場合、停留点
は最小値点になるためには式(5.40)
が成立する必要がある。 図5.6最小値点 w⋆の周囲誤差関数
2
 を二次形式で近似できる。
∂ E 
2  >0 (5.40) 等高線は楕円で、その軸はヘッセ行列
∂w w⋆ の固有ベクトルである。
軸の長さは固有ベクトルのルート
の逆数に比例する

対してD次元の場合の条件は w⋆ 点で計算された
ヘッセ行列は正定値である

You might also like