Download as pdf or txt
Download as pdf or txt
You are on page 1of 17

Лекцiя 7

Самонавчання
Задачi розпiзнавання
X – множина спостережень, K – множина станiв, D – множина рiшень,
pXK (x, k) – сумiсний розподiл на X × K.

Баєсiвськi задачi
pXK вiдома, визначена штрафна функцiя
P WP: K × D → R. Баєсiвська
стратегiя q : X → D мiнiмiзує R(q) = x∈X k∈K pXK (x, k)W (k, q(x))

Небаєсiвськi задачi
pX|k вiдомi, pK (k) не iснують (стан k не випадковий i невiдомий).

Задачi Роббiнса
pX|k вiдомi, pK (k) iснують, але невiдомi.
X = R, K = {1, 2},
pX|1 (x) ∼ N (1, 1), pX|2 (x) ∼ N (−1, 1),
α – апрiорна ймовiрнiсть першого стану.
Баєсiвська стратегiя
Мiнiмiзувати по q : X → {1, 2} ризик

R(q, α) = αP (N (1, 1) ∈ q −1 (2)) + (1 − α)P (N (−1, 1) ∈ q −1 (1)).


1
Оптимальний розв’язок: qα (x) = 1 ⇔ x > 2 ln 1−α
α .

Мiнiмаксна стратегiя спiвпадає з q1/2 .

R(q1/2 , α) не залежить вiд α.


Пiдхiд Роббiнса
Нехай x1 , . . . , xn – набiр спостережень з розподiлу αN (1, 1) + (1 − α)N (−1, 1).
Стратегiя q : Rn → {1, 2}n на i-му кроцi приймає рiшення k = 1, якщо
Pn
1 n − j=1 xj
xi > ln
2 n + nj=1 xj
P

Стратегiя q “прямує” до оптимальної баєсiвської стратегiї


Pn
1 n − j=1 xj 1 1−α
lim ln Pn = ln
n→∞ 2 n + j=1 xj 2 α

n+ n
P
xj
Використовуючи рiвнiсть α = 1+M 2
x
i оцiнку α̂ = j=1
2n , отримуємо
розв’язок Роббiнса як розв’язок баєсiвської задачi з апрiорними
ймовiрностями pK (1) = α̂, pK (2) = 1 − α̂.
Задача Роббiнса полягає в максимiзацiї функцiї правдоподiбностi:
n
Y 
max αpX|1 (x) + (1 − α)pX|2 (x)
α
i=1

Задача Роббiнса
Необхiдно максимiзувати по (pK (k), k ∈ K) функцiю правдоподiбностi:
n X
Y n
X X
max pK (k)pX|k (xi ), або max ln pK (k)pX|k (xi ).
(pK (k),k∈K) (pK (k),k∈K)
i=1 k∈K i=1 k∈K

Бiльш загально
Вiдома множина P, яка мiстить справжнiй сумiсний розподiл pXK . Необхiдно
максимiзувати по pXK ∈ P функцiю правдоподiбностi:
n
X X
max ln pXK (xi , k).
pXK ∈P
i=1 k∈K
Задача розпiзнавання
pXK вiдома, x1 , . . . , xn – спостереження.
α(i, k) = P pXKpXK
(xi ,k)
(xi ,k) – апостерiорна ймовiрнiсть стану k при
k∈K
спостереженнi xi .

Задача навчання
pK невiдомi, pX|k (x) вiдомi з точнiстю до параметра a ∈ A. Визначена
функцiя f : X × A → R така що для кожного k при деякому ak ,
pX|k (x) = f (x, ak ).
Для кожного xi вчитель вказує вiдповiдний стан ki , тобто визначає функцiю
(
1, k = ki
α(i, k) =
0, k 6= ki

Функцiя правдоподiбностi
n
!
X X
L= ln α(i, k)pK (k)f (xi , ak )
i=1 k∈K
(
1, k = ki
α(i, k) =
6 ki
0, k =

Задача навчання
Функцiя правдоподiбностi
n
X n
X
L= ln pK (ki ) + ln f (xi , aki )
i=1 i=1
Xn X n X
X
= α(i, k) ln pK (k) + α(i, k) ln f (xi , ak )
i=1 k∈K i=1 k∈K

Її необхiдно максимiзувати по (pK (k), k ∈ K) i (ak , k ∈ K) за умови


P
k∈K pK (k) = 1.
Pn
α(i,k) Pn
pK (k) = i=1
n , ak ∈ arg maxa i=1 α(i, k) ln f (xi , a).
Задача самонавчання
Pn P
Функцiю правдоподiбностi L = i=1 ln k∈K pK (k)f (xi P , ak ) необхiдно
максимiзувати по (pK (k), k ∈ K) i (ak , k ∈ K) за умови k∈K pK (k) = 1.

Алгоритм самонавчання
ptK (k)f (xi ,atk )
αt (i, k) = P
ptK (k0 )f (xi ,atk0 )
,
k0 ∈K

Pn n
αt (i, k) t+1 X
pt+1
K (k) =
i=1
, ak ∈ arg max αt (i, k) ln f (xi , a)
n a
i=1

Оцiнка функцiї правдоподiбностi пiсля t iтерацiй


Pn
Lt = i=1 ln k∈K ptK (k)f (xi , atk ).
P

Алгоритм узагальнює навчання зi вчителем, так як αt ∈ [0, 1].


Лема (Шеннон)
Pn
Нехай α1 , . . . , αn , x1 , . . . , xn – додатнi числа, причому i=1 xi = 1. Тодi
n n
X X αi
αi ln xi ≤ αi ln Pn ,
i=1 i=1 j=1 αj

причому рiвнiсть досягається тодi i тiльки тодi, коли xi = Pnαi


j=1 αj .

Pn
Доведення. Функцiя F (x) = j=1 αj ln xj строго угнута. Максимiзуємо її за
Pn
умови j=1 xj = 1.
 
n n
∂ X X αi
αj ln xj + λ xj  = + λ = 0.
∂xi j=1 j=1
xi
Теорема
Якщо хоча б для деяких i та k, αt (i, k) 6= αt+1 (i, k), тобто

ptK (k)f (xi , atk ) pt+1 t+1


K (k)f (xi , ak )
P t 0 t 6
= P t+1 0 t+1 ,
k0 ∈K pK (k )f (xi , ak0 ) k0 ∈K pK (k )f (xi , ak0 )

то
n
X X n
X X
ln ptK (k)f (xi , atk ) < ln pt+1 t+1
K (k)f (xi , ak )
i=1 k∈K i=1 k∈K
Доведення. Нехай додатнi числа α(i, k) задовольняють рiвностi
X
α(i, k) = 1, 1 ≤ i ≤ n.
k∈K

Тодi
n
X X n X
X
L= ln pK (k)f (xi , ak ) = α(i, k) ln pK (k)+
i=1 k∈K i=1 k∈K
n n X
X X X pK (k)f (xi , ak )
+ α(i, k) ln f (xi , ak ) − α(i, k) ln P 0
k0 ∈K pK (k )f (xi , ak )
0
i=1 k∈K i=1 k∈K
Запишемо функцiї правдоподiбностi для t i t + 1 з числами αt (i, k) :
n X
X n X
X
Lt = αt (i, k) ln ptK (k) + αt (i, k) ln f (xi , atk )
i=1 k∈K i=1 k∈K
n X
pt (k)f (x , at )
P K t 0i k t
X
− αt (i, k) ln
i=1 k∈K k0 ∈K pK (k )f (xi , ak0 )

n X
X n X
X
Lt+1 = αt (i, k) ln pt+1
K (k) + αt (i, k) ln f (xi , at+1
k )
i=1 k∈K i=1 k∈K
n X
X pt+1 (k)f (xi , at+1
k )
− αt (i, k) ln P K t+1 0 t+1
i=1 k∈K
p
k0 ∈K K (k )f (x i , ak0 )
Pn
За лемою Шеннона (для i=1 αt (i, k) i ptK (k)),
n
! n
!
X X X X
αt (i, k) ln ptK (k) ≤ αt (i, k) ln pt+1
K (k).
k∈K i=1 k∈K i=1

Pn Pn
За побудовою, i=1 αt (i, k) ln f (xi , atk ) ≤ i=1 αt (i, k) ln f (xi , at+1
k )
t
P pK (k)f (xi ,atk )
За лемою Шеннона (для αt (i, k) = t 0 t i
k0 ∈K pK (k )f (xi ,ak0 )
pt+1 t+1
K (k)f (xi ,ak )
P t+1 0 t+1 ), для деякого i,
k0 ∈K pK (k )f (xi ,ak0 )
pt+1
K (k)f (xi ,ak
t+1
)
αt (i, k) ln
P
k∈K
P
p t+1
(k 0 )f (x ,at+1 )
<
0
k ∈K K i k0

X ptK (k)f (xi , atk )


< αt (i, k) ln P t 0 t
k∈K k0 ∈K pK (k )f (xi , ak0 )
Кожен крок алгоритма самонавчання повнiстю визначається числами
(α(i, k), i = 1, . . . , n, k ∈ K).
Позначимо S вiдображення, для якого αt+1 = S(αt ).

Визначення
α називається нерухомою точкою самонавчання, якщо

S(α) = α

Будемо вважати, що S неперервне i має скiнченну кiлькiсть нерухомих точок.


Лема (Кульбак)
Нехай . . , αn , x1 , . . . , xn –P
Pn α1 , . P додатнi числа, причому
n n αi 1
Pn 2
α
i=1 i = x
i=1 i = 1. Тодi i=1 αi ln xi ≥ 2 i=1 (αi − xi ) .

Доведення.
n n Z 1
X αi X d αi
αi ln = αi ln dt
i=1
x i i=1 0
dt α i + t(x i − αi )
Z 1 n
!
X αi (xi − αi )
= − dt
0 α + t(xi − αi )
i=1 i
Z 1Xn n
2 1X
≥ t(xi − αi ) dt = (αi − xi )2
0 i=1 2 i=1
Наслiдок
XX
(αt (i, k) − αt+1 (i, k))2 → 0, t → ∞.
i k

Доведення. Lt+1 − Lt → 0, t → ∞.
n X
X αt (i, k)
Lt+1 − Lt ≥ αt (i, k) ln
i=1 k∈K
αt+1 (i, k)
1 XX t
≥ (α (i, k) − αt+1 (i, k))2 ≥ 0
2 i
k
Теорема
Якщо функцiя S неперервна i множина нерухомих точок скiнченна, то
послiдовнiсть (αt , t ≥ 1) збiгається до нерухомої точки самонавчання.

Доведення. Будь-яка часткова границя послiдовностi (αt , t ≥ 1) є нерухомою


точкою самонавчання.
Нехай Ω є множиною всiх нерухомих точок. Тодi minα∈Ω |αt − α| → 0, t → ∞.
Так як |αt − αt+1 | → 0, t → ∞, то починаючи з деякого номера t0
найближчою до αt буде одна й та сама нерухома точка.

You might also like