лекція7

Лекцiя 7
Самонавчання
Задачi розпiзнавання
X – множина спостережень, K – множина станiв, D – множина рiшень,
pXK (x, k) – сумiсний розподiл на X × K.
Баєсiвськi задачi
pXK вiдома, визначена штрафна функцiя
P WP: K × D → R. Баєсiвська
стратегiя q : X → D мiнiмiзує R(q) = x∈X k∈K pXK (x, k)W (k, q(x))
Небаєсiвськi задачi
pX|k вiдомi, pK (k) не iснують (стан k не випадковий i невiдомий).
Задачi Роббiнса
pX|k вiдомi, pK (k) iснують, але невiдомi.
X = R, K = {1, 2},
pX|1 (x) ∼ N (1, 1), pX|2 (x) ∼ N (−1, 1),
α – апрiорна ймовiрнiсть першого стану.
Баєсiвська стратегiя
Мiнiмiзувати по q : X → {1, 2} ризик
R(q, α) = αP (N (1, 1) ∈ q −1 (2)) + (1 − α)P (N (−1, 1) ∈ q −1 (1)).

1
Оптимальний розв’язок: qα (x) = 1 ⇔ x > 2 ln 1−α
α .
Мiнiмаксна стратегiя спiвпадає з q1/2 .
R(q1/2 , α) не залежить вiд α.

Пiдхiд Роббiнса
Нехай x1 , . . . , xn – набiр спостережень з розподiлу αN (1, 1) + (1 − α)N (−1, 1).
Стратегiя q : Rn → {1, 2}n на i-му кроцi приймає рiшення k = 1, якщо
Pn
1 n − j=1 xj
xi > ln
2 n + nj=1 xj
P
Стратегiя q “прямує” до оптимальної баєсiвської стратегiї

Pn
1 n − j=1 xj 1 1−α
lim ln Pn = ln
n→∞ 2 n + j=1 xj 2 α
n+ n
P
xj
Використовуючи рiвнiсть α = 1+M 2
x
i оцiнку α̂ = j=1
2n , отримуємо
розв’язок Роббiнса як розв’язок баєсiвської задачi з апрiорними
ймовiрностями pK (1) = α̂, pK (2) = 1 − α̂.
Задача Роббiнса полягає в максимiзацiї функцiї правдоподiбностi:
n
Y
max αpX|1 (x) + (1 − α)pX|2 (x)
α
i=1
Задача Роббiнса
Необхiдно максимiзувати по (pK (k), k ∈ K) функцiю правдоподiбностi:
n X
Y n
X X
max pK (k)pX|k (xi ), або max ln pK (k)pX|k (xi ).
(pK (k),k∈K) (pK (k),k∈K)
i=1 k∈K i=1 k∈K
Бiльш загально
Вiдома множина P, яка мiстить справжнiй сумiсний розподiл pXK . Необхiдно
максимiзувати по pXK ∈ P функцiю правдоподiбностi:
n
X X
max ln pXK (xi , k).
pXK ∈P
i=1 k∈K
Задача розпiзнавання
pXK вiдома, x1 , . . . , xn – спостереження.
α(i, k) = P pXKpXK
(xi ,k)
(xi ,k) – апостерiорна ймовiрнiсть стану k при
k∈K
спостереженнi xi .
Задача навчання
pK невiдомi, pX|k (x) вiдомi з точнiстю до параметра a ∈ A. Визначена
функцiя f : X × A → R така що для кожного k при деякому ak ,
pX|k (x) = f (x, ak ).
Для кожного xi вчитель вказує вiдповiдний стан ki , тобто визначає функцiю
(
1, k = ki
α(i, k) =
0, k 6= ki
Функцiя правдоподiбностi
n
!
X X
L= ln α(i, k)pK (k)f (xi , ak )
i=1 k∈K
(
1, k = ki
α(i, k) =
6 ki
0, k =
Задача навчання
Функцiя правдоподiбностi
n
X n
X
L= ln pK (ki ) + ln f (xi , aki )
i=1 i=1
Xn X n X
X
= α(i, k) ln pK (k) + α(i, k) ln f (xi , ak )
i=1 k∈K i=1 k∈K
Її необхiдно максимiзувати по (pK (k), k ∈ K) i (ak , k ∈ K) за умови

P
k∈K pK (k) = 1.
Pn
α(i,k) Pn
pK (k) = i=1
n , ak ∈ arg maxa i=1 α(i, k) ln f (xi , a).
Задача самонавчання
Pn P
Функцiю правдоподiбностi L = i=1 ln k∈K pK (k)f (xi P , ak ) необхiдно
максимiзувати по (pK (k), k ∈ K) i (ak , k ∈ K) за умови k∈K pK (k) = 1.
Алгоритм самонавчання
ptK (k)f (xi ,atk )
αt (i, k) = P
ptK (k0 )f (xi ,atk0 )
,
k0 ∈K
Pn n
αt (i, k) t+1 X
pt+1
K (k) =
i=1
, ak ∈ arg max αt (i, k) ln f (xi , a)
n a
i=1
Оцiнка функцiї правдоподiбностi пiсля t iтерацiй

Pn
Lt = i=1 ln k∈K ptK (k)f (xi , atk ).
P
Алгоритм узагальнює навчання зi вчителем, так як αt ∈ [0, 1].

Лема (Шеннон)
Pn
Нехай α1 , . . . , αn , x1 , . . . , xn – додатнi числа, причому i=1 xi = 1. Тодi
n n
X X αi
αi ln xi ≤ αi ln Pn ,
i=1 i=1 j=1 αj
причому рiвнiсть досягається тодi i тiльки тодi, коли xi = Pnαi

j=1 αj .
Pn
Доведення. Функцiя F (x) = j=1 αj ln xj строго угнута. Максимiзуємо її за
Pn
умови j=1 xj = 1.
 
n n
∂ X X αi
αj ln xj + λ xj  = + λ = 0.
∂xi j=1 j=1
xi
Теорема
Якщо хоча б для деяких i та k, αt (i, k) 6= αt+1 (i, k), тобто
ptK (k)f (xi , atk ) pt+1 t+1

K (k)f (xi , ak )
P t 0 t 6
= P t+1 0 t+1 ,
k0 ∈K pK (k )f (xi , ak0 ) k0 ∈K pK (k )f (xi , ak0 )
то
n
X X n
X X
ln ptK (k)f (xi , atk ) < ln pt+1 t+1
K (k)f (xi , ak )
i=1 k∈K i=1 k∈K
Доведення. Нехай додатнi числа α(i, k) задовольняють рiвностi
X
α(i, k) = 1, 1 ≤ i ≤ n.
k∈K
Тодi
n
X X n X
X
L= ln pK (k)f (xi , ak ) = α(i, k) ln pK (k)+
i=1 k∈K i=1 k∈K
n n X
X X X pK (k)f (xi , ak )
+ α(i, k) ln f (xi , ak ) − α(i, k) ln P 0
k0 ∈K pK (k )f (xi , ak )
0
i=1 k∈K i=1 k∈K
Запишемо функцiї правдоподiбностi для t i t + 1 з числами αt (i, k) :
n X
X n X
X
Lt = αt (i, k) ln ptK (k) + αt (i, k) ln f (xi , atk )
i=1 k∈K i=1 k∈K
n X
pt (k)f (x , at )
P K t 0i k t
X
− αt (i, k) ln
i=1 k∈K k0 ∈K pK (k )f (xi , ak0 )
n X
X n X
X
Lt+1 = αt (i, k) ln pt+1
K (k) + αt (i, k) ln f (xi , at+1
k )
i=1 k∈K i=1 k∈K
n X
X pt+1 (k)f (xi , at+1
k )
− αt (i, k) ln P K t+1 0 t+1
i=1 k∈K
p
k0 ∈K K (k )f (x i , ak0 )
Pn
За лемою Шеннона (для i=1 αt (i, k) i ptK (k)),
n
! n
!
X X X X
αt (i, k) ln ptK (k) ≤ αt (i, k) ln pt+1
K (k).
k∈K i=1 k∈K i=1
Pn Pn
За побудовою, i=1 αt (i, k) ln f (xi , atk ) ≤ i=1 αt (i, k) ln f (xi , at+1
k )
t
P pK (k)f (xi ,atk )
За лемою Шеннона (для αt (i, k) = t 0 t i
k0 ∈K pK (k )f (xi ,ak0 )
pt+1 t+1
K (k)f (xi ,ak )
P t+1 0 t+1 ), для деякого i,
k0 ∈K pK (k )f (xi ,ak0 )
pt+1
K (k)f (xi ,ak
t+1
)
αt (i, k) ln
P
k∈K
P
p t+1
(k 0 )f (x ,at+1 )
<
0
k ∈K K i k0
X ptK (k)f (xi , atk )

< αt (i, k) ln P t 0 t
k∈K k0 ∈K pK (k )f (xi , ak0 )
Кожен крок алгоритма самонавчання повнiстю визначається числами
(α(i, k), i = 1, . . . , n, k ∈ K).
Позначимо S вiдображення, для якого αt+1 = S(αt ).
Визначення
α називається нерухомою точкою самонавчання, якщо
S(α) = α
Будемо вважати, що S неперервне i має скiнченну кiлькiсть нерухомих точок.

Лема (Кульбак)
Нехай . . , αn , x1 , . . . , xn –P
Pn α1 , . P додатнi числа, причому
n n αi 1
Pn 2
α
i=1 i = x
i=1 i = 1. Тодi i=1 αi ln xi ≥ 2 i=1 (αi − xi ) .
Доведення.
n n Z 1
X αi X d αi
αi ln = αi ln dt
i=1
x i i=1 0
dt α i + t(x i − αi )
Z 1 n
!
X αi (xi − αi )
= − dt
0 α + t(xi − αi )
i=1 i
Z 1Xn n
2 1X
≥ t(xi − αi ) dt = (αi − xi )2
0 i=1 2 i=1
Наслiдок
XX
(αt (i, k) − αt+1 (i, k))2 → 0, t → ∞.
i k
Доведення. Lt+1 − Lt → 0, t → ∞.
n X
X αt (i, k)
Lt+1 − Lt ≥ αt (i, k) ln
i=1 k∈K
αt+1 (i, k)
1 XX t
≥ (α (i, k) − αt+1 (i, k))2 ≥ 0
2 i
k
Теорема
Якщо функцiя S неперервна i множина нерухомих точок скiнченна, то
послiдовнiсть (αt , t ≥ 1) збiгається до нерухомої точки самонавчання.
Доведення. Будь-яка часткова границя послiдовностi (αt , t ≥ 1) є нерухомою

точкою самонавчання.
Нехай Ω є множиною всiх нерухомих точок. Тодi minα∈Ω |αt − α| → 0, t → ∞.
Так як |αt − αt+1 | → 0, t → ∞, то починаючи з деякого номера t0
найближчою до αt буде одна й та сама нерухома точка.

лекція7

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

лекція7

Uploaded by

Copyright:

Available Formats

Лекцiя 7

R(q, α) = αP (N (1, 1) ∈ q −1 (2)) + (1 − α)P (N (−1, 1) ∈ q −1 (1)).

Мiнiмаксна стратегiя спiвпадає з q1/2 .

R(q1/2 , α) не залежить вiд α.

Стратегiя q “прямує” до оптимальної баєсiвської стратегiї

Її необхiдно максимiзувати по (pK (k), k ∈ K) i (ak , k ∈ K) за умови

Оцiнка функцiї правдоподiбностi пiсля t iтерацiй

Алгоритм узагальнює навчання зi вчителем, так як αt ∈ [0, 1].

причому рiвнiсть досягається тодi i тiльки тодi, коли xi = Pnαi

ptK (k)f (xi , atk ) pt+1 t+1

X ptK (k)f (xi , atk )

Будемо вважати, що S неперервне i має скiнченну кiлькiсть нерухомих точок.

Доведення. Будь-яка часткова границя послiдовностi (αt , t ≥ 1) є нерухомою

You might also like