Professional Documents
Culture Documents
01 Verovatnoca - Merged
01 Verovatnoca - Merged
01 Verovatnoca - Merged
estimacija
Rezime teorije verovatnoće
Verovatnoća kao osnova
• Verovatnoća: mera sigurnosti da će se neki
događaj desiti. To je funkcija koja događaju
dodeljuje vrednosti između 0 i 1.
• Zašto dolazi do nesigurnosti?
– Nedovoljno znanja
– Nesigurna merenja
• Neformalni začetnih teorije verovatnoće je
kockanje!
– 16. vek: Gerolamo Cardano analizira igre na sreću
– 17. vek: Pierre de Fermat, Blaise Pascal
– 18. vek: Laplace, Bernoulli
Verovatnoća kao osnova
• Diskretni slučajevi: bacanje novčića, karte,
kockice (brojanje ishoda)
– Broj permutacija špila karata: 52! ≈ 8·1067
– Šanse da se pobedi u loto-u: 1 : 4.5·107
• Kontinualni slučajevi: trajanje razgovora,
analogno merenje temperature
– Verovatnoća 0 ne znači da se događaj nikad neće
desiti!
Primena
• Matematika, statistika
• Finansije
• Fizika, filozofija
• Veštačka inteligencija, mašinsko učenje, teorija
igara
• Kockanje
Definicija verovatnoće
1) Eksperimentalni (heuristički) opis
verovatnoće:
Verovatnoća događaja 𝐴, u oznaci 𝑃 𝐴 se
računa kao:
broj povoljnih ishoda
𝑃 𝐴 =
ukupan broj ishoda
Ovde podrazumevamo da su svi ishodi
podjednako verovatni
Definicija verovatnoće
1) Eksperimentalni (heuristički) opis verovatnoće
2) Aksiomatski (matematički) opis verovatnoće
Verovatnoća događaja 𝐴 se definiše pomoću 3 pojma:
Ω, ℱ, 𝑃 𝐴
Ω- prostor verovatnoće predstavlja sigurni događaj, skup
svih elementarnih događaja
𝜔𝑖 - elementarni događaj je ishod eksperimenta
ℱ - polje događaja je skup svih događaja iz Ω tako da su
zadovoljena 2 uslova
A1: Ako događaj 𝐴 ∈ ℱ, onda 𝐴ҧ ∈ ℱ
A2: Ako 𝐴, 𝐵 ∈ ℱonda 𝐴 + 𝐵 = 𝐴 ∪ 𝐵 ∈ ℱ
Definicija verovatnoće
Primer: Opisati eksperiment bacanja novčića
Definicija verovatnoće
Definicija: Verovatnoća 𝑃 na skupu Ω je funkcija
(preslikavanje) koja događaje iz polja ℱ preslikava na
interval [0,1] realne ose, tako da su zadovoljeni sledeći
aksiomi:
A1) Nenegativnost: Ako 𝐴 ∈ ℱ onda𝑃 𝐴 ≥ 0
A2) Normiranost: Ako je Ω siguran događaj, onda 𝑃 Ω = 1
A3) Aditivnost: Ako su 𝐴, 𝐵 ∈ ℱ disjunktni (𝐴𝐵 = 0) onda je
𝑃 𝐴+𝐵 =𝑃 𝐴 +𝑃 𝐵
A3a) Ako 𝐴1 , … , 𝐴𝑛 ∈ ℱ i 𝐴𝑖 𝐴𝑗 = 0 za 𝑖 ≠ 𝑗, onda
𝑃 σ𝑛𝑖=1 𝐴𝑖 = σ𝑛𝑖=1 𝑃 𝐴𝑖
Definicija verovatnoće
Primer: Četvorostrana kockica se baca dva puta
(𝑋 je prvo bacanje, 𝑌 je drugo bacanje).
• 𝑃 𝑋, 𝑌 je 1,1 ili 1,2 =
• 𝑃 𝑋=1 =
• 𝑃 𝑋 + 𝑌 neparno =
• 𝑃 min 𝑋, 𝑌 = 2 =
Definicija verovatnoće
Primer: Igra se pikado sa kvadratnom metom
Ω = 𝑥, 𝑦 |0 ≤ 𝑥, 𝑦 ≤ 1
1
• 𝑃 𝑋+𝑌 ≤ =
2
• 𝑃 𝑋, 𝑌 = 0.5,0.3 =
Definicija verovatnoće
Primer: Koliki procenat studenata dolazi na predavanja i pije kafu, ako
je poznato:
• 60% studenata dolazi na predavanja
• 70% studenata pije kafu
• 15% studenata ne pije kafu i ne dolazi na predavanja
Uslovna verovatnoća
Uslovna verovatnoća događaja 𝐴 ∈ ℱako se realizovao
događaj 𝐵 ∈ ℱ se definiše pomoću Ω, ℱ, 𝑃 𝐴|𝐵
Primer: Da li su A i B nezavisni?
Nezavisnost događaja
• Uslovna nezavisnost:
𝑃 𝐴𝐵 𝐶 = 𝑃 𝐴 𝐶 𝑃 𝐵 𝐶
𝑃 𝐵 = 𝑃 𝐵 𝐴𝑖 𝑃 𝐴𝑖
𝑖=1
Dokaz: 𝐵 = σ𝑛𝑖=1 𝐵𝐴𝑖 , 𝐵𝐴𝑖 𝐵𝐴𝑗 = 0, 𝑖 ≠ 𝑗
𝑛 𝑛 𝑛
Osobine:
1) Horizontalne asimptote
𝐹𝑋 −∞ = 𝑃 𝜔: 𝑋 𝜔 ≤ −∞ =0
𝐹𝑋 +∞ = 𝑃 𝜔: 𝑋 𝜔 ≤ +∞ =1
• PAŽNJA!!!
𝐸 𝑔 𝑋 ≠𝑔 𝐸 𝑋
Očekivanje funkcija slučajne
promenljive
• Matematičko očekivanje (srednja vrednost) se dobija za
𝑔 𝑋 =𝑋
𝑋ത = 𝑚𝑋 = 𝐸 𝑋
= 𝐸 𝑋2 − 𝐸 𝑋 2
13E053SSE – Stohastički sistemi i
estimacija
Slučajni vektori
Slučajni vektori
Definicija: Ako su 𝑋1 𝜔 , … , 𝑋𝑛 𝜔 slučajne promenljive, onda se
slučajnim vektorom naziva njihov uređeni skup 𝑿 = 𝑋1 , … , 𝑋𝑛
Dvodimenzionalni slučajni vektori
• Matematički opis 2D slučajnog vektora:
𝐹𝑋,𝑌 𝑥, 𝑦 = 𝑃 𝜔: 𝑋 𝜔 ≤ 𝑥, 𝑌 𝜔 ≤ 𝑦
𝜕 2 𝐹𝑋,𝑌 𝑥, 𝑦
𝑓𝑋,𝑌 𝑥, 𝑦 =
𝜕𝑥𝜕𝑦
𝑦 𝑥
𝐹𝑋,𝑌 𝑥, 𝑦 = න න 𝑓𝑋,𝑌 𝛼, 𝛽 𝑑𝛼𝑑𝛽
−∞ −∞
Dvodimenzionalni slučajni vektori
• Osobine:
1) 𝐹 𝑥, −∞ = 𝐹 −∞, 𝑦 = 𝑃 0 = 0
𝐹 ∞, ∞ = 1
2) 𝐹 𝑥, 𝑦 je monotono neopadajuća funkcija realnih argumenata 𝑥 i 𝑦.
3) Marginalne funkcije raspodele se dobijaju kao:
𝐹𝑋 𝑥 = 𝐹 𝑥, +∞ = 𝑃 𝑋 ≤ 𝑥, 𝑌 ≤ ∞ = 𝑃 𝑋 ≤ 𝑥
𝐹𝑌 𝑦 = 𝐹 +∞, 𝑦 = 𝑃 𝑋 ≤ ∞, 𝑌 ≤ 𝑦 = 𝑃 𝑌 ≤ 𝑦
4) Nenegativnost: 𝑓 𝑥, 𝑦 ≥ 0
∞ ∞
5) Normiranost: −∞ −∞ 𝑓 𝑥, 𝑦 𝑑𝑥𝑑𝑦 = 𝐹 ∞, ∞ = 1
6) Marginalne funkcije gustine verovatnoće se dobijaju kao:
∞
𝑓𝑋 𝑥 = න 𝑓 𝑥, 𝑦 𝑑𝑦
−∞
Dvodimenzionalni slučajni vektori
• Funkcija raspodele (funkcija gustine verovatnoće) predstavlja
kompletan matematički opis slučajnog vektora:
Dvodimenzionalni slučajni vektori
Matematičko očekivanje funkcije 𝑔 𝑿 = 𝑔 𝑋1 , 𝑋2 slučajnog vektora 𝑿 =
𝑋1 𝑋2 𝑇 :
∞ ∞
𝐸 𝑔 𝑋1 , 𝑋2 =න න 𝑔 𝑥1 , 𝑥2 𝑓𝑋1 ,𝑋2 𝑥1 , 𝑥2 𝑑𝑥1 𝑑𝑥2
−∞ −∞
• Funkcija raspodele
𝐹𝑋1,…,𝑋𝑛 𝑥1 , … , 𝑥𝑛 = 𝑃 𝑋1 ≤ 𝑥1 , … , 𝑋𝑛 ≤ 𝑥𝑛
• Marginalne raspodele
𝐹𝑋1,…,𝑋𝑛 ∞, 𝑥2 , … , 𝑥𝑛 = 𝐹𝑋2,…,𝑋𝑛 𝑥2 , … , 𝑥𝑛
𝐹𝑋1,…,𝑋𝑛 ∞, ∞, … , 𝑥𝑛 = 𝐹𝑋3,…,𝑋𝑛 𝑥3 , … , 𝑥𝑛
• Funkcija gustine verovatnoće
𝜕 𝑛 𝐹 𝑥1 , … , 𝑥𝑛
𝑓 𝑥1 , … , 𝑥𝑛 =
𝜕𝑥1 𝜕𝑥2 ⋯ 𝜕𝑥𝑛
∞ ∞
𝐹 𝑥1 , … , 𝑥𝑛 = න ⋯ න 𝑓 𝛼, 𝛽, … 𝑑𝛼𝑑𝛽 …
−∞ −∞
• Marginalne funkcije gustine verovatnoće
∞ ∞
𝑓𝑋𝑖 𝑥𝑖 = න ⋯ න 𝑓 𝑥1 , 𝑥2 , … , 𝑥𝑛 𝑑𝑥1 … 𝑑𝑥𝑖−1 𝑑𝑥𝑖+1 … 𝑑𝑥𝑛
−∞ −∞
n-dimenzioni slučajni vektori
• Matematičko očekivanje slučajnog vektora 𝑿
𝑋1
𝐸 𝑿 =𝐸 ⋮ =𝑿 ഥ
𝑋𝑛
• Kovarijaciona matrica slučajnog vektora 𝑿
var 𝑋1 ⋯ cov 𝑋1 , 𝑋𝑛
𝑅𝑿 = 𝐸 𝑿 − 𝑿 ഥ 𝑿−𝑿 ഥ 𝑇 = ⋮ ⋱ ⋮
cov 𝑋𝑛 , 𝑋1 ⋯ var 𝑋𝑛
• Korelaciona matrica slučajnog vektora 𝑿
Ψ𝑿 = 𝐸 𝑿𝑿𝑇
• Matrica kroskovarijanse slučajnih vektora 𝑿 i 𝒀
𝑅𝑿,𝒀 = 𝐸 𝑿 − 𝑿 ഥ 𝒀−𝒀 ഥ 𝑇
𝐹 𝑥1 , … , 𝑥𝑛 = ෑ 𝐹𝑋𝑖 𝑥𝑖
𝑖=1
Ekvivalentno, u kontinualnom slučaju:
𝑛
𝑓 𝑥1 , … , 𝑥𝑛 = ෑ 𝑓𝑋𝑖 𝑥𝑖
𝑖=1
U diskretnom slučaju:
𝑛
𝑃 𝑋1 = 𝑥1 , … , 𝑋𝑛 = 𝑥𝑛 = ෑ 𝑃 𝑋𝑖 = 𝑥𝑖
𝑖=1
Karakterizacija slučajnih vektora
• Nekorelisanost komponenti slučajnog vektora:
Slučajne promenljive 𝑋1 i 𝑋2 su nekorelisane ako važi cov 𝑋1 , 𝑋2 = 0
2) Prema teoremi:
Rešiti jednačinu 𝑔 𝑥 = 𝑦. Ako su rešenja 𝑥1 , … , 𝑥𝑛 onda je
𝑓𝑋 𝑥1 𝑓𝑋 𝑥𝑛
𝑓𝑌 𝑦 = + ⋯+
𝑔ሶ 𝑥1 𝑔ሶ 𝑥𝑛
𝑦
𝐹𝑦 𝑦 = න 𝑓𝑌 𝛼 𝑑𝛼
−∞
Funkcija dve slučajne promenljive
𝑍 = 𝑔 𝑋, 𝑌
Iz definicije važi:
𝐹𝑍 𝑧 = 𝑃 𝜔: 𝑍 𝜔 ≤ 𝑧 = 𝑃 𝜔: 𝑔 𝑋 𝜔 , 𝑌 𝜔 ≤𝑧
• Varijansa:
∞
2
𝜎𝑋2 𝑡 =න 𝑥 − 𝑚𝑋 𝑡 𝑓𝑋 𝑥; 𝑡 𝑑𝑥
−∞
Različiti slučajni procesi
Primer: Bernulijev proces (sekvenca nezavisnih Bernulijevih
slučajnih promenljivih)
1 0
∀𝑛 ∈ 𝑁 𝑋 𝑛, 𝜔 ~
𝑝 1−𝑝
Različiti slučajni procesi
Primer: Slučajni hod (sekvenca slučajnih koraka)
Različiti slučajni procesi
Primer: Poasonov proces
Različiti slučajni procesi
Definicija: Slučajan proces 𝑋 𝑡, 𝜔 je Poasonov proces ako za 𝑡 ∈ 𝑇 = 0, ∞
važi
1) 𝑃 𝑋 0 = 0 = 1
2) Priraštaji 𝑋 𝑡2 − 𝑋 𝑡1 i 𝑋 𝑡4 − 𝑋 𝑡3 su nezavisni za svako 𝑡1 <
𝑡2 ≤ 𝑡3 < 𝑡4
3) Za svako 𝑡1 < 𝑡2 priraštaj 𝑋 𝑡2 − 𝑋 𝑡1 ima Poasonovu raspodelu sa
parametrom 𝜆 𝑡2 − 𝑡1 , 𝜆 > 0
−𝜆 𝑡2 −𝑡1
𝑘𝑒
𝑃 𝑋 𝑡2 − 𝑋 𝑡1 = 𝑘 = 𝜆 𝑡2 − 𝑡1 , 𝑘 ∈ 0,1, …
𝑘!
• Korelacija
Ψ𝑋 𝑡1 , 𝑡2 = 𝐸 𝑋 𝑡1 , 𝜔 𝑋 𝑡2 , 𝜔
∞ ∞
=න න 𝑥1 𝑥2 𝑓𝑋 𝑥1 , 𝑥2 ; 𝑡1 , 𝑡2 𝑑𝑥1 𝑑𝑥2
−∞ −∞
→ 𝑅𝑋 𝑡1 , 𝑡2 = Ψ𝑋 𝑡1 , 𝑡2 − 𝑚𝑋 𝑡1 𝑚𝑋 𝑡2
Matematički opis slučajnih procesa
• Osobine:
– Nekorelisanost važi ako je za ∀𝑡1 , 𝑡2 ∈ 𝑇, 𝑡1 ≠ 𝑡2 :
𝑅𝑋 𝑡1 , 𝑡2 = 0,
𝐹𝑋 𝑥1 , … , 𝑥𝑛 ; 𝑡1 , … , 𝑡𝑛 = ෑ 𝐹𝑋 𝑥𝑖 ; 𝑡𝑖
𝑖=1
– Ortogonalnost važi ako je za ∀𝑡1 , 𝑡2 ∈ 𝑇, 𝑡1 ≠ 𝑡2 :
Ψ𝑋 𝑡1 , 𝑡2 = 0
Stacionarnost slučajnih procesa
• Stroga stacionarnost (stacionarnost u užem smislu)
Proces je strogo stacionaran ako za ∀𝑚, ∀𝜏 > 0, ∀𝑡1 , … , 𝑡𝑚 ∈ 𝑇, 𝑡1 < ⋯ < 𝑡𝑚
važi:
𝐹𝑋 𝑥1 𝑡1 , … , 𝑥𝑚 𝑡𝑚 = 𝐹𝑋 𝑥1 𝑡1 + 𝜏 , … , 𝑥𝑚 𝑡𝑚 + 𝜏
𝑆𝑋 𝜔 = 𝑍 Ψ𝑋 𝑛 ቚ = Ψ𝑋 𝑛 𝑧 −𝑛 ቚ
𝑧=𝑒 𝑗𝜔 𝑧=𝑒 𝑗𝜔
𝑛=−∞
Ψ𝑋 𝑛 = 𝑍 −1 𝑆𝑋 𝑧
Spektralna reprezentacija slučajnog
procesa
• Srednja snaga signala:
∞
1
𝐸 𝑋 2 𝑡 = Ψ𝑋 0 = න 𝑆𝑋 𝑗𝜔 𝑑𝜔
2𝜋 −∞
• Prosečna snaga slučajnog procesa 𝑋 u delu spektra 𝜔 ∈
𝜔1 , 𝜔2
1 𝜔2
𝑆 𝜔1 ,𝜔2 = න 𝑆𝑋 𝑗𝜔 𝑑𝜔
2𝜋 𝜔1
Spektralna reprezentacija slučajnog
procesa
Primeri:
Spektralna faktorizacija
Nepomereni estimatori minimalne varijanse
8
Nepomerenost estimatora
I Razmatramo determinističke parametre.
I Nepomeren estimator θ̂ = g (x) u proseku daje tačno θ
Z
E θ̂ = g (x)p(x; θ) dx = θ, ∀θ
11
I Konstanta A u belom šumu:
a
PN−1
I Usvajamo  = N n=0 x[n]
a2 σ 2
E  = aA, b(A) = (a − 1)A, var  =
N
I Biramo a tako da minimiziramo SKG
a2 σ 2 d mse  2aσ 2
mse  = + (a − 1)2 A2 , = + 2(a − 1)A2
N da N
A2
aopt = 2
A + σ 2 /N
I Optimalno a zavisi od A koje treba estimirati!
I Praktično izvodljiv pristup:
I razmatramo samo klasu nepomerenih estimatora
I izaberemo onaj sa minimalnom varijansom
I dobijamo nepomeren estimator minimalne varijanse (NEMV)
12
13
Postojanje NEMV
I Da li je uvek moguće odrediti NEMV? Ne :(
I Nekada nije moguće odrediti ni nepomeren estimator.
I Primer: x ∼ U[0, 1/θ], proceniti θ na osnovu 1 merenja
Z 1/θ Z 1/θ
E θ̂ = θ g (x) dx = θ ⇔ g (x) dx = 1
0 0
14
Pristupi nalaženju NEMV
15
Uvod u teoriju estimacije
1
Pojam i primene
2
Matematička formulacija
1 (x−θ)2
x = θ + w, p(x; θ) = √ e − 2σ2
2πσ
I Primer: modelovanje cene akcije na berzi
T
x[n] = A + Bn + w [n], θ= A B
N−1
!
1 1 X
p(x; θ) = exp (x[n] − A − Bn)2
(2πσ 2 )N/2 2σ 2
n=0
3
Mera kvaliteta estimacije
I Primer: konstanta A u belom šumu w [n] varijanse σ 2
x[n] = A + w [n], n = 0, . . . , N − 1
4
I Kakve su prosečne procene svakog estimatora?
N−1
1 X 1
E Â1 = E x[n] = NA = A
N N
i=0
E Â2 = E x[0] = A
Podjednako su dobre!
I Kolike su prosečne srednje-kvadratne greške?
N−1
!2
1 X σ2
var Â1 = E (x[n] − A) =
N N
i=0
var Â2 = E (x[0] − A)2 = σ 2
5
Bayesovska estimacija
I Nepoznate parametre θ možemo posmatrati kao
1. determinisane (fiksirane), ali nama nepoznate vrednosti, ili kao
2. realizacija slučajnog vektora
I Pristup 2 nazivamo Bayesovskim.
I Bayesovski pristup omogućava ugradnju predznanja.
I Primer: konstanta A u belom šumu w [n].
I Ako znamo da je A ∈ [0, 2], možemo usvojiti apriornu FGV
6
7
Linearni gaussovski modeli
40
Definicija linearnog gaussovskog modela
I Linearni model sa poznatom opservacionom matricom H
x = Hθ + w (4.1)
x[n] = θ0 + θ1 n + w [n], n = 0, . . . , N − 1
x[0] 1 0 w [0]
.. .. .. θ0 + ..
= .
. . θ .
1
x[N − 1] 1 N − 1 |{z} w [N − 1]
| {z } | {z } θ | {z }
x H w
41
I Prema Cramer-Raoovoj teoremi, NEMV postoji ako je
∂ ln p(x; θ)
= I(θ) [g(x) − θ] (4.2)
∂θ
I Pravila diferenciranja (b je vektor, A simetrična matrica)
∂bT θ ∂θT Aθ
= b, = 2Aθ
∂θ ∂θ
I Za (4.1) sa BGŠ je x ∼ N (Hθ, σ 2 I)
N 1
ln p(x; θ) = − ln(2πσ 2 ) − 2 (x − Hθ)T (x − Hθ)
2 2σ
∂ ln p(x; θ) 1
= 2 HT x − HT Hθ
∂θ σ
42
I Tipično je N > p (više opservacija nego nepoznatih)
I Za rang HT H ≡ rang H = p, postoji (HT H)−1 , pa je
∂ ln p(x; θ) 1
= 2 HT H (HT H)−1 HT x −θ
∂θ σ
| {z } | {z }
g(x)
I(θ)
I θ̂ je nepomeren
−1
E θ̂ = HT H HT |{z}
Ex = θ
Hθ
43
I Primer: linearna regresija
x[n] = θ0 + n θ1 + w [n], n = 0, . . . , N − 1
rang H = 2, x̂[n] = θ̂0 + θ̂1 n
I Primer: polinomijalna regresija
x[n] = θ0 + θ1 n + · · · + θp np + w [n]
[H]n,: = 1 n · · · np , n = 0, . . . , N − 1
44
Uslov invertibilnosti
1 1
I U ovom slučaju je
x[n] = θ1 + θ2 + w [n], ∀n
45
Obojeni šum
I Obojeni šum: w ∼ N (0, C)
I Za C > 0 važi C−1 > 0, pa postoji invertibilno D tako da
C−1 = DT D
x0 = DHθ + w0 = H0 θ + w0
−1 −1
θ̂ = HT DT DH HT DT x0 = HT C−1 H HT C−1 x
−1 −1
T
Cθ̂ = H0 H0 = HT C−1 H
46
I Konstanta u nestacionarnom nekorelisnom Gaussovom šumu
x[n] = A + w [n], x = A1 + w
w [n] ∼ N (0, σn2 ), C = diag(σ02 , . . . , σN−1
2
)
−1
 = 1T C−1 1 1T C−1 x
N−1
!−1 N−1
X X x[n]
−2
= σn
σn2
n=0 n=0
x = Hθ + s + w
x0 = x − s
−1 −1
θ̂ = HT H HT (x − s), Cθ̂ = σ 2 HT H
47
Rezime
x = Hθ + w, w ∼ N (0, I)
I Postojanje pseudo-inverzije
I Obojeni šum: predizbeljivanje
48
Najbolji linearan nepomeren estimator
(Best Linear Unbiased Estimator, BLUE)
61
Motivacija
I Za nepoznato p(x; θ), ni CRT ni RBLST nisu primenljive
I I kada imamo p(x; θ), CRT i RBLST mogu biti neprimenjive
I Tada “pristajemo” na (potencijalno) suboptimalno rešenje
I Usvajamo da je θ̂ (inkrementalno) linearna f-ja od x
N−1
X
θ̂ = an x[n] = aT x
n=0
62
Uslov nepomerenosti
I Uslov nepomerenosti za θ̂ = aT x je
N−1
X
E θ̂ = an E x[n] = θ
n=0
N−1
?
X
E x[n] = cos θ, E θ̂ = cos θ an = θ
n=0
63
Nalaženje NLNE
I Varijansa linearnog nepomerenog estimatora (C , cov x)
h i
var θ̂ = var aT (x − E x) = aT C a (6.1)
I Za E x = θ s, uslov nepomerenosti je
E θ̂ = θ aT s = θ ⇔ aT s = 1 (6.2)
I Minimiziramo (6.1) pod uslovom (6.2)
L(a, λ) = aT C a + λ aT s − 1
λ
∇a L = 2 C a + λ s = 0 ⇒ a = − C−1 s
2
λ λ 1
1 = sT a = − sT C−1 s ⇒ − = T −1
2 2 s C s
C−1 s 1
aopt = , var θ̂ = aT
opt C aopt =
sT C−1 s sT C−1 s
64
Vektorski slučaj
I Estimator za θp×1 je linearna kombinacija opservacija x
N−1
X
θ̂ = A x ⇔ θ̂i = ain x[n], i = 1, . . . , p
n=0
E θ̂ = A E x = A H θ, E θ̂ = θ ⇔ AH = I
I Neka su aT
i vrste od A, a hi kolone od H. Iz A H = I sledi
aT
i hj = δij , j = 1, . . . , p (6.3)
65
I Za svako i imamo p ograničenja (6.3), pa je Lagranžijan
p
(i)
X
Ji (ai ) = aT
i C ai + λj hT
j ai − δij
j=1
p
(i)
X
∇ai Ji (ai ) = 2 C ai + λj hj = 2 C ai + H λ(i) = 0,
j=1
1
ai = − C−1 H λ(i) (6.5)
2
I Za ort-vektor ei ([ei ]j = δij ), (6.3) je isto kao HT ai = ei .
I Iz (6.5) dobijamo Lagranžov multiplikator
1 1 −1
HT ai = − HT C−1 H λ(i) = ei , − λ(i) = HT C−1 H ei
2 2
66
I Zamenom u (6.5) dobijamo
−1
aT T
i = ei HT C−1 H HT C−1
−1
A = HT C−1 H HT C−1
x = H θ + w, w ∼ N (0, C)
67
Rezime
68
Bayesovska filozofija
78
Definicija i motivacija
79
Aposteriorna fgv
p(x | θ)p(θ)
p(θ | x) =
p(x)
Primer:
80
Bayesovska srednje-kvadratna greška (BSKG)
81
Estimator minimalne srednje-kvadratne greške (EMSKG)
I Iz p(x, θ) = p(θ | x) p(x) sledi
Z Z h i2
Bmse θ̂ = θ − θ̂ p(θ | x) dθ p(x) dx
θ̂ = E (θ | x)
82
Primer: konstanta u belom Gaussovom šumu
p(A) ∼ U[−A0 , A0 ]
p(x | A) = φ(x; A 1, σ 2 I)
(
1
φ A; x̄, σ 2 /N , |A| ≤ A0
p(x | A) p(A) c
p(A | x) = =
p(x) 0, |A| > A0
Z A0
c= φ(A; x̄, σ 2 /N) dA
−A0
83
(
1
φ A; x̄, σ 2 /N , |A| ≤ A0
p(A | x) = c
0, |A| > A0
84
I Za konačno N, EMSKG je pomeren (0 < |Â| < |x̄|)
I apriorno znanje A ∼ U[−A0 , A0 ] “povlači” estimaciju ka nuli
I opservacije x “povlače” estimaciju ka x̄
I Za veliko N, var aposteriorne FGV σ 2 /N teži nuli
I p(A | x) je skoncentrisano u neposrednoj blizini x̄
I “odsecanje” na [−A0 , A0 ] nema efekta
I apriorno znanje gubi na značaju (podaci ga “zatrpavaju”)
I estimacija je asimptotski nepomerena
85
I Problem: integracija, pogotovu u vektorskom slučaju θp×1
I p-dim integracija da bismo dobili p(x)
Z
p(x) = p(x | θ) p(θ) dθ
p(x | θ) p(θ)
Z
θ̂ = θ dθ
p(x)
86
Izbor apriorne FGV
87
−1
2 N 1 N µA 2
σA|x = + , µA|x = x̄ + 2 σA|x
σ 2 σA2 σ2 σA
88
I U opštem slučaju, Bayesovska SKG za EMSKG je
Bmse θ̂ = E [θ − E (θ | x)]2
Z Z
= [θ − E (θ | x)]2 p(θ | x) dθ p(x) dx
Z
= var(θ | x) p(x) dx
2 ne zavisi od x, pa je
I Za prethodni primer, var(A | x) = σA|x
−1
σ2 σA2
2 N 1
Bmse  = σA|x = + 2 =
σ 2 σA N σA2 + σ2
N
σ2
Bmse Âemskg < mse Ânemv =
N
89
I EMSKG ima manju SKG od NEMV uprosečeno po A
I Za neko konkretno, fiksno A ovo ne mora biti slučaj
b(Âemskg ) = α A + (1 − α) µA − A,
σ2
var Âemskg = α2 var x̄ = α2 ,
N
mse Âemskg = var Âemskg + b 2 (Âemskg )
σ2
= α2 + (1 − α)2 (µA − A)2
N
Za veliko |µA − A|, možemo imati
σ2
mse Âemskg > mse Ânemv =
N
90
Osobine Gaussove FGV
I Za združeno normalne vektore x i θ sa
Ex Cx Cxθ
(x, θ) ∼ N ,
Eθ Cθx Cθ
aposteriorna raspodela θ | x je normalna, sa
x = H θ + w, θ ∼ N (µθ , Cθ ), w ∼ N (0, Cw )
92
I p(θ | x) za bayesovski linearan model je normalna, sa
−1
µθ|x = µθ + Cθ HT H Cθ HT + Cw (x − H µθ ) (8.1)
−1
Cθ|x = Cθ − Cθ HT H Cθ HT + Cw H Cθ (8.2)
93
I Uvodimo oznaku S , H Cθ HT + Cw
Cθ|x HT = Cθ − Cθ HT S−1 H Cθ HT (iz (8.2))
h i
= Cθ HT I − S−1 H Cθ HT
h i
= Cθ HT S−1 S − H Cθ HT (iz I = S−1 S)
= Cθ HT S−1 Cw
µθ|x = µθ + Cθ HT S−1 (x − H µθ )
= µθ + Cθ|x HT C−1
w (x − H µθ )
94
Neželjeni parametri
95
Estimator maksimalne verodostojnosti
(Maximum Likelihood Estimator, MLE)
1
Definicija
I Motivacija: recimo da
I znamo p(x; θ)
I ne možemo faktorisati l 0 (θ) kao I(θ)(θ̂(x) − θ)
I Estimator maksimalne verodostojnosti (EMV)
3
Osobine EMV
I Ako su l 0 (θ) i l 00 (θ) definisani, I(θ) 6= 0 i E l 0 (θ) = 0, važi
a
θ̂emv ∼ N (θ, I −1 (θ)) za N → ∞
odnosno EMV je asimptotski normalan, nepomeren i efikasan
I Primer: konstanta A u Gaussovom šumu varijanse A
N−1
N 1 X
l(A) = − ln(2πA) − (x[n] − A)2
2 2A
n=0
N−1 N−1
N 1 X 1 X
l 0 (A) = − + (x[n] − A) + (x[n] − A)2
2A A 2A2
n=0 n=0
N−1
1 X
l 0 (Â) = 0 ⇒ Â2 + Â − x 2 [n] = 0
N
n=0
v
u N−1 !
1 u 1 X 2 1 a A2
 = − + t x [n] + ∼ N A,
2 N 4
n=0
N(A + 12 )
4
N−1
N 1 X
l(A) = − ln(2πA) − (x[n] − A)2
2 2A
n=0
5
v
u N−1 !
1 u 1 X 2 1 a A2
 = − + t x [n] + ∼ N A,
2 N
n=0
4 N(A + 21 )
6
Numerička maksimizacija verodostojnosti
I Za θ ∈ [a, b], max možemo naći računajući p(x; θ) za
7
Linearna Bayesovska estimacija
108
Definicija
109
Optimalni koeficijenti LEMSKG
∂ Bmse θ̂
=0 ⇒ aN = E θ − aT E x
∂aN
2 Cx a − 2 cxθ = 0 ⇒ a = C−1
x cxθ
110
I Kombinujući izraze za aN i a dobijamo LEMSKG
θ̂ = E θ + cθx C−1
x (x − E x) (10.2)
111
Geometrijska interpretacija
I Pretpostavljamo E θ = E x[n] = 0; u protivnom centriramo
θ0 , θ − E θ, x0 , x − E x
I Slučajne promenljive nultog očekivanja čine vektorski prostor
I Skalarni proizvod dat je korelacijom (= kovarijansom)
hθ, xi , E(θ x), kθk2 = E θ2 = var θ
I Ortogonalnost (= nekorelisanost)
θ⊥x ⇔ hθ, xi = 0
I Optimalno θ̂ je projekcija θ na x
d hθ, xi
E (θ − a x)2 = 0 ⇒ a =
da hx, xi
x x
θ̂ = θ, , projx θ
kxk kxk
112
Princip ortogonalnosti
I E x[n] = 0 ⇒ aN = 0, pa je θ̂ = aT x; minimiziramo
2
Bmse θ̂ =
θ − aT x
= kk2
113
⊥ x[0], . . . , x[N − 1]
N−1
X
hx[m], θi = an hx[m], x[n]i, m = 0, . . . , N − 1
n=0
cxθ = Cx a ⇒ a = C−1
x cxθ , θ̂ = cθx C−1
x x
θ − θ̂ = ⊥ x[n], ∀n ⇒ hθ − θ̂, θ̂i = 0
Bmse θ̂ = hθ − θ̂, θ − θ̂i = hθ − θ̂, θi = var θ − cθx C−1
x cxθ
114
θ̂ = projx[0] θ + projx[1] θ (x[0] ⊥ x[1])
E(θx[0]) E(θx[1])
= x[0] + x[1]
E x 2 [0] E x 2 [0]
−1
E x 2 [0]
0 x[0]
= E(θx[0]) E(θx[1])
0 E x 2 [1] x[1]
= cθx C−1
x x
θ̂ = E θ + Cθx C−1
x (x − E x) (10.5)
Mθ̂ , Bmse θ̂ = Cθ − Cθx C−1
x Cxθ (10.6)
α = Aθ + b ⇒ α̂ = A θ̂ + b
I Za linearni, ne nužno Gaussovski model
x = Hθ + w
LEMSKG je dat sa (8.1) i (8.2) (bez obzira na oblik p(θ, x))
116
Sekvencijalni LEMSKG: motivacioni primer
Primer: korelisani x[0] i x[1]
I Estimacija samo na osnovu x[0]: θ̂[0] , projx[0] θ
I Kada bi bilo x[1] ⊥ x[0], na θ̂[0] bismo samo dodali projx[1] θ
I x[1] razlažemo na deo k x[0] i deo koji je ⊥ x[0]
E(x[1]x[0])
x̂[1|0] , projx[0] x[1] = x[0] (k x[0])
E x 2 [0]
x̃[1] , x[1] − x̂[1|0] (⊥ x[0])
117
Sekvencijalni LEMSKG: formalno izvođenje
n−1
I Neka je θ̂[n − 1] LEMSKG na osnovu {x[k]}k=0
I Cilj: izraziti θ̂[n] preko θ̂[n − 1] (rekurzivna implementacija)
I Neka je x̂[n|n − 1] LEMSKG za x[n] na osnovu {x[k]}n−1 k=0
I Greška x̃[n] , x[n] − x̂[n|n − 1] se zove inovacija
I Iz principa ortogonalnosti (PO) sledi
118
I θ̂i [n] je projekcija θi na lineal L(·) skupa X0:n , {x[k]}nk=0
I Kako je x̃[n] ⊥ L(X0:n−1 ), to je isto što i
hθi , x̃[n]i
θ̂i [n] = projL(X0:n−1 ) θi + projx̃[n] θi = θ̂i [n − 1] + x̃[n]
| {z } kx̃[n]k2
| {z }
θ̂i [n−1]
,ki [n]
hθi , x̃[n]i
ki [n] = ,
kx̃[n]k2
M[n − 1] h[n]
k[n] = T (10.9)
h [n] M[n − 1] h[n] + σn2
120
I Iz (10.9) i (10.7)
121
I Pre prve opservacije imamo samo apriornu fgv, pa je
θ̂[−1] = E θ, M[−1] = Cθ
122
Šta ako nemamo nulte srednje vrednosti?
I θ̂bsv označava LEMSKG kada je E θ = 0, E x = 0
I θ̂ssv je LEMSKG kada je E θ 6= 0, E x 6= 0
I M[n] ne zavisi od srednje vrednosti, pa relacija ostaje ista
I M[n] zavisi od k[n], pa ni k[n] ne zavisi od srednjih vrednosti
I LEMSKG za θ + b je θ̂ + b (invarijantnost za linearne trans.)
I Izveli smo LEMSKG za θ̂bsv na osnovu x − E x
I LEMSKG za θssv = θbsv + E θ je θ̂ssv = θ̂bsv + E θ
123
Wienerov filtar (WF)
I Wienerov filtar estimira s[n] iz zašumljenih merenja {x[k]}nk=0
T −1
ŝ[n] = cθx C−1 0
x x = rs (Cs + Cw ) x
| {z }
aT
124
I Interpretacija: ŝ[n] je odziv filtra sa impulsnim odzivom an−k
I Ali a se menja sa n, pa je filtar nestacionaran,
n
X n
X
ŝ[n] = aT x = ak x[k] = h(n) [n − k]x[k]
k=0 k=0
I h(n) [k]
je odziv na impuls od pre k perioda, u trenutku n
I Iz simetričnosti Cx i a = C−1 0
x rs dobijamo
a[n] rs [0]
Cx a = rs0 ⇒ Cx ... = ...
a[0] rs [n]
| {z } | {z }
,a0 ,rs
125
WF sa konačnim impulsnim odzivom
I Pretpostavka: vremenski-udaljeni odbirci su nekorelisani
I h(n) [·] biramo tako da bude s[n] − ŝ[n] ⊥ x[n − l], l ≥ 0 (PO)
h X∞ i
E s[n] − h(n) [k]x[n − k] x[n − l] = 0, l ≥ 0
k=0
∞
X
h[k]rx [l − k] = rs [l], l ≥0 (10.14)
k=0
128
I Izbeljivač mora biti stabilan, pa je Q(z) = 1/Sx+ (z)
I ŝ[n] sada dobijamo iz v [n], primenom PO
h X∞ i
E s[n] − g [k]v [n − k] v [n − l] = 0, l ≥ 0
| k=0 {z }
ŝ[n]
P∞
Iz v [n] = m=0 q[m](s[n − m] + w [n − m]) i s[n] ⊥ w [n] sledi
∞
X
rsv [l] = E (s[n]v [n − l]) = q[m]rs [l + m]
m=0
129
I Razlažemo Ssv (z) na sumu kauzalnog i antikauzalnog dela
X−1 X∞
Ssv (z) = rsv [l]z −k + rsv [l]z −k
l=−∞ l=0
| {z } | {z }
,[Ssv (z)]− ,[Ssv (z)]+
130
Rezime
I Klasa linearnih estimatora + minimizacija Bmse
θ̂ = aT x + aN
2
(a∗ , aN
∗
) = arg min E θ − θ̂
a,aN
θ̂ = E θ + cθx C−1
x (x − E x)
Bmse θ̂ = var θ − cθx C−1
x cxθ
I Geometrijska interpretacija
I Princip ortogonalnosti
θ − θ̂ ⊥ x[0], . . . , x[N − 1]
I Vektorski slučaj
131
Opšta Bayesovska estimacija
96
Cena i rizik
I Greška estimacije
= θ − θ̂
za dato x i θ
I Cena C(·) težini greške
I kvadratna C() = 2
I apsolutna C() = ||
I “0/1” cena
(
0, || ≤ δ
C() =
1, || > δ
97
I Rizik je očekivana cena
Z Z
R = E C() = C(θ − θ̂) p(θ | x) dθ p(x) dx
98
I Za apsolutnu cenu, integral iz (9.1) postaje
Z θ̂ Z ∞
(θ − θ̂) p(θ | x) dθ + (θ̂ − θ) p(θ | x) dθ
−∞ θ̂
99
I Za 0/1 cenu treba minimizirati
Z θ̂−δ Z ∞ Z θ̂+δ
p(θ | x) dθ + p(θ | x) dθ = 1 − p(θ | x) dθ
−∞ θ̂+δ θ̂−δ
50% 50%
median
mean
[wikipedia.org]
101
Osobine EMSKG
102
I EMSKG za θi je i-ta komponenta vektora θ̂
103
I Mθ̂ , cov = E( T ) u vektorskom slučaju je
h i
Mθ̂ = Ex Eθ|x (θ − E(θ | x)) (θ − E(θ | x))T = Ex Cθ|x
= θ − µθ − Cθx C−1
x (x − E x) ∼ N (0, Mθ̂ )
Mθ̂ = Cθ − Cθx C−1
x Cxθ , Bmse θ̂i = var θ̂i = [Mθ̂ ]ii
104
Osobine MAPE
I MAPE ne zahteva integraciju, samo maksimizaciju
I Primer: konstanta A ∼ U[−A0 , A0 ] u belom Gaussovom šumu
(
1
φ A; x̄, σ 2 /N , |A| ≤ A0
p(A | x) = c
0, |A| > A0
(
sign(x̄) A0 , |x̄| > A0
Âmap =
x̄, |x̄| ≤ A0
105
U opštem slučaju, θ̂i 6= [θ̂]i . Kontra-primer
1
6 , θ1 ∈ {[0, 2] ∪ [3, 5]}, θ2 ∈ [1, 2]
p(θ1 , θ2 | x) = 31 , θ1 ∈ [2, 3], θ2 ∈ [0, 1]
0, inače
1 2
p(θ2 | x) = [u(θ2 ) − u(θ2 − 1)] + [u(θ2 − 1) − u(θ2 − 2)]
3 3
θ̂2 ∈ [1, 2], [θ̂]2 ∈ [0, 1]
106
I MAPE nije invarijantan na transformaciju parametara. Primer:
107
Kalmanov filter
132
Problem estimacije promenljivog signala
I Cilj: proceniti s[n] iz zašumljenih merenja x[n] = s[n] + w [n]
σu2
n→∞: E s[n] → 0, cs [m, n] → a|m−n| (11.1)
1 − a2
σu2
rss [k] , cs [n + k, n] = a|k| (11.2)
1 − a2
135
I Rekurzivna forma očekivanja i varijanse
136
I Vektroski GMM (A, B i Q mogu zavisiti od n)
s[n] = A s[n − 1] + B u[n], n ≥ 0
E u[n] = 0, E u[m] uT [n] = Q δmn
s[−1] ∼ N (µs , Cs ), E s[−1] uT [n] = 0
U rekurzivnoj formi
E s[n] = An+1 µs , C[n] = A C[n − 1] AT + B Q BT (11.5)
137
I U stacionarnom stanju, C je dato j-nom Ljapunova
C = A CAT + B Q BT
I Kada su sopstvene vrednosti od A unutar jediničnog kruga:
∞
X T
C = lim C[n] = Ak B Q BT Ak (iz (11.4))
n→∞
k=0
I Vektorski model pokriva i skalarne GM procese p-tog reda
p
X
s[n] = a[k] s[n − k] + u[n]
k=1
T
s[n] , s[n − p + 1] · · · s[n]
0 1 ··· 0 0
0 0 ··· 0
0
.. . . .
s[n] = . .. .. .. s[n − 1] + ..
u[n]
.
0 0 ··· 1 0
a[p] a[p − 1] · · · a[1] 1
138
Skalarni Kalmanov filter (KF)
I GMM sa BGŠ merenja w [n], nezavisnim od s[−1] i u[n]
s[n] = a s[n − 1] + u[n]
x[n] = s[n] + w [n]
I Usvajamo s[−1] ∼ N (0, σs2 ), odakle sledi E s[n] = 0, n ≥ 0
I Notacija:
T
x0:n , x[0] · · · x[n] (vektor)
X0:n , {x[0], . . . , x[n]} (skup)
ŝ[n|n] , E (s[n] | x0:n ) (izlaz KF-a)
ŝ[n|n − 1] , E (s[n] | x0:n−1 ) (predikcija stanja)
x̂[n|n − 1] , E (x[n] | x0:n−1 ) (predikcija opservacije)
x̃[n] , x[n] − x̂[n|n − 1] (inovacija)
M[n|n − 1] , E (s[n] − ŝ[n|n − 1])2 (s.k.g.p.)
139
I KF = sekvencijalni EMSKG za s[n] iz {x[k]}nk=0
I Sve združene raspodele su normalne: EMSKG = LEMGKS
𝑠[1]
𝑥[1|0] 𝑥[0]
𝑠[1|0]
𝑠[1|1]
𝑥[1]
𝑥[1]
140
I U izvođenju koristimo sledeće osobine EMSKG
1. aditivnost nezavisnih opservacija x1 i x2 za gaussovski model
141
I Iz svega navedenog i osobine 1 EMSKG sledi
hs[n], x̃[n]i
E (s[n] | x̃[n]) = x̃[n] = K [n] x̃[n]
kx̃[n]k2
E(s[n] x̃[n])
K [n] , (Kalmanovo pojačanje)
E x̃ 2 [n]
142
I Iz w [n] ⊥ X0:n−1 i E w [n] = 0 sledi
143
I Konačno dobijamo Kalmanovo pojačanje
M[n|n − 1]
K [n] = (11.10)
σw2 + M[n|n − 1]
I u[n] je nezavisno od s[n − 1] i ŝ[n − 1|n − 1], pa je
144
I Iz x̃[n] ⊥ ŝ[n|n − 1] sledi
145
I J-ne važe u istom obliku i za E s[−1] = µs 6= 0. Inicijalizacija:
146
Osobine skalarnog KF
147
I Predikcija (11.11) povećava, a korekcija (11.14) smanjuje var
148
Izvođenje preko osobina Gaussove FGV
I Združena raspodela za x[n] i s[n] je normalna, jer
1. je model linearan, i
2. s[−1], u[n] i w [n] imaju normalnu raspodelu
I Iz x[0] = s[0] + w [0] i s[0] ⊥ w [0] dobijamo
149
I Već smo pokalazali da je ŝ[0|0] = E(s[0] | x[0]), pa imamo
I Pretpostavimo da je
150
I Iz osobina Gaussove FGV
151
Prediktivna i aposteriorna raspodela u stacionarnom stanju:
M[n|n − 1]
0 < K [n] = <1
σw2
+ M[n|n − 1]
M[n|n] = (1 − K [n]) M[n|n − 1] < M[n|n − 1]
152
Poređenje Kalmanovog i Wienerovog filtra
I Nestacionarni signali
I WF nije primenjiv – podrazumeva slabo-stacionarne x[n] i s[n]
I KF jeste primenjiv – parametri GM modela mogu zavisiti od n
I Za stacionaran GM model, u stacionarnom stanju (n → ∞)
I x[n] je slabo-stacionaran (uticaj s[−1] iščezava za n → ∞)
I LEMSKG postaje linearan vremenski-invarijantan filter
I i KF i WF su LEMSKG, pa su ekvivalentni
I M i K postaju konstantni: M[∞] , limn→∞ M[n|n]