01 Verovatnoca - Merged

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 214

13E053SSE – Stohastički sistemi i

estimacija
Rezime teorije verovatnoće
Verovatnoća kao osnova
• Verovatnoća: mera sigurnosti da će se neki
događaj desiti. To je funkcija koja događaju
dodeljuje vrednosti između 0 i 1.
• Zašto dolazi do nesigurnosti?
– Nedovoljno znanja
– Nesigurna merenja
• Neformalni začetnih teorije verovatnoće je
kockanje!
– 16. vek: Gerolamo Cardano analizira igre na sreću
– 17. vek: Pierre de Fermat, Blaise Pascal
– 18. vek: Laplace, Bernoulli
Verovatnoća kao osnova
• Diskretni slučajevi: bacanje novčića, karte,
kockice (brojanje ishoda)
– Broj permutacija špila karata: 52! ≈ 8·1067
– Šanse da se pobedi u loto-u: 1 : 4.5·107
• Kontinualni slučajevi: trajanje razgovora,
analogno merenje temperature
– Verovatnoća 0 ne znači da se događaj nikad neće
desiti!
Primena
• Matematika, statistika
• Finansije
• Fizika, filozofija
• Veštačka inteligencija, mašinsko učenje, teorija
igara
• Kockanje
Definicija verovatnoće
1) Eksperimentalni (heuristički) opis
verovatnoće:
Verovatnoća događaja 𝐴, u oznaci 𝑃 𝐴 se
računa kao:
broj povoljnih ishoda
𝑃 𝐴 =
ukupan broj ishoda
Ovde podrazumevamo da su svi ishodi
podjednako verovatni
Definicija verovatnoće
1) Eksperimentalni (heuristički) opis verovatnoće
2) Aksiomatski (matematički) opis verovatnoće
Verovatnoća događaja 𝐴 se definiše pomoću 3 pojma:
Ω, ℱ, 𝑃 𝐴
Ω- prostor verovatnoće predstavlja sigurni događaj, skup
svih elementarnih događaja
𝜔𝑖 - elementarni događaj je ishod eksperimenta
ℱ - polje događaja je skup svih događaja iz Ω tako da su
zadovoljena 2 uslova
A1: Ako događaj 𝐴 ∈ ℱ, onda 𝐴ҧ ∈ ℱ
A2: Ako 𝐴, 𝐵 ∈ ℱonda 𝐴 + 𝐵 = 𝐴 ∪ 𝐵 ∈ ℱ
Definicija verovatnoće
Primer: Opisati eksperiment bacanja novčića
Definicija verovatnoće
Definicija: Verovatnoća 𝑃 na skupu Ω je funkcija
(preslikavanje) koja događaje iz polja ℱ preslikava na
interval [0,1] realne ose, tako da su zadovoljeni sledeći
aksiomi:
A1) Nenegativnost: Ako 𝐴 ∈ ℱ onda𝑃 𝐴 ≥ 0
A2) Normiranost: Ako je Ω siguran događaj, onda 𝑃 Ω = 1
A3) Aditivnost: Ako su 𝐴, 𝐵 ∈ ℱ disjunktni (𝐴𝐵 = 0) onda je
𝑃 𝐴+𝐵 =𝑃 𝐴 +𝑃 𝐵
A3a) Ako 𝐴1 , … , 𝐴𝑛 ∈ ℱ i 𝐴𝑖 𝐴𝑗 = 0 za 𝑖 ≠ 𝑗, onda
𝑃 σ𝑛𝑖=1 𝐴𝑖 = σ𝑛𝑖=1 𝑃 𝐴𝑖
Definicija verovatnoće
Primer: Četvorostrana kockica se baca dva puta
(𝑋 je prvo bacanje, 𝑌 je drugo bacanje).
• 𝑃 𝑋, 𝑌 je 1,1 ili 1,2 =
• 𝑃 𝑋=1 =
• 𝑃 𝑋 + 𝑌 neparno =
• 𝑃 min 𝑋, 𝑌 = 2 =
Definicija verovatnoće
Primer: Igra se pikado sa kvadratnom metom
Ω = 𝑥, 𝑦 |0 ≤ 𝑥, 𝑦 ≤ 1
1
• 𝑃 𝑋+𝑌 ≤ =
2
• 𝑃 𝑋, 𝑌 = 0.5,0.3 =
Definicija verovatnoće
Primer: Koliki procenat studenata dolazi na predavanja i pije kafu, ako
je poznato:
• 60% studenata dolazi na predavanja
• 70% studenata pije kafu
• 15% studenata ne pije kafu i ne dolazi na predavanja
Uslovna verovatnoća
Uslovna verovatnoća događaja 𝐴 ∈ ℱako se realizovao
događaj 𝐵 ∈ ℱ se definiše pomoću Ω, ℱ, 𝑃 𝐴|𝐵

Definicija: Ako je 𝑃 𝐵 ≠ 0, onda važi


𝑃 𝐴𝐵
𝑃 𝐴𝐵 =
𝑃 𝐵
Alternativno: 𝑃 𝐴𝐵 = 𝑃 𝐵 𝑃 𝐴 𝐵 = 𝑃 𝐴 𝑃 𝐵 𝐴
Uslovna verovatnoća
• Specijalni slučajevi:
1) Ako su 𝐴𝐵 = 0 (disjunktni događaji)
onda
𝑃 𝐴𝐵 = 0 ⇒ 𝑃 𝐴 𝐵 = 0
2) Ako je 𝐴 ⊂ 𝐵 onda
𝐴𝐵 = 𝐴 ⇒ 𝑃 𝐴𝐵 = 𝑃 𝐴
𝑃 𝐴
⇒𝑃 𝐴𝐵 = ≥𝑃 𝐴
𝑃 𝐵
3) Ako je 𝐴 ⊂ 𝐵 onda
𝐴𝐵 = 𝐴 ⇒ 𝑃 𝐴𝐵 = 𝑃 𝐴
𝑃 𝐵
⇒𝑃 𝐵𝐴 = =1
𝑃 𝐵
Uslovna verovatnoća
• Uslovne verovatnoće su kao obične verovatnoće,
samo primenjene na novom univerzumu na kome
se zna da se 𝐵 desilo
• Uslovna verovatnoća mora da zadovolji
standardne aksiome verovatnoće
A1) Nenegativnost: 𝑃 𝐴 𝐵 ≥ 0
𝑃 Ω𝐵 𝑃 𝐵
A2) Normiranost: 𝑃 Ω 𝐵 = = =1
𝑃 𝐵 𝑃 𝐵
A3) Aditivnost za 𝐴𝐶 = 0:
𝑃 𝐴+𝐶 𝐵 𝑃 𝐴𝐵 + 𝐶𝐵
𝑃 𝐴+𝐶 𝐵 = =
𝑃 𝐵 𝑃 𝐵
𝑃 𝐴𝐵 𝑃 𝐶𝐵
= + =𝑃 𝐴 𝐵 +𝑃 𝐶 𝐵
𝑃 𝐵 𝑃 𝐵
Uslovna verovatnoća
Primer: 2 bacanja četvorostrane kockice (𝑋 je prvo
bacanje, 𝑌 je drugo bacanje). Definisani su događaji:
𝐵: min 𝑋, 𝑌 ; 𝑀: max 𝑋, 𝑌
• 𝑃 𝑀=1𝐵=2 =
• 𝑃 𝑀=2𝐵=2 =
Nezavisnost događaja
Definicija 1: Događaji 𝐴 i 𝐵 su nezavisni ako važi
𝑃 𝐵𝐴 =𝑃 𝐵
Definicija 2: Događaji 𝐴 i 𝐵 su nezavisni ako
važi𝑃 𝐴𝐵 = 𝑃 𝐴 𝑃 𝐵

Primer: Da li su A i B nezavisni?
Nezavisnost događaja
• Uslovna nezavisnost:
𝑃 𝐴𝐵 𝐶 = 𝑃 𝐴 𝐶 𝑃 𝐵 𝐶

Nezavisnost u originalnom modelu ne implicira


nezavisnost u uslovnom modelu!
Teorema totalne verovatnoće
• Događaji 𝐴1 , … 𝐴𝑛 čine potpun sistem hipoteza ako su
događaji disjunktni (𝐴𝑖 𝐴𝑗 = 0 za 𝑖 ≠ 𝑗) i ako σ𝑛𝑖=1 𝐴𝑖 = Ω.
Teorema: Ako događaji 𝐴1 , … 𝐴𝑛 čine potpun sistem hipoteza,
tada se verovatnoća proizvoljnog događaja 𝐵 može izraziti kao
𝑛

𝑃 𝐵 = ෍ 𝑃 𝐵 𝐴𝑖 𝑃 𝐴𝑖
𝑖=1
Dokaz: 𝐵 = σ𝑛𝑖=1 𝐵𝐴𝑖 , 𝐵𝐴𝑖 𝐵𝐴𝑗 = 0, 𝑖 ≠ 𝑗
𝑛 𝑛 𝑛

𝑃 𝐵 = 𝑃 ෍ 𝐵𝐴𝑖 = ෍ 𝑃 𝐵𝐴𝑖 = ෍ 𝑃 𝐵|𝐴𝑖 𝑃 𝐴𝑖


𝑖=1 𝑖=1 𝑖=1
Bajesova teorema
Teorema: Ako događaji 𝐴1 , … 𝐴𝑛 čine potpun sistem hipoteza i
𝑃 𝐵 ≠ 0, tada za ∀𝑖 = 1, … , 𝑛 važi
𝑃 𝐵 𝐴𝑖 𝑃 𝐴𝑖 𝑃 𝐵 𝐴𝑖 𝑃 𝐴𝑖
𝑃 𝐴𝑖 𝐵 = = 𝑛
𝑃 𝐵 σ𝑗=1 𝑃 𝐵|𝐴𝑗 𝑃 𝐴𝑗
𝑃 𝐴𝑖 𝐵
Dokaz: 𝑃 𝐴𝑖 𝐵 =
𝑃 𝐵
𝑃 𝐴𝑖 𝐵
𝑃 𝐵 𝐴𝑖 = ⇒ 𝑃 𝐴𝑖 𝐵 = 𝑃 𝐵 𝐴𝑖 𝑃 𝐴𝑖
𝑃 𝐴𝑖
𝑃 𝐵 𝐴𝑖 𝑃 𝐴𝑖 𝑃 𝐵 𝐴𝑖 𝑃 𝐴𝑖
⇒ 𝑃 𝐴𝑖 𝐵 = = 𝑛
𝑃 𝐵 σ𝑗=1 𝑃 𝐵|𝐴𝑗 𝑃 𝐴𝑗
Bajesova teorema
Primer: Pretpostavimo da 0.001% populacije ima određenu vrstu raka.
Doktor izvrši test na pacijentu koji sa verovatnoćom 0.99 detektuje
rak. Takođe, sa verovatnoćom 0.2 test će biti lažno pozitivan
(detektovaće rak iako ga pacijent nema). Ako je test pozitivan koja
je verovatnoća da pacijent ima rak?
𝐵 – Osoba ima rak
𝐴 – Test je pozitivan
𝑃 𝐵 𝐴 =?
13E053SSE – Stohastički sistemi i
estimacija
Slučajne promenljive
Slučajne promenljive
Definicija: Jednodimenziona realna slučajna promenljiva (eng.
random variable) je funkcija (preslikavanje) 𝑋 koja svakom
elementarnom ishodu 𝜔 iz prostora Ω dodeljuje realan broj, i
to tako da su ispunjena 2 uslova:
A1) 𝑋(𝜔) je merljiva funkcija, što znači da skup
𝐴 = 𝜔: 𝑋 𝜔 ≤ 𝑥
pripada polju događaja ℱ, odnosno postoji 𝑃(𝐴)
A2) Ako su 𝐴 = 𝜔: 𝑋 𝜔 = +∞ i 𝐵 = 𝜔: 𝑋 𝜔 = −∞ , onda
je 𝑃 𝐴 = 𝑃 𝐵 = 0
Slučajne promenljive
Primer:
Funkcija raspodele
Definicija: Funkcija raspodele (eng. cumulative distribution function) 𝐹𝑋 𝑥 je
kompletan matematički opis slučajne promenljive 𝑋:
𝐹𝑋 𝑥 = 𝑃 𝜔: 𝑋 𝜔 ≤ 𝑥

Osobine:
1) Horizontalne asimptote
𝐹𝑋 −∞ = 𝑃 𝜔: 𝑋 𝜔 ≤ −∞ =0
𝐹𝑋 +∞ = 𝑃 𝜔: 𝑋 𝜔 ≤ +∞ =1

2) Funkcija raspodele je monotono neopadajuća


Ako su 𝐴 = 𝜔: 𝑋 𝜔 ≤ 𝑥1 , 𝐵 = 𝜔: 𝑋 𝜔 ≤ 𝑥2 i 𝑥1 < 𝑥2 , tada važi 𝐴 ⊂
𝐵 ⇒ 𝑃 𝐴 ≤ 𝑃 𝐵 ⇒ 𝐹𝑋 𝑥1 ≤ 𝐹𝑋 𝑥2

3) Funkcija raspodele može da ima prekid prve vrste i neprekidna je sa desne


strane
Funkcija raspodele
• Klasifikacija slučajnih promenljivih prema
obliku raspodele:
1) Neprekidne
2) Diskretne
3) Mešovite
Diskretna slučajna promenljiva
• Slučajna promenljiva uzima vrednost iz diskretnog
skupa realnih brojeva. Funkcija raspodele je
‘stepeničasta’
• Funkcija mase verovatnoće:
𝑝𝑋 𝑥 = 𝑃 𝜔: 𝑋 𝜔 = 𝑥 = 𝑃(𝑋 = 𝑥)
Diskretna slučajna promenljiva
• Funkcija mase verovatnoće (eng. probability
mass function):
𝑝𝑋 𝑥 = 𝑃 𝜔: 𝑋 𝜔 = 𝑥 = 𝑃(𝑋 = 𝑥)
• Osobine:
1) 𝑝𝑋 𝑥 ≥ 0 2) σ𝑥 𝑝𝑋 𝑥 = 1
• Veza F.R. i F.M.V.
𝐹𝑋 𝑥 = ෍ 𝑝𝑋 𝑘
𝑘≤𝑥
• Notacija:
𝑥1 𝑥2 ⋯ 𝑥𝑛
𝑋~ 𝑝 𝑥 𝑝𝑋 𝑥2 𝑝𝑋 𝑥𝑛
𝑋 1
Diskretna slučajna promenljiva
Primer: Eksperiment bacanja novčića
Kontinualna slučajna promenljiva
• Funkcija raspodele je neprekidna funkcija realnog argumenta
𝐹𝑋 𝑥 = 𝐹𝑋 𝑥 − = 𝐹𝑋 𝑥 +
• Funkcija gustine verovatnoće (eng. probability density
function):
𝑥
𝑑𝐹𝑋 𝑥
𝑓𝑋 𝑥 = , 𝐹𝑋 𝑥 = න 𝑓𝑋 𝜏 𝑑𝜏
𝑑𝑥 −∞
• Osobine:

1) 𝑓𝑋 𝑥 ≥ 0 2) ‫׬‬−∞ 𝑓𝑋 𝜏 𝑑𝜏 = 1
𝑏
3) 𝑃 𝑎 ≤ 𝑋 𝜔 ≤ 𝑏 = ‫𝜏 𝑋𝑓 𝑎׬‬ 𝑑𝜏 = 𝐹𝑋 𝑏 − 𝐹𝑋 𝑎
Mešovita slučajna promenljiva
• Funkcija raspodele slučajne promenljive ima
prekide prve vrste.
• Diferenciranjem FR u tačkama prekida
dobijamo Dirakov impuls srazmeran
verovantoći u datoj tački
Veza funkcije mase verovatnoće i
funkcije gustine verovatnoće
𝐹𝑋 𝑥 = ෍ 𝑝𝑋 𝑘 𝑢 𝑥 − 𝑘
𝑘≤𝑥
𝑑𝐹𝑋 𝑥
𝑓𝑋 𝑥 = ෍ 𝑝𝑋 𝑘 𝛿 𝑥 − 𝑘
𝑑𝑥
𝑘≤𝑥
Matematičko očekivanje slučajne
promenljive
• Diskretne slučajne promenljive: 𝐸 𝑋 = σ𝑥 𝑥 ⋅ 𝑝𝑋 𝑥

• Kontinualne slučajne promenljive:



𝐸 𝑋 = න 𝑥 ⋅ 𝑓𝑋 𝑥 𝑑𝑥
−∞
Funkcija slučajne promenljive
• Funkcija slučajne promenljive, 𝑌 = 𝑔 𝑋 ,
je sama po sebi slučajna promenljiva!
• Računanje preko definicije matematičkog
očekivanja:
𝐸 𝑌 = ෍ 𝑦 ⋅ 𝑝𝑌 𝑦
𝑦
ili

𝐸 𝑌 = න 𝑦 ⋅ 𝑓𝑌 𝑦
−∞
... Komplikovano!
Očekivanje funkcija slučajne
promenljive
Definicija: Matematičko očekivanje vrednosti funkcije
𝑔 𝑋 slučajne promenljive 𝑋 se definiše kao

𝐸 𝑔 𝑋 = න 𝑔 𝑥 𝑓𝑋 𝑥 𝑑𝑥
−∞
ili
𝐸 𝑔 𝑋 = ෍ 𝑔 𝑥 𝑝𝑋 𝑥
𝑥

• PAŽNJA!!!
𝐸 𝑔 𝑋 ≠𝑔 𝐸 𝑋
Očekivanje funkcija slučajne
promenljive
• Matematičko očekivanje (srednja vrednost) se dobija za
𝑔 𝑋 =𝑋
𝑋ത = 𝑚𝑋 = 𝐸 𝑋

• Centrirani moment n-tog reda se dobija za


𝑔 𝑋 = 𝑋 − 𝑚𝑋 𝑛
𝜇𝑛 = 𝐸 𝑋 − 𝑚𝑋 𝑛

• Necentrirani moment n-tog reda se dobija za


𝑔 𝑋 = 𝑋𝑛
𝑚𝑛 = 𝐸 𝑋 𝑛
Očekivanje funkcija slučajne
promenljive
• Momenti drugog reda:
– Varijansa (centrirani moment 2. reda): 𝜎𝑋2 = 𝐸 𝑋 − 𝑚𝑋 2

– Necentrirani moment drugog reda: 𝐸 𝑋 2


– Veza:

𝜎𝑋2 = න 𝑥 − 𝑚𝑋 2 𝑓𝑋 𝑥 𝑑𝑥
−∞

=න 𝑥 2 − 2𝑥𝑚𝑋 + 𝑚𝑋2 𝑓𝑋 𝑥 𝑑𝑥
−∞
∞ ∞ ∞
= න 𝑥 2 𝑓𝑋 𝑥 𝑑𝑥 − 2𝑚𝑋 න 𝑥𝑓𝑋 𝑥 𝑑𝑥 + 𝑚𝑋2 න 𝑓𝑋 𝑥 𝑑𝑥
−∞ −∞ −∞

= 𝐸 𝑋2 − 𝐸 𝑋 2
13E053SSE – Stohastički sistemi i
estimacija
Slučajni vektori
Slučajni vektori
Definicija: Ako su 𝑋1 𝜔 , … , 𝑋𝑛 𝜔 slučajne promenljive, onda se
slučajnim vektorom naziva njihov uređeni skup 𝑿 = 𝑋1 , … , 𝑋𝑛
Dvodimenzionalni slučajni vektori
• Matematički opis 2D slučajnog vektora:
𝐹𝑋,𝑌 𝑥, 𝑦 = 𝑃 𝜔: 𝑋 𝜔 ≤ 𝑥, 𝑌 𝜔 ≤ 𝑦

𝜕 2 𝐹𝑋,𝑌 𝑥, 𝑦
𝑓𝑋,𝑌 𝑥, 𝑦 =
𝜕𝑥𝜕𝑦
𝑦 𝑥
𝐹𝑋,𝑌 𝑥, 𝑦 = න න 𝑓𝑋,𝑌 𝛼, 𝛽 𝑑𝛼𝑑𝛽
−∞ −∞
Dvodimenzionalni slučajni vektori
• Osobine:
1) 𝐹 𝑥, −∞ = 𝐹 −∞, 𝑦 = 𝑃 0 = 0
𝐹 ∞, ∞ = 1
2) 𝐹 𝑥, 𝑦 je monotono neopadajuća funkcija realnih argumenata 𝑥 i 𝑦.
3) Marginalne funkcije raspodele se dobijaju kao:
𝐹𝑋 𝑥 = 𝐹 𝑥, +∞ = 𝑃 𝑋 ≤ 𝑥, 𝑌 ≤ ∞ = 𝑃 𝑋 ≤ 𝑥
𝐹𝑌 𝑦 = 𝐹 +∞, 𝑦 = 𝑃 𝑋 ≤ ∞, 𝑌 ≤ 𝑦 = 𝑃 𝑌 ≤ 𝑦
4) Nenegativnost: 𝑓 𝑥, 𝑦 ≥ 0
∞ ∞
5) Normiranost: ‫׬‬−∞ ‫׬‬−∞ 𝑓 𝑥, 𝑦 𝑑𝑥𝑑𝑦 = 𝐹 ∞, ∞ = 1
6) Marginalne funkcije gustine verovatnoće se dobijaju kao:

𝑓𝑋 𝑥 = න 𝑓 𝑥, 𝑦 𝑑𝑦
−∞
Dvodimenzionalni slučajni vektori
• Funkcija raspodele (funkcija gustine verovatnoće) predstavlja
kompletan matematički opis slučajnog vektora:
Dvodimenzionalni slučajni vektori
Matematičko očekivanje funkcije 𝑔 𝑿 = 𝑔 𝑋1 , 𝑋2 slučajnog vektora 𝑿 =
𝑋1 𝑋2 𝑇 :
∞ ∞
𝐸 𝑔 𝑋1 , 𝑋2 =න න 𝑔 𝑥1 , 𝑥2 𝑓𝑋1 ,𝑋2 𝑥1 , 𝑥2 𝑑𝑥1 𝑑𝑥2
−∞ −∞

• Kovarijansa 2 slučajne promenljive:


𝑔 𝑋1 , 𝑋2 = 𝑋1 − 𝐸 𝑋1 𝑋2 − 𝐸 𝑋2
cov 𝑋1 , 𝑋2 = 𝐸 𝑔 𝑋1 , 𝑋2
∞ ∞
=න න 𝑥1 − 𝐸 𝑋1 𝑥2 − 𝐸 𝑋2 𝑓𝑋1 ,𝑋2 𝑥1 , 𝑥2 𝑑𝑥1 𝑑𝑥2
−∞ −∞
• Koeficijent korelacije 2 slučajne promenljive:
cov 𝑋1 , 𝑋2
𝜌 𝑋1 , 𝑋2 ] =
var 𝑋1 𝑣𝑎𝑟 𝑋1
Dvodimenzionalni slučajni vektori
−1 ≤ 𝜌 𝑋1 , 𝑋2 ≤ 1
Dokaz:
n-dimenzioni slučajni vektori
𝑿 = 𝑋1 𝑋2 ⋯ 𝑋𝑛 𝑇

• Funkcija raspodele
𝐹𝑋1,…,𝑋𝑛 𝑥1 , … , 𝑥𝑛 = 𝑃 𝑋1 ≤ 𝑥1 , … , 𝑋𝑛 ≤ 𝑥𝑛
• Marginalne raspodele
𝐹𝑋1,…,𝑋𝑛 ∞, 𝑥2 , … , 𝑥𝑛 = 𝐹𝑋2,…,𝑋𝑛 𝑥2 , … , 𝑥𝑛
𝐹𝑋1,…,𝑋𝑛 ∞, ∞, … , 𝑥𝑛 = 𝐹𝑋3,…,𝑋𝑛 𝑥3 , … , 𝑥𝑛
• Funkcija gustine verovatnoće
𝜕 𝑛 𝐹 𝑥1 , … , 𝑥𝑛
𝑓 𝑥1 , … , 𝑥𝑛 =
𝜕𝑥1 𝜕𝑥2 ⋯ 𝜕𝑥𝑛
∞ ∞
𝐹 𝑥1 , … , 𝑥𝑛 = න ⋯ න 𝑓 𝛼, 𝛽, … 𝑑𝛼𝑑𝛽 …
−∞ −∞
• Marginalne funkcije gustine verovatnoće
∞ ∞
𝑓𝑋𝑖 𝑥𝑖 = න ⋯ න 𝑓 𝑥1 , 𝑥2 , … , 𝑥𝑛 𝑑𝑥1 … 𝑑𝑥𝑖−1 𝑑𝑥𝑖+1 … 𝑑𝑥𝑛
−∞ −∞
n-dimenzioni slučajni vektori
• Matematičko očekivanje slučajnog vektora 𝑿
𝑋1
𝐸 𝑿 =𝐸 ⋮ =𝑿 ഥ
𝑋𝑛
• Kovarijaciona matrica slučajnog vektora 𝑿
var 𝑋1 ⋯ cov 𝑋1 , 𝑋𝑛
𝑅𝑿 = 𝐸 𝑿 − 𝑿 ഥ 𝑿−𝑿 ഥ 𝑇 = ⋮ ⋱ ⋮
cov 𝑋𝑛 , 𝑋1 ⋯ var 𝑋𝑛
• Korelaciona matrica slučajnog vektora 𝑿
Ψ𝑿 = 𝐸 𝑿𝑿𝑇
• Matrica kroskovarijanse slučajnih vektora 𝑿 i 𝒀
𝑅𝑿,𝒀 = 𝐸 𝑿 − 𝑿 ഥ 𝒀−𝒀 ഥ 𝑇

• Matrica kroskorelacije slučajnih vektora 𝑿 i 𝒀


Ψ𝑿,𝒀 = 𝐸 𝑿𝒀𝑇
Karakterizacija slučajnih vektora
• Nezavisnost komponenti slučajnog vektora:
Ako je 𝐹 𝑥1 , … , 𝑥𝑛 združena funkcija raspodele slučajnog vektora 𝑿 =
𝑋1 ⋯ 𝑋𝑛 𝑇 i neka su 𝐹𝑋1 𝑥1 , … , 𝐹𝑋𝑛 𝑥𝑛 marginalne funkcije raspodele, tada
za slučajne promenljive 𝑋1 , … , 𝑋𝑛 kažemo da su nezavisne akko u svakoj tački
𝑥1 , … , 𝑥𝑛 ∈ 𝑅𝑛 važi:
𝑛

𝐹 𝑥1 , … , 𝑥𝑛 = ෑ 𝐹𝑋𝑖 𝑥𝑖
𝑖=1
Ekvivalentno, u kontinualnom slučaju:
𝑛

𝑓 𝑥1 , … , 𝑥𝑛 = ෑ 𝑓𝑋𝑖 𝑥𝑖
𝑖=1
U diskretnom slučaju:
𝑛

𝑃 𝑋1 = 𝑥1 , … , 𝑋𝑛 = 𝑥𝑛 = ෑ 𝑃 𝑋𝑖 = 𝑥𝑖
𝑖=1
Karakterizacija slučajnih vektora
• Nekorelisanost komponenti slučajnog vektora:
Slučajne promenljive 𝑋1 i 𝑋2 su nekorelisane ako važi cov 𝑋1 , 𝑋2 = 0

→ cov 𝑋1 , 𝑋2 = 𝐸 𝑋1 − 𝑋ത1 𝑋2 − 𝑋ത2


= 𝐸 𝑋1 𝑋2 − 𝑋ത1 𝑋2 − 𝑋ത2 𝑋1 + 𝑋ത1 𝑋ത2 = 𝐸 𝑋1 𝑋2 − 𝑋ത1 𝑋ത2
Ekvivalentni uslov: 𝐸 𝑋1 𝑋2 = 𝐸 𝑋1 𝐸 𝑋2

• Ako su slučajne promenljive nezavisne, onda su one i nekorelisane.


Obrnuto ne važi!

• Ortogonalnost slučajnih vektora:


Slučajni vektori 𝑿 i 𝒀 su ortogonalni ako je Ψ𝑿,𝒀 = 𝐸 𝑿𝒀𝑇 = 0
13E053SSE – Stohastički sistemi i
estimacija
Uslovne raspodele
Uslovne raspodele
• Uslovna funkcija raspodele slučajne promenljive 𝑋 u odnosu na događaj
𝑌 = 𝑦 je:
𝑥
𝑓𝑋,𝑌 𝛼, 𝑦
𝐹𝑋|𝑌 𝑥 𝑦 = 𝑃 𝑋 ≤ 𝑥|𝑌 = 𝑦 = න 𝑑𝛼
−∞ 𝑓𝑌 𝑦
Dokaz:
Uslovne raspodele
• Uslovna funkcija gustine verovatnoće:
𝜕 𝜕 𝑥 𝑓𝑋,𝑌 𝛼, 𝑦
𝑓𝑋|𝑌 𝑥 𝑦 = 𝐹𝑋|𝑌 𝑥 𝑦 = න 𝑑𝛼
𝜕𝑥 𝜕𝑥 −∞ 𝑓𝑌 𝑦
𝑓𝑋,𝑌 𝑥, 𝑦
→ 𝑓𝑋|𝑌 𝑥 𝑦 =
𝑓𝑌 𝑦
• Neprekidna verzija formule totalne verovatnoće:
∞ ∞
𝑓𝑋 𝑥 = න 𝑓𝑋,𝑌 𝑥, 𝑦 𝑑𝑦 = න 𝑓𝑋|𝑌 𝑥|𝑦 𝑓𝑌 𝑦 𝑑𝑦
−∞ −∞
• Neprekidna verzija Bajesove formule:
𝑓𝑌|𝑋 𝑦 𝑥 𝑓𝑋 𝑥
𝑓𝑋|𝑌 𝑥 𝑦 =
𝑓𝑌 𝑦
Uslovne raspodele
Primer: Bajesova formula koja povezuje kontinualnu (𝑌) i diskretnu (𝑋)
slučajnu promenljivu, 𝑌 = 𝑋 + 𝑊
Uslovne raspodele
• Uslovno matematičko očekivanje:

𝐸 𝑋|𝑌 = 𝑦 = න 𝑥𝑓𝑋|𝑌 𝑥 𝑦 𝑑𝑥
−∞
• Uslovna varijansa:
var 𝑋 𝑌 = 𝑦 = 𝐸 𝑋 − 𝐸 𝑋|𝑌 = 𝑦 2 |𝑌 = 𝑦
• Uslovna kovarijaciona matrica:
ഥ 𝑿−𝑿
𝑅𝑿|𝒀 = 𝐸 𝑿 − 𝑿 ഥ 𝑇 |𝒀
• Zakon iterativnih očekivanja:
𝐸 𝐸 𝑋|𝑌 =𝐸 𝑋
Dokaz:
Uslovne raspodele
Primer: Štap dužine 𝑙 se lomi 2 puta. Prvo se lomi na dužinu 𝑋~𝑈 0, 𝑙 , pa se
onda lomi na dužinu Y~𝑈 0, 𝑋 , 0 ≤ 𝑌 ≤ 𝑋 ≤ 𝑙. Odrediti 𝐸 𝑌 =?
Uslovne raspodele
• Osobine:
1) 𝐸 𝑔 𝑋 |𝑋 = 𝑥 = 𝑔 𝑋
2) 𝐸 𝑎𝑋|𝑌 = 𝑎𝐸 𝑋|𝑌
3) 𝐸 𝑋 + 𝑌|𝑍 = 𝐸 𝑋|𝑍 + 𝐸 𝑌|𝑍
Uslovne raspodele
Primer: Zajednička funkcija gustine verovatnoće slučajnih promenljivih 𝑋 i 𝑌 je
𝑐, 𝑥 ≤ 2, 0≤𝑦≤ 𝑥3
𝑓𝑋,𝑌 𝑥, 𝑦 = ቊ
0, inače
a) 𝑐 =? b) 𝑓𝑋 𝑥 , 𝑓𝑌 𝑦 =? c) 𝑃 𝑋 ≤ 0.5, 𝑌 ≤ 0.5 =?
13E053SSE – Stohastički sistemi i
estimacija
Funkcije slučajnih vektora
Funkcija slučajne promenljive 𝑌 = 𝑔 𝑋
1) Po definiciji:
𝐹𝑌 𝑦 = 𝑃 𝜔: 𝑌 𝜔 ≤ 𝑦 = 𝑃 𝜔: 𝑔 𝑋 𝜔 ≤𝑦
= 𝑃 𝜔: 𝑋 𝜔 ∈ 𝐼𝑌 = න 𝑓𝑋 𝑥 𝑑𝑥
𝐼𝑌
𝑑
𝑓𝑌 𝑦 = 𝐹 𝑦
𝑑𝑦 𝑌

2) Prema teoremi:
Rešiti jednačinu 𝑔 𝑥 = 𝑦. Ako su rešenja 𝑥1 , … , 𝑥𝑛 onda je
𝑓𝑋 𝑥1 𝑓𝑋 𝑥𝑛
𝑓𝑌 𝑦 = + ⋯+
𝑔ሶ 𝑥1 𝑔ሶ 𝑥𝑛
𝑦
𝐹𝑦 𝑦 = න 𝑓𝑌 𝛼 𝑑𝛼
−∞
Funkcija dve slučajne promenljive
𝑍 = 𝑔 𝑋, 𝑌
Iz definicije važi:
𝐹𝑍 𝑧 = 𝑃 𝜔: 𝑍 𝜔 ≤ 𝑧 = 𝑃 𝜔: 𝑔 𝑋 𝜔 , 𝑌 𝜔 ≤𝑧

Posmatra se skup tačaka u ravni:


𝐼𝑍 = 𝜔: 𝑔 𝑋 𝜔 , 𝑌 𝜔 ≤𝑧
𝐹𝑍 𝑧 = 𝑃 𝑋 𝜔 ,𝑌 𝜔 ∈ 𝐼𝑧

Pomoću združene funkcije gustine verovatnoće:


𝐹𝑧 𝑧 = ඵ 𝑓𝑋,𝑌 𝑥, 𝑦 𝑑𝑥𝑑𝑦
𝐼𝑧
Funkcija dve slučajne promenljive
𝑍 = 𝑔 𝑋, 𝑌
Primer: Odrediti funkciju gustine verovatnoće 𝑓𝑍 𝑧 slučajne promenljive 𝑍 =
𝑌
𝑔 𝑋, 𝑌 = ako je združena funkcija gustine verovatnoće:
𝑋
1, 0 ≤ 𝑥, 𝑦 ≤ 1
𝑓𝑋,𝑌 𝑥, 𝑦 = ቊ
0, inače
Funkcija dve slučajne promenljive
𝑍 = 𝑔 𝑋, 𝑌
Primer: Odrediti funkciju gustine verovatnoće 𝑓𝑍 𝑧 slučajne promenljive 𝑍 =
𝑔 𝑋, 𝑌 = 𝑋 + 𝑌
Funkcija dve slučajne promenljive
𝑍 = 𝑔 𝑋, 𝑌
Primer: Pretpostaviti da su 𝑋 i 𝑌 iz prethodnog primera nezavisne Gausovske
slučajne promenljive 𝑋~𝒩 𝑚𝑋 , 𝜎𝑋2 , 𝑌~𝒩 𝑚𝑌 , 𝜎𝑌2
Sistemi funkcija slučajnih promenljivih
• Odrediti 𝑓𝑍,𝑊 𝑧, 𝑤 ako je poznato 𝑓𝑋,𝑌 𝑥, 𝑦
𝑍 = 𝑔 𝑋, 𝑌
𝑊 = ℎ 𝑋, 𝑌
1) Po definiciji:
𝑃 𝑍 ≤ 𝑧, 𝑊 ≤ 𝑤 = 𝑃 𝑔 𝑋, 𝑌 ≤ 𝑧, ℎ 𝑋, 𝑌 ≤ 𝑤 = 𝑃 𝑋, 𝑌 ∈ 𝐼𝑍,𝑊 = ඵ 𝑓𝑋,𝑌 𝑥, 𝑦 𝑑𝑥𝑑𝑦
𝐼𝑍,𝑊
2) Prema teoremi:
Ako su rešenja sistema jednačina uređeni parovi 𝑥1 , 𝑦1 , … , 𝑥𝑛 , 𝑦𝑛 , onda je
𝑓𝑋,𝑌 𝑥1 , 𝑦1 𝑓𝑋,𝑌 𝑥𝑛 , 𝑦𝑛
𝑓𝑍,𝑊 𝑧, 𝑤 = + ⋯+
𝐽 𝑥1 , 𝑦1 𝐽 𝑥𝑛 , 𝑦𝑛
Jakobijan:
𝜕𝑔 𝑥, 𝑦 𝜕𝑔 𝑥, 𝑦
𝜕𝑥 𝜕𝑦
𝐽 𝑥𝑖 , 𝑦𝑖 =
𝜕ℎ 𝑥, 𝑦 𝜕ℎ 𝑥, 𝑦
𝜕𝑥 𝜕𝑦 𝑥=𝑥𝑖
𝑦=𝑦𝑖
Sistemi funkcija slučajnih promenljivih
Primer: 𝑍 = 𝑔 𝑋, 𝑌 = 𝑋 + 𝑌,
𝑊 = ℎ 𝑋, 𝑌 = 𝑋
Sistemi funkcija slučajnih promenljivih
Primer: Izvršiti transformaciju iz Dekartovih koordinata u polarne ako su 𝑋 i 𝑌
nezavisne Gausovski raspodeljene slučajne promenljive 𝑋, 𝑌~𝒩 0, 𝜎 2
13E053SSE – Stohastički sistemi i
estimacija
Slučajni procesi
Šta su to slučajni procesi?
• Prosečni godišnji broj sunčevih pega:

• Prosečna plata u Srbiji


Šta su to slučajni procesi?
• Slučajni proces se definiše kao funkcija 2 argumenta:
𝑋 𝑡, 𝜔 , 𝑡 ∈ 𝑇, 𝜔 ∈ Ω

• Svaka moguća sekvenca se naziva realizacija, ishod ili trajektorija slučajnog


procesa
• Skup svih realizacija naziva se ansambl realizacija
Šta su to slučajni procesi?
• Fiksiranjem slučajnog događaja, 𝜔 = 𝜔0 , dobijamo jednu realizaciju
slučajnog procesa, 𝑋 𝑡, 𝜔0

• Fiksiranjem vremena, 𝑡 = 𝑡0 , dobijamo jednu slučajnu promenljivu,


𝑋 𝑡0 , 𝜔
Šta su to slučajni procesi?
• Slučajni procesi mogu da budu:
Diskretni u vremenu i diskretni po amplitudi Dikretni u vremenu i kontinualni po
amplitudi

Kontinualni u vremenu i diskretni po amplitudi Kontinualni u vremenu i kontinualni po


amplitudi
Šta su to slučajni procesi?
• Generisanje slučajnog procesa:
– Konstruisanje svih mogućih trajektorija, pa slučajno biranje jedne od
njih
– U svakom trenutku se na slučajan način bira vrednost realizacije
slučajnog procesa
Matematički opis slučajnih procesa
• Funkcija raspodele reda 𝑛:
𝑃 𝑋 𝜔, 𝑡1 ≤ 𝑥1 , … , 𝑋 𝜔, 𝑡𝑛 ≤ 𝑥𝑛 = 𝐹𝑋 𝑥1 , … , 𝑥𝑛 ; 𝑡1 , … , 𝑡𝑛
= 𝐹𝑋 𝑥1 𝑡1 , … , 𝑥𝑛 𝑡𝑛
= 𝐹𝑋 𝑥𝑡1 , … , 𝑥𝑡𝑛
• Funkcija gustine verovatnoće:
𝜕 𝑛 𝐹𝑋 𝑥1 , … , 𝑥𝑛 ; 𝑡1 , … , 𝑡𝑛
𝑓𝑋 𝑥1 , … , 𝑥𝑛 ; 𝑡1 , … , 𝑡𝑛 =
𝜕𝑥1 ⋯ 𝜕𝑥𝑛

Proces je u potpnosti opisan funkcijom raspodele (funkcijom


gustine verovatnoće) ako za svako 𝑛 znamo 𝐹𝑋 (𝑓𝑋 ) u svim
trenucima 𝑡1 , … , 𝑡𝑛 i za svako 𝑥1 , … , 𝑥𝑛
Matematički opis slučajnih procesa
• Matematičko očekivanje:

𝑚𝑋 𝑡 = 𝑋ത 𝑡 = 𝐸 𝑋 𝜔, 𝑡 = න 𝑥𝑓𝑋 𝑥; 𝑡 𝑑𝑥
−∞

• Varijansa:

2
𝜎𝑋2 𝑡 =න 𝑥 − 𝑚𝑋 𝑡 𝑓𝑋 𝑥; 𝑡 𝑑𝑥
−∞
Različiti slučajni procesi
Primer: Bernulijev proces (sekvenca nezavisnih Bernulijevih
slučajnih promenljivih)
1 0
∀𝑛 ∈ 𝑁 𝑋 𝑛, 𝜔 ~
𝑝 1−𝑝
Različiti slučajni procesi
Primer: Slučajni hod (sekvenca slučajnih koraka)
Različiti slučajni procesi
Primer: Poasonov proces
Različiti slučajni procesi
Definicija: Slučajan proces 𝑋 𝑡, 𝜔 je Poasonov proces ako za 𝑡 ∈ 𝑇 = 0, ∞
važi
1) 𝑃 𝑋 0 = 0 = 1
2) Priraštaji 𝑋 𝑡2 − 𝑋 𝑡1 i 𝑋 𝑡4 − 𝑋 𝑡3 su nezavisni za svako 𝑡1 <
𝑡2 ≤ 𝑡3 < 𝑡4
3) Za svako 𝑡1 < 𝑡2 priraštaj 𝑋 𝑡2 − 𝑋 𝑡1 ima Poasonovu raspodelu sa
parametrom 𝜆 𝑡2 − 𝑡1 , 𝜆 > 0
−𝜆 𝑡2 −𝑡1
𝑘𝑒
𝑃 𝑋 𝑡2 − 𝑋 𝑡1 = 𝑘 = 𝜆 𝑡2 − 𝑡1 , 𝑘 ∈ 0,1, …
𝑘!

Da li smo na ovaj način u potpunosti matematički opisali slučajni proces?


Različiti slučajni procesi
Primer: Broj mušterija koji uđe u prodavnicu modeluje se Poasonovom
raspodelom sa 𝜆 = 10 mušterija na sat.
a) Naći verovatnoću da dođu 2 mušterije od 10:00h do 10:20h
b) Naći verovatnoću da dođu 2 mušterije od 10:00h do 10:20h i 7 mušterija
od 10:20h do 11:00h
Matematički opis slučajnih procesa
• Kovarijansa
𝑅𝑋 𝑡1 , 𝑡2 = cov 𝑋 𝑡1 , 𝜔 , 𝑋 𝑡2 , 𝜔
= 𝐸 𝑋 𝑡1 , 𝜔 − 𝑚𝑋 𝑡1 𝑋 𝑡2 , 𝜔 − 𝑚𝑋 𝑡2
∞ ∞
= ‫׬‬−∞ ‫׬‬−∞ 𝑥1 − 𝑚𝑋 𝑡1 𝑥2 − 𝑚𝑋 𝑡2 𝑓𝑋 𝑥1 , 𝑥2 ; 𝑡1 , 𝑡2 𝑑𝑥1 𝑑𝑥2

• Korelacija
Ψ𝑋 𝑡1 , 𝑡2 = 𝐸 𝑋 𝑡1 , 𝜔 𝑋 𝑡2 , 𝜔
∞ ∞
=න න 𝑥1 𝑥2 𝑓𝑋 𝑥1 , 𝑥2 ; 𝑡1 , 𝑡2 𝑑𝑥1 𝑑𝑥2
−∞ −∞

→ 𝑅𝑋 𝑡1 , 𝑡2 = Ψ𝑋 𝑡1 , 𝑡2 − 𝑚𝑋 𝑡1 𝑚𝑋 𝑡2
Matematički opis slučajnih procesa
• Osobine:
– Nekorelisanost važi ako je za ∀𝑡1 , 𝑡2 ∈ 𝑇, 𝑡1 ≠ 𝑡2 :
𝑅𝑋 𝑡1 , 𝑡2 = 0,

– Nezavisnost važi ako je za ∀𝑛 ∈ 𝑁 i ∀ 𝑡1 , … , 𝑡𝑛 ∈ 𝑇 𝑛 :


𝑛

𝐹𝑋 𝑥1 , … , 𝑥𝑛 ; 𝑡1 , … , 𝑡𝑛 = ෑ 𝐹𝑋 𝑥𝑖 ; 𝑡𝑖
𝑖=1
– Ortogonalnost važi ako je za ∀𝑡1 , 𝑡2 ∈ 𝑇, 𝑡1 ≠ 𝑡2 :
Ψ𝑋 𝑡1 , 𝑡2 = 0
Stacionarnost slučajnih procesa
• Stroga stacionarnost (stacionarnost u užem smislu)
Proces je strogo stacionaran ako za ∀𝑚, ∀𝜏 > 0, ∀𝑡1 , … , 𝑡𝑚 ∈ 𝑇, 𝑡1 < ⋯ < 𝑡𝑚
važi:
𝐹𝑋 𝑥1 𝑡1 , … , 𝑥𝑚 𝑡𝑚 = 𝐹𝑋 𝑥1 𝑡1 + 𝜏 , … , 𝑥𝑚 𝑡𝑚 + 𝜏

Nezavisni, identično raspodeljeni slučajni procesi su stacionarni:


Stacionarnost slučajnih procesa
• Stacionarnost reda M važi ako je ispunjena stroga
stacionarnost za svaku 𝑚-torku 𝑚 ≤ 𝑀
Stacionarnost slučajnih procesa
• Slaba stacionarnost (stacionarnost u širem smislu)
𝑚𝑋 𝑡 = 𝑐𝑜𝑛𝑠𝑡
𝑅𝑋 𝑡1 , 𝑡2 = 𝑅𝑋 𝑡2 − 𝑡1

• Osobine 𝑅𝑋 𝜏 slabo stacionarnih procesa


1) 𝑅𝑋 0 = 𝜎𝑋2
2) 𝑅𝑋 𝜏 = 𝑅𝑋 −𝜏 ; Ψ𝑋 𝜏 = Ψ𝑋 −𝜏
3) 𝑅𝑋 𝜏 ≤ 𝑅𝑋 0
4) lim 𝑅𝑋 𝜏 = 0
𝜏→∞
Ergodičnost
• Proces je ergodičan po nekoj funkciji 𝑔 𝑋 𝑡 ako je usrednjavanje po
ansamblu 𝐸 𝑔 𝑋 𝑡 jednako usrednjavanju po jednoj realizaciji 𝑋 𝑖 𝑡 :
1 𝑇/2
𝑔 𝑋 𝑡 = lim ‫׬‬−𝑇/2 𝑔 𝑋 𝑖 𝑡 𝑑𝑡
𝑇→∞𝑇
Ergodičnost
Primer: Slabo stacionaran proces 𝑋 𝑡 je ergodičan po srednjoj
vrednosti
Ergodičnost
Primer: Zaproces 𝑋 𝑡 = 𝐴 cos 𝑎𝑡 + 𝜃 , 𝜃~𝑈 0,2𝜋
a) Proveriti stacionarnost u širokom smislu
b) Proveriti ergodičnost po srednjoj vrednosti 𝑔 𝑋 𝑡 =𝑋 𝑡
c) Proveriti ergodičnost po kovarijansi 𝑔 𝑋 𝑡 = 𝑋 𝑡 − 𝑚𝑋 𝑡 ൫𝑋ሺ𝑡 +
𝜏ሻ − 𝑚𝑋 𝑡 + 𝜏 ൯
Gausovi procesi
• Proces je Gausov (normalan) ako ∀𝑛 ∈ 𝑁 i ∀ 𝑡1 , … , 𝑡𝑛 ∈ 𝑇 𝑛 važi:
1 1
𝑓𝑋 𝑥1 , … , 𝑥𝑛 = exp − 𝒙 − 𝒙 ഥ 𝑇 𝑅𝑋−1 𝒙 − 𝒙
ഥ ,
𝑛
2𝜋 det 𝑅𝑋 2
gde je 𝒙 = 𝑥1 ⋯ 𝑥𝑛 𝑇 i
var 𝑋1 cov 𝑋1 , 𝑋2 ⋯ cov 𝑋1 , 𝑋𝑛
ഥ 𝒙−𝒙
𝑅𝑋 = 𝐸 𝒙 − 𝒙 ഥ 𝑇 = ⋮ ⋱ ⋮
cov 𝑋𝑛 , 𝑋1 cov 𝑋𝑛 , 𝑋2 ⋯ var 𝑋𝑛
Markovljevi procesi
Definicija: Markovljev proces je je proces kod kojeg za ∀𝑚, ∀𝑡1 <
⋯ < 𝑡𝑚 < 𝑡 ∈ 𝑇 važi
𝑃 𝑋 𝑡 ≤ 𝑥|𝑋 𝑡1 = 𝑥1 , … , 𝑋 𝑡𝑚 = 𝑥𝑚
= 𝑃 𝑋 𝑡 ≤ 𝑥|𝑋 𝑡𝑚 = 𝑥𝑚

• Markovljev proces je u potpunosti određen početnom


raspodelom i raspodelama koje opisuju prelazak iz početnog u
naredno stanje:
Markovljevi procesi
Primer: Da li je Poasonov proces Markovljev?
Spektralna reprezentacija slučajnog
procesa
• Spektralna gustina srednje snage procesa:
𝑆 𝑗𝜔 = 𝐸 𝑋 𝑗𝜔 2
Wiener-Khinchin teorema
Teorema: Ako je 𝑋 𝑡, 𝜔 slabo stacionaran proces, spektralna
gustina snage i autokorelaciona funkcija predstavljaju Furijeov
transformacioni par

𝑆𝑋 𝑗𝜔 = න Ψ𝑋 𝜏 𝑒 −𝑗𝜔𝜏 𝑑𝜏
−∞

1
Ψ𝑋 𝜏 = න S𝑋 𝑗𝜔 𝑒 𝑗𝜔𝜏 𝑑𝜔
2𝜋 −∞
• Diskretni slučajni proces:

𝑆𝑋 𝜔 = 𝑍 Ψ𝑋 𝑛 ቚ = ෍ Ψ𝑋 𝑛 𝑧 −𝑛 ቚ
𝑧=𝑒 𝑗𝜔 𝑧=𝑒 𝑗𝜔
𝑛=−∞
Ψ𝑋 𝑛 = 𝑍 −1 𝑆𝑋 𝑧
Spektralna reprezentacija slučajnog
procesa
• Srednja snaga signala:

1
𝐸 𝑋 2 𝑡 = Ψ𝑋 0 = න 𝑆𝑋 𝑗𝜔 𝑑𝜔
2𝜋 −∞
• Prosečna snaga slučajnog procesa 𝑋 u delu spektra 𝜔 ∈
𝜔1 , 𝜔2
1 𝜔2
𝑆 𝜔1 ,𝜔2 = න 𝑆𝑋 𝑗𝜔 𝑑𝜔
2𝜋 𝜔1
Spektralna reprezentacija slučajnog
procesa
Primeri:
Spektralna faktorizacija
Nepomereni estimatori minimalne varijanse

8
Nepomerenost estimatora
I Razmatramo determinističke parametre.
I Nepomeren estimator θ̂ = g (x) u proseku daje tačno θ
Z
E θ̂ = g (x)p(x; θ) dx = θ, ∀θ

I Pomeraj estimatora ukazuje na sistematsku grešku


b(θ) = E θ̂ − θ
I Primer: konstanta A u šumu w [n]
I Aritmetička sredina je nepomeren estimator
I U proseku, sledeći estimator daje tačnu vrednost za A = 0
N−1
1 X A
Ǎ = x[n], E Ǎ = =A=0
2N n=0 2

ali nije nepomeren, jer nije E Ǎ = A za svako A:


A
b(A) = E Ǎ − A = −
2
9
10
Minimizacija srednje-kvadratne greške

I Koji estimator je poželjniji


I pomeren estimator sa malom varijansom
I nepomeren estimator sa velikom varijansom
I Kriterijum srednje-kvadratne greške (SKG)
 2
mse θ̂ = E θ̂ − θ
h   i2
= E θ̂ − E θ̂ + E θ̂ − θ
 2  2
= E θ̂ − E θ̂ + 2(E θ̂ − θ) E(θ̂ − E θ̂) + E E θ̂ − θ
= var θ̂ + b 2 (θ)

I U opštem slučaju, minimizacija SKG nije praktično izvodljiva.

11
I Konstanta A u belom šumu:
a
PN−1
I Usvajamo  = N n=0 x[n]

a2 σ 2
E  = aA, b(A) = (a − 1)A, var  =
N
I Biramo a tako da minimiziramo SKG

a2 σ 2 d mse  2aσ 2
mse  = + (a − 1)2 A2 , = + 2(a − 1)A2
N da N
A2
aopt = 2
A + σ 2 /N
I Optimalno a zavisi od A koje treba estimirati!
I Praktično izvodljiv pristup:
I razmatramo samo klasu nepomerenih estimatora
I izaberemo onaj sa minimalnom varijansom
I dobijamo nepomeren estimator minimalne varijanse (NEMV)

12
13
Postojanje NEMV
I Da li je uvek moguće odrediti NEMV? Ne :(
I Nekada nije moguće odrediti ni nepomeren estimator.
I Primer: x ∼ U[0, 1/θ], proceniti θ na osnovu 1 merenja
Z 1/θ Z 1/θ
E θ̂ = θ g (x) dx = θ ⇔ g (x) dx = 1
0 0

ali ovaj integral ne može biti 1 za svako θ.


I Primer kada postoje nepomereni, ali ne i uniformno najbolji ∀θ
(
N (θ, 1), θ ≥ 0
x[0] ∼ N (θ, 1), x[1] ∼
N (θ, 2), θ < 0
θ̂1 = 12 x[0] + 12 x[1], θ̂2 = 23 x[0] + 13 x[1]
θ≥0
var θ̂1 ≶ var θ̂2
θ<0

14
Pristupi nalaženju NEMV

1. Cramer-Rao-ova donja granica (CRDG)


I CRDG je min ostvariva var bilo kog nepomerenog estimatora
I ako neki estimator dostiže CRDG ∀θ, on mora biti NEMV
2. Rao-Blackwell-Lehmann-Scheffe teorema (RBLST)
I dovoljna statistika – f-ja merenja koja čuva svu informaciju o θ
I odrediti f-ju DS koja je nepomeren estimator za θ
3. Najbolji linearni nepomereni estimator (NLNE)
I razmatramo samo klasu linearnih estimatora
I dobijeni estimator je u opštem slučaju suboptimalan

15
Uvod u teoriju estimacije

1
Pojam i primene

I Procena vrednosti parametara iz zašumljenih merenja

θ̂ = g (x[0], . . . , x[N − 1])

I Matematički, θ̂ je slučajna promenljiva.


I Primene:
I radar
I sonar
I govor
I analiza slike
I biomedicina
I upravljanje
I mašinsko učenje

2
Matematička formulacija

I Primer: tačna pozicija θ, GPS merenje x, beo Gaussov šum w

1 (x−θ)2
x = θ + w, p(x; θ) = √ e − 2σ2
2πσ
I Primer: modelovanje cene akcije na berzi
 T
x[n] = A + Bn + w [n], θ= A B
N−1
!
1 1 X
p(x; θ) = exp (x[n] − A − Bn)2
(2πσ 2 )N/2 2σ 2
n=0

I Model (funkcija gustine verovatnoće, FGV) treba da


I konzistentan sa predznanjem o problemu,
I dovoljno jednostavan

3
Mera kvaliteta estimacije
I Primer: konstanta A u belom šumu w [n] varijanse σ 2

x[n] = A + w [n], n = 0, . . . , N − 1

I Dva validna estimatora:


N−1
1 X
Â1 = x[n], Â2 = x[0]
N
n=0

I Za neku konkretnu realizaciju možemo imati

|A − Â1 | > |A − Â2 |

I Poređenje moramo vršiti statistički:


I uzmemo više uzoraka od po N odbiraka
I za svaki uzorak sračunamo Â1 i Â2
I odredimo koji je bio bolji za većinu uzoraka

4
I Kakve su prosečne procene svakog estimatora?

N−1
1 X 1
E Â1 = E x[n] = NA = A
N N
i=0
E Â2 = E x[0] = A

Podjednako su dobre!
I Kolike su prosečne srednje-kvadratne greške?

N−1
!2
1 X σ2
var Â1 = E (x[n] − A) =
N N
i=0
var Â2 = E (x[0] − A)2 = σ 2

Â1 je u proseku mnogo bliži tačnoj vrednosti!

5
Bayesovska estimacija
I Nepoznate parametre θ možemo posmatrati kao
1. determinisane (fiksirane), ali nama nepoznate vrednosti, ili kao
2. realizacija slučajnog vektora
I Pristup 2 nazivamo Bayesovskim.
I Bayesovski pristup omogućava ugradnju predznanja.
I Primer: konstanta A u belom šumu w [n].
I Ako znamo da je A ∈ [0, 2], možemo usvojiti apriornu FGV

p(A) = 1/2, A ∈ [0, 2]


I Za konkretno A, uslovna FGV merenja je
N−1
!
1 1 X
p(x | A) = exp (x[n] − A)2
(2πσ 2 )N/2 2σ 2 n=0

I Uslovna FGV vrednosti parametra, za date opservacije


p(x | A)p(A)
p(A | x) = R
A
p(x | A)p(A) dA

6
7
Linearni gaussovski modeli

40
Definicija linearnog gaussovskog modela
I Linearni model sa poznatom opservacionom matricom H

x = Hθ + w (4.1)

I x = x[0] · · · x[N − 1] T je vektor opservacija


 

I θ = θ1 · · · θp T je vektor nepoznatih parametara


 

I w = w [0] · · · w [N − 1] T je Gaussov šum


 

I Pretpostavka: šum je beo Gaussov, w ∼ N (0, σ 2 I)


I Primer: modelovanje cene akcije na berzi

x[n] = θ0 + θ1 n + w [n], n = 0, . . . , N − 1
     
x[0] 1 0   w [0]
..   .. ..  θ0 +  ..
 = .
 
 . .  θ  . 
1
x[N − 1] 1 N − 1 |{z} w [N − 1]
| {z } | {z } θ | {z }
x H w

41
I Prema Cramer-Raoovoj teoremi, NEMV postoji ako je

∂ ln p(x; θ)
= I(θ) [g(x) − θ] (4.2)
∂θ
I Pravila diferenciranja (b je vektor, A simetrična matrica)

∂bT θ ∂θT Aθ
= b, = 2Aθ
∂θ ∂θ
I Za (4.1) sa BGŠ je x ∼ N (Hθ, σ 2 I)

N 1
ln p(x; θ) = − ln(2πσ 2 ) − 2 (x − Hθ)T (x − Hθ)
2 2σ
∂ ln p(x; θ) 1  
= 2 HT x − HT Hθ
∂θ σ

42
I Tipično je N > p (više opservacija nego nepoznatih)
I Za rang HT H ≡ rang H = p, postoji (HT H)−1 , pa je
 
∂ ln p(x; θ) 1
= 2 HT H (HT H)−1 HT x −θ
 
∂θ σ
| {z } | {z }
g(x)
I(θ)

I Poređenjem sa (4.2) dobijamo efikasni estimator


 −1
θ̂ = g(x) = HT H HT x
 −1
Cθ̂ = I−1 (θ) = σ 2 HT H

I θ̂ je nepomeren
 −1
E θ̂ = HT H HT |{z}
Ex = θ

43
I Primer: linearna regresija

x[n] = θ0 + n θ1 + w [n], n = 0, . . . , N − 1
rang H = 2, x̂[n] = θ̂0 + θ̂1 n
I Primer: polinomijalna regresija

x[n] = θ0 + θ1 n + · · · + θp np + w [n]
[H]n,: = 1 n · · · np , n = 0, . . . , N − 1
 

I Identifikacija impulsnog odziva LVI sistema


p−1
X
x[n] = θ[n] ∗ u[n] + w [n] = θ[k]u[n − k] + w [n]
k=0
 
u[0] 0 ··· 0
 u[1] u[0] ··· 0 
H= .. .. ..
 
.. 
 . . . . 
u[N − 1] u[N − 2] · · · u[N − p]

44
Uslov invertibilnosti

I HN×p tipično ima više vrsta nego kolona


I rang H = p znači da kolone treba da budu linearno nezavisne
I Primer kada ovaj uslov nije ispunjen
 
1 1
H =  ... ... 
 

1 1

I U ovom slučaju je

x[n] = θ1 + θ2 + w [n], ∀n

I Rešenje po θ nije jednoznačno, čak i bez šuma

45
Obojeni šum
I Obojeni šum: w ∼ N (0, C)
I Za C > 0 važi C−1 > 0, pa postoji invertibilno D tako da

C−1 = DT D

D možemo efikasno naći pomoću Cholesky dekompozicije, npr


I “Izbeljivanje” šuma: w0 = Dw
 
C0 = E (Dw)(Dw)T = DCDT = D(DT D)−1 DT = I

I Transformacijom x0 = Dx dobijamo signal u belom šumu

x0 = DHθ + w0 = H0 θ + w0
 −1  −1
θ̂ = HT DT DH HT DT x0 = HT C−1 H HT C−1 x
 −1  −1
T
Cθ̂ = H0 H0 = HT C−1 H

46
I Konstanta u nestacionarnom nekorelisnom Gaussovom šumu

x[n] = A + w [n], x = A1 + w
w [n] ∼ N (0, σn2 ), C = diag(σ02 , . . . , σN−1
2
)
 −1
 = 1T C−1 1 1T C−1 x
N−1
!−1 N−1
X X x[n]
−2
= σn
σn2
n=0 n=0

Merenje x[n] je otežinjeno inverzno proporcionalno varijansi σn2


I Signal sa poznatom komponentom s

x = Hθ + s + w
x0 = x − s
 −1  −1
θ̂ = HT H HT (x − s), Cθ̂ = σ 2 HT H

47
Rezime

I Linearan gaussovski model

x = Hθ + w, w ∼ N (0, I)

I Primena Cramer-Raoove teoreme

∇l(θ) = I(θ) [g(x) − θ]


 −1
θ̂ = g(x) = HT H HT x
 −1
Cθ̂ = I−1 (θ) = σ 2 HT H

I Postojanje pseudo-inverzije
I Obojeni šum: predizbeljivanje

48
Najbolji linearan nepomeren estimator
(Best Linear Unbiased Estimator, BLUE)

61
Motivacija
I Za nepoznato p(x; θ), ni CRT ni RBLST nisu primenljive
I I kada imamo p(x; θ), CRT i RBLST mogu biti neprimenjive
I Tada “pristajemo” na (potencijalno) suboptimalno rešenje
I Usvajamo da je θ̂ (inkrementalno) linearna f-ja od x

N−1
X
θ̂ = an x[n] = aT x
n=0

I Biramo an tako da je E θ̂ = θ a var θ̂ minimalno


I Rezultat je NLNE
I Za procenu E θ̂ i var θ̂ dovoljni su E x i cov x
I Bez p(x; θ) ne možemo znati koliko je var θ̂ blizu optimuma
I NLNE je nekada neadekvatan; npr E x[n] = 0, θ = var x[n]
PN−1
I svaki linearni estimator je pomeren E n=0 an x[n] = 0
I međutim, NLNE je smislen za y [n] = x 2 [n]

62
Uslov nepomerenosti
I Uslov nepomerenosti za θ̂ = aT x je

N−1
X
E θ̂ = an E x[n] = θ
n=0

I Generalno, ovo je moguće za E x[n] = θ s[n], uz poznato s[n].


I Kontra-primer:

N−1
?
X
E x[n] = cos θ, E θ̂ = cos θ an = θ
n=0

I Interpretacija: signal s[n] nepoznate amplitude θ u šumu

x[n] = E x[n] + x[n] − E x[n]


| {z } | {z }
θ s[n] “šum” w [n]

63
Nalaženje NLNE
I Varijansa linearnog nepomerenog estimatora (C , cov x)
h i
var θ̂ = var aT (x − E x) = aT C a (6.1)

I Za E x = θ s, uslov nepomerenosti je

E θ̂ = θ aT s = θ ⇔ aT s = 1 (6.2)
I Minimiziramo (6.1) pod uslovom (6.2)
 
L(a, λ) = aT C a + λ aT s − 1
λ
∇a L = 2 C a + λ s = 0 ⇒ a = − C−1 s
2
λ λ 1
1 = sT a = − sT C−1 s ⇒ − = T −1
2 2 s C s
C−1 s 1
aopt = , var θ̂ = aT
opt C aopt =
sT C−1 s sT C−1 s

64
Vektorski slučaj
I Estimator za θp×1 je linearna kombinacija opservacija x

N−1
X
θ̂ = A x ⇔ θ̂i = ain x[n], i = 1, . . . , p
n=0

I Uslov nepomerenosti je moguće ispuniti samo za E x = H θ

E θ̂ = A E x = A H θ, E θ̂ = θ ⇔ AH = I

I Neka su aT
i vrste od A, a hi kolone od H. Iz A H = I sledi

aT
i hj = δij , j = 1, . . . , p (6.3)

I Za C , cov x i ∀i, treba pod uslovom (6.3) minimizirati

var θ̂i = [A C AT ]ii = aT


i C ai (6.4)

65
I Za svako i imamo p ograničenja (6.3), pa je Lagranžijan
p  
(i)
X
Ji (ai ) = aT
i C ai + λj hT
j ai − δij
j=1

I Kao u skalarnom slučaju, za λ(i) , [λ(i) (i) T


1 · · · λp ] dobijamo

p
(i)
X
∇ai Ji (ai ) = 2 C ai + λj hj = 2 C ai + H λ(i) = 0,
j=1
1
ai = − C−1 H λ(i) (6.5)
2
I Za ort-vektor ei ([ei ]j = δij ), (6.3) je isto kao HT ai = ei .
I Iz (6.5) dobijamo Lagranžov multiplikator

1 1  −1
HT ai = − HT C−1 H λ(i) = ei , − λ(i) = HT C−1 H ei
2 2

66
I Zamenom u (6.5) dobijamo
 −1
aT T
i = ei HT C−1 H HT C−1
 −1
A = HT C−1 H HT C−1

I Konačna estimacija i njena varijansa (iz (6.4)) su


 −1
θ̂ = HT C−1 H HT C−1 x
 −1 (6.6)
Cθ̂ = HT C−1 H

I NEMV je upravo oblika (6.6) ako je model linearan Gaussov

x = H θ + w, w ∼ N (0, C)

Dakle, za ove modele NLNE je optimalan, tj. NLNE = NEMV

67
Rezime

I Motivacija: dovoljni E x i cov x


I Primenjivost: uslov nepomerenosti E x = θs
I Nalaženje: uslovna minimizacija varijanse
 
L(a, λ) = aT C a + λ aT s − 1

I NLNE = NEMV za linearne Gaussove modele

68
Bayesovska filozofija

78
Definicija i motivacija

I Klasičan pristup: θ je determinističan ali nepoznat


I Bayesovski pristup: θ tretiramo kao slučajnu promenljivu
I Monte Carlo simulacija u klasičnom slučaju
I izaberemo jedno fiksno θ
I svaka realizacija niza opservacija x koristi isto θ
I rezultati zavise od izabranog θ
I Monte Carlo simulacija u Bayesovskom slučaju
I za svaku realizaciju se iznova uzorkuje p(θ)
I rezultati su “uprosečeni” po mogućim vrednostima za θ
I Potencijalne prednosti Bayesovskog pristupa
I ugradnja dostupnog predznanja kroz p(θ)
I nalazi “prosečno” najbolji estimator kada ne postoji NEMV

79
Aposteriorna fgv

p(x | θ)p(θ)
p(θ | x) =
p(x)

Primer:

A ∼ N (0, 1), x | A ∼ N (A, 1)


(x−A)2 A2
p(A | x) ∝ e − e− 2
2
  
x 2
∝ exp − A −
2
 
x 1
A|x ∼ N ,
2 2

80
Bayesovska srednje-kvadratna greška (BSKG)

I Minimizacija klasične srednje-kvadratne greške (SKG)


Z h i2
2
mse θ̂ = E(θ̂ − θ) = θ̂(x) − θ p(x; θ) dx

nije praktično izvodljiva, jer mse generalno zavisi od θ


I Bayesovska SKG je “uprosečena” po θ
ZZ h i2
2
Bmse θ̂ = E(θ − θ̂) = θ − θ̂(x) p(x, θ) dx dθ

i ne zavisi od θ, pa njena minimizacija jeste praktično izvodljiva

81
Estimator minimalne srednje-kvadratne greške (EMSKG)
I Iz p(x, θ) = p(θ | x) p(x) sledi
Z Z h i2 
Bmse θ̂ = θ − θ̂ p(θ | x) dθ p(x) dx

I Iz p(x) ≥ 0 sledi da je dovoljno minimizirati izraz u zagradi ∀x


Z h i2
arg min Bmse θ̂ = arg min θ − θ̂ p(θ | x) dθ
θ̂ θ̂

I Izjednačavamo sa nulom izvod integrala sa desne strane


Z Z
θ̂ p(θ | x) dθ = θ̂ = θ p(θ | x) dθ

θ̂ = E (θ | x)

82
Primer: konstanta u belom Gaussovom šumu

I Pretpostavka: znamo samo da je A ∈ [−A0 , A0 ], pa usvajamo

p(A) ∼ U[−A0 , A0 ]

I Uvodimo oznaku φ(x; µ, Σ) za FGV od x ∼ N (µ, Σ)

p(x | A) = φ(x; A 1, σ 2 I)
(
1
φ A; x̄, σ 2 /N , |A| ≤ A0

p(x | A) p(A) c
p(A | x) = =
p(x) 0, |A| > A0
Z A0
c= φ(A; x̄, σ 2 /N) dA
−A0

I p(A | x) je “odsečena” normalna FGV, sa max u x̄

83
(
1
φ A; x̄, σ 2 /N , |A| ≤ A0

p(A | x) = c
0, |A| > A0

84
I Za konačno N, EMSKG je pomeren (0 < |Â| < |x̄|)
I apriorno znanje A ∼ U[−A0 , A0 ] “povlači” estimaciju ka nuli
I opservacije x “povlače” estimaciju ka x̄
I Za veliko N, var aposteriorne FGV σ 2 /N teži nuli
I p(A | x) je skoncentrisano u neposrednoj blizini x̄
I “odsecanje” na [−A0 , A0 ] nema efekta
I apriorno znanje gubi na značaju (podaci ga “zatrpavaju”)
I estimacija je asimptotski nepomerena

85
I Problem: integracija, pogotovu u vektorskom slučaju θp×1
I p-dim integracija da bismo dobili p(x)
Z
p(x) = p(x | θ) p(θ) dθ

I dodatna p-dim integracija da bismo dobili EMSKG

p(x | θ) p(θ)
Z
θ̂ = θ dθ
p(x)

86
Izbor apriorne FGV

I Za adekvatno p(θ), rešenje ima zatvorenu formu


I Primer: konstanta u šumu, x | A ∼ N (A 1, σ 2 I)

p(A) = φ(A; µA , σA2 ), µA = 0, σA = 3 A0

Posle “kraćeg” izvođenja se pokazuje da je


2
p(A | x) = φ(A; µA|x , σA|x )
 −1  
2 N 1 N µA 2
σA|x = + , µA|x = x̄ + 2 σA|x
σ 2 σA2 σ2 σA
σA2
 = µA|x = α x̄ + (1 − α) µA , α= σ2
σA2 + N

87
 −1  
2 N 1 N µA 2
σA|x = + , µA|x = x̄ + 2 σA|x
σ 2 σA2 σ2 σA

I za malo N je p(A | x) ≈ p(A)


I za veliko N, p(A | x) ≈ φ(A; x̄, σ 2 /N)
I bez apriornog znanja: σA2 → ∞, p(A | x) = φ(A; x̄, σ 2 /N), ∀N

88
I U opštem slučaju, Bayesovska SKG za EMSKG je

Bmse θ̂ = E [θ − E (θ | x)]2
Z Z 
= [θ − E (θ | x)]2 p(θ | x) dθ p(x) dx
Z
= var(θ | x) p(x) dx

2 ne zavisi od x, pa je
I Za prethodni primer, var(A | x) = σA|x
−1
σ2 σA2

2 N 1
Bmse  = σA|x = + 2 =
σ 2 σA N σA2 + σ2
N
σ2
Bmse Âemskg < mse Ânemv =
N

89
I EMSKG ima manju SKG od NEMV uprosečeno po A
I Za neko konkretno, fiksno A ovo ne mora biti slučaj

b(Âemskg ) = α A + (1 − α) µA − A,
σ2
var Âemskg = α2 var x̄ = α2 ,
N
mse Âemskg = var Âemskg + b 2 (Âemskg )
σ2
= α2 + (1 − α)2 (µA − A)2
N
Za veliko |µA − A|, možemo imati

σ2
mse Âemskg > mse Ânemv =
N

90
Osobine Gaussove FGV
I Za združeno normalne vektore x i θ sa
   
Ex Cx Cxθ
(x, θ) ∼ N ,
Eθ Cθx Cθ
aposteriorna raspodela θ | x je normalna, sa

µθ|x = E θ + Cθx C−1


x (x − E x)
Cθ|x = Cθ − Cθx C−1
x Cxθ

I U skalarnom slučaju, dobijamo


cov(x, θ)
µθ|x = E θ + (x − E x)
var x
cov2 (x, θ)
= 1 − ρ2 var θ

var(θ | x) = var θ −
var x

I EMSKG θ̂ = µθ|x je inkrementalno linearna f-ja od x


I var(θ | x) < var θ, a umanjenje raste sa ρ = √cov(x,θ)
var θ var x
91
Bayesovski linearan model
I Linearni gaussovsko-bayesovski model: nezavisni θ i w

x = H θ + w, θ ∼ N (µθ , Cθ ), w ∼ N (0, Cw )

I x i θ združeno normalni, jer je


    
Hθ + w H I θ
z, =
θ I 0 w

linearna kombinacija nezavisnih normalnih vektora θ i w


n o
Cx = E [H (θ − µθ ) + w] [H (θ − µθ ) + w]T
= H Cθ HT + Cw ,
n o
Cθx = E (θ − µθ ) [H (θ − µθ ) + w]T = Cθ HT

92
I p(θ | x) za bayesovski linearan model je normalna, sa
 −1
µθ|x = µθ + Cθ HT H Cθ HT + Cw (x − H µθ ) (8.1)
 −1
Cθ|x = Cθ − Cθ HT H Cθ HT + Cw H Cθ (8.2)

I Lema o inverziji matrica daje alternativnu formu za Cθ|x


−1
(A + U B V)−1 = A−1 − A−1 U V A−1 U + B−1 V A−1
A−1 = Cθ , V = UT = H, B−1 = Cw
C−1 −1 T −1
θ|x = Cθ + H Cw H (8.3)

93
I Uvodimo oznaku S , H Cθ HT + Cw
 
Cθ|x HT = Cθ − Cθ HT S−1 H Cθ HT (iz (8.2))
h i
= Cθ HT I − S−1 H Cθ HT
h i
= Cθ HT S−1 S − H Cθ HT (iz I = S−1 S)
= Cθ HT S−1 Cw

Odavde dobijamo alternativnu formu za µθ|x

µθ|x = µθ + Cθ HT S−1 (x − H µθ )
= µθ + Cθ|x HT C−1
w (x − H µθ )

94
Neželjeni parametri

I Recimo da FGV x zavisi od θ i α, a nas zanima samo θ


I α je “neželjeni” (ometajući) parametar
I Klasični estimatori moraju da procene i θ i α
I Bayesovski estimator može da “izintegrali” α
Z
p(x | θ) = p(x | θ, α) p(α | θ) dα

nakon čega EMSKG nalazimo na standardni način


I Ako su α i θ nezavisni
Z
p(x | θ) = p(x | θ, α) p(α) dα

95
Estimator maksimalne verodostojnosti
(Maximum Likelihood Estimator, MLE)

1
Definicija
I Motivacija: recimo da
I znamo p(x; θ)
I ne možemo faktorisati l 0 (θ) kao I(θ)(θ̂(x) − θ)
I Estimator maksimalne verodostojnosti (EMV)

θ̂ = arg max p(x; θ) = arg max L(θ) = arg max l(θ)


θ θ θ

traži θ tako da maksimizira verovatnoću dobijenih opservacija


I EMV koristimo ako NEMV ne možemo naći iz CRT ili RBLST
I EMV je nekada efikasan. Za konstantu u Gaussovom šumu
N−1
N 1 X
l(A) = − ln(2πσ) − 2 (x[n] − A)2
2 2σ
n=0
0
l (A) = 0 ⇒ Âemv = x̄ = Ânemv

I Generalno, nema garancije optimalnosti za konačno N


2
Primer:
N
X
x[n] ∼ Bernoulli(φ), N1 = x[n], N0 = N − N 1
i=1
L(φ) = φN1 (1 − φ)N0

3
Osobine EMV
I Ako su l 0 (θ) i l 00 (θ) definisani, I(θ) 6= 0 i E l 0 (θ) = 0, važi
a
θ̂emv ∼ N (θ, I −1 (θ)) za N → ∞
odnosno EMV je asimptotski normalan, nepomeren i efikasan
I Primer: konstanta A u Gaussovom šumu varijanse A
N−1
N 1 X
l(A) = − ln(2πA) − (x[n] − A)2
2 2A
n=0
N−1 N−1
N 1 X 1 X
l 0 (A) = − + (x[n] − A) + (x[n] − A)2
2A A 2A2
n=0 n=0
N−1
1 X
l 0 (Â) = 0 ⇒ Â2 + Â − x 2 [n] = 0
N
n=0
v
u N−1 !
1 u 1 X 2 1 a A2
 = − + t x [n] + ∼ N A,
2 N 4
n=0
N(A + 12 )

4
N−1
N 1 X
l(A) = − ln(2πA) − (x[n] − A)2
2 2A
n=0

5
v
u N−1 !
1 u 1 X 2 1 a A2
 = − + t x [n] + ∼ N A,
2 N
n=0
4 N(A + 21 )

6
Numerička maksimizacija verodostojnosti
I Za θ ∈ [a, b], max možemo naći računajući p(x; θ) za

a, a + ∆θ, a + 2∆θ, ..., b


I Inače koristimo, npr, Newton-Raphson ili metodu skorovanja
I Newton-Raphson u izvornom obliku traži nulu f-je
f (θk )
f (θk+1 ) ≈ f (θk ) + f 0 (θk )(θk+1 − θk ), θk+1 = θk −
f 0 (θk )
I Za max, iterativno tražimo nulu prvog izvoda
l 0 (θk )
θk+1 = θk −
l 00 (θk )
I Metoda skorovanja: manja zavisnost od konkretnog uzorka

l 00 (θ) → E l 00 (θ) = − I(θ), θk+1 = θk + I −1 (θ) l 0 (θ)

7
Linearna Bayesovska estimacija

108
Definicija

I Klasa inkrementalno linearnih estimatora


XN−1
θ̂ = an x[n] + aN = aT x + aN
n=0

I Linearni estimator minimalne SKG (LEMSKG)


 2
arg min E θ − aT x − aN
aN ,a

I LEMSKG je generalno suboptimalan, i nije uvek smislen

109
Optimalni koeficijenti LEMSKG

I aN = 0 ako je E θ = E x[n] = 0; u opštem slučaju,

∂ Bmse θ̂
=0 ⇒ aN = E θ − aT E x
∂aN

I Ostale koeficijente a = [a0 · · · an ]T nalazimo minimizacijom


h i2
E aT (x − E x) − (θ − E θ) = aT Cx a − 2 cθx a + var θ
(10.1)

I Izjednačavajući gradijent po a sa nulom:

2 Cx a − 2 cxθ = 0 ⇒ a = C−1
x cxθ

110
I Kombinujući izraze za aN i a dobijamo LEMSKG

θ̂ = E θ + cθx C−1
x (x − E x) (10.2)

I Smenjujući (10.2) u (10.1):

Bmse θ̂ = var θ − cθx C−1


x cxθ (10.3)

I Isto kao u Gauss-Bayesovom linearnom modelu!

111
Geometrijska interpretacija
I Pretpostavljamo E θ = E x[n] = 0; u protivnom centriramo
θ0 , θ − E θ, x0 , x − E x
I Slučajne promenljive nultog očekivanja čine vektorski prostor
I Skalarni proizvod dat je korelacijom (= kovarijansom)
hθ, xi , E(θ x), kθk2 = E θ2 = var θ

I Ortogonalnost (= nekorelisanost)

θ⊥x ⇔ hθ, xi = 0

I Optimalno θ̂ je projekcija θ na x

d hθ, xi
E (θ − a x)2 = 0 ⇒ a =
da hx, xi
 
x x
θ̂ = θ, , projx θ
kxk kxk
112
Princip ortogonalnosti
I E x[n] = 0 ⇒ aN = 0, pa je θ̂ = aT x; minimiziramo
2
Bmse θ̂ = θ − aT x = kk2

I Princip ortogonalnosti: dužina vektora greške kk je najmanja


N−1
kada je  ortogonalna na potprostor definisan sa {x[n]}n=0

 ⊥ x[0], . . . , x[N − 1] (10.4)

113
 ⊥ x[0], . . . , x[N − 1]
N−1
X
hx[m], θi = an hx[m], x[n]i, m = 0, . . . , N − 1
n=0
cxθ = Cx a ⇒ a = C−1
x cxθ , θ̂ = cθx C−1
x x
θ − θ̂ =  ⊥ x[n], ∀n ⇒ hθ − θ̂, θ̂i = 0
Bmse θ̂ = hθ − θ̂, θ − θ̂i = hθ − θ̂, θi = var θ − cθx C−1
x cxθ

114
θ̂ = projx[0] θ + projx[1] θ (x[0] ⊥ x[1])
E(θx[0]) E(θx[1])
= x[0] + x[1]
E x 2 [0] E x 2 [0]
−1 
 E x 2 [0]
 
 0 x[0]
= E(θx[0]) E(θx[1])
0 E x 2 [1] x[1]
= cθx C−1
x x

Isto kao (10.2) za E θ = 0, E x = 0


115
Vektorski LEMSKG
I Optimalni LEMSKG za θi , i = 1, . . . , p, je

θ̂i = E θi + cθi x C−1


x (x − E x)
Bmse θ̂i = var θi − cθi x C−1
x cxθi

I “Pakujući” optimalne estimacije u vektor, dobijamo

θ̂ = E θ + Cθx C−1
x (x − E x) (10.5)
Mθ̂ , Bmse θ̂ = Cθ − Cθx C−1
x Cxθ (10.6)

I Invarijantnost za linearne transformacije parametra

α = Aθ + b ⇒ α̂ = A θ̂ + b
I Za linearni, ne nužno Gaussovski model

x = Hθ + w
LEMSKG je dat sa (8.1) i (8.2) (bez obzira na oblik p(θ, x))
116
Sekvencijalni LEMSKG: motivacioni primer
Primer: korelisani x[0] i x[1]
I Estimacija samo na osnovu x[0]: θ̂[0] , projx[0] θ
I Kada bi bilo x[1] ⊥ x[0], na θ̂[0] bismo samo dodali projx[1] θ
I x[1] razlažemo na deo k x[0] i deo koji je ⊥ x[0]

E(x[1]x[0])
x̂[1|0] , projx[0] x[1] = x[0] (k x[0])
E x 2 [0]
x̃[1] , x[1] − x̂[1|0] (⊥ x[0])

I {x[0], x̃[1]} i {x[0], x[1]} definišu istu ravan, pa je

θ̂ = projx[0] θ + projx̃[1] θ (iz x[0] ⊥ x̃[1])


= θ̂[0] + projx̃[1] θ

I θ̂ ažuriramo sekvencijalno, ortogonalizacijom opservacija

117
Sekvencijalni LEMSKG: formalno izvođenje

I Pretpostavljamo linearni model sa belim šumom

x[n] = hT [n] θ + w [n], var w [n] = σn2

n−1
I Neka je θ̂[n − 1] LEMSKG na osnovu {x[k]}k=0
I Cilj: izraziti θ̂[n] preko θ̂[n − 1] (rekurzivna implementacija)
I Neka je x̂[n|n − 1] LEMSKG za x[n] na osnovu {x[k]}n−1 k=0
I Greška x̃[n] , x[n] − x̂[n|n − 1] se zove inovacija
I Iz principa ortogonalnosti (PO) sledi

x̃[n] ⊥ x[0], . . . , x[n − 1] ⇒ x̃[n] ⊥ θ̂i [n − 1], ∀i

jer je θ̂i [n − 1] linearna kombinacija od {x[k]}n−1


k=0

118
I θ̂i [n] je projekcija θi na lineal L(·) skupa X0:n , {x[k]}nk=0
I Kako je x̃[n] ⊥ L(X0:n−1 ), to je isto što i

hθi , x̃[n]i
θ̂i [n] = projL(X0:n−1 ) θi + projx̃[n] θi = θ̂i [n − 1] + x̃[n]
| {z } kx̃[n]k2
| {z }
θ̂i [n−1]
,ki [n]

I Iz w [n] ⊥ L(X0:n−1 ) i x̂[n|n − 1] = projL(X0:n−1 ) x[n] sledi


p
X
x̂[n|n − 1] = hi [n] projL(X0:n−1 ) θi + projL(X0:n−1 ) w [n]
i=1
T
= h [n] θ̂[n − 1],
 
x̃[n] = hT [n] θ − θ̂[n − 1] + w [n]

I Neka M[n − 1] označava kov mat od θ − θ̂[n − 1]

kx̃[n]k2 = hT [n] M[n − 1] h[n] + σn2 , (10.7)


119
I Ponovo koristimo θ̂i [n − 1] ⊥ {x̃[n], w [n]}, θi ⊥ w [n], ∀i

hθi , x̃[n]i = hθi − θ̂i [n − 1], x̃[n]i


= hθi − θ̂i [n − 1], (θ − θ̂[n − 1])T h[n] + w [n]i
D E
= θi − θ̂i [n − 1], (θ − θ̂[n − 1])T h[n],
  T 
hθ, x̃[n]i = E θ − θ̂[n − 1] θ − θ̂[n − 1] h[n]

= M[n − 1] h[n] (10.8)

I Konačno dobijamo izraz za ki [n], a odatle i za k[n]

hθi , x̃[n]i
ki [n] = ,
kx̃[n]k2
M[n − 1] h[n]
k[n] = T (10.9)
h [n] M[n − 1] h[n] + σn2

120
I Iz (10.9) i (10.7)

k[n] kx̃[n]k2 = M[n − 1] h[n],


I Iz θ̂i [n − 1] ⊥ x̃[n] i (10.8)

hθ − θ̂[n − 1], x̃[n]i = hθ, x̃[n]i = M[n − 1] h[n]


I Konačno dobijamo rekurzivnu relaciju za M[n]
 
M[n] = cov θ − θ̂[n]
 
= cov θ − θ̂[n − 1] − k[n] x̃[n]
h  i
= M[n − 1] − E θ − θ̂[n − 1] x̃[n] kT [n]
  T 
− k[n] E x̃[n] θ − θ̂[n − 1]

+ k[n] kx̃[n]k2 kT [n]


 
= I − k[n] hT [n] M[n − 1]

121
I Pre prve opservacije imamo samo apriornu fgv, pa je

θ̂[−1] = E θ, M[−1] = Cθ

I Konačni rekurzivni LEMSKG


 
θ̂[n] = θ̂[n − 1] + k[n] x[n] − hT [n] θ̂[n − 1] (10.10)
M[n − 1] h[n]
k[n] = (10.11)
σn2 + hT [n] M[n − 1] h[n]
 
M[n] = I − k[n] hT [n] M[n − 1] (10.12)

122
Šta ako nemamo nulte srednje vrednosti?
I θ̂bsv označava LEMSKG kada je E θ = 0, E x = 0
I θ̂ssv je LEMSKG kada je E θ 6= 0, E x 6= 0
I M[n] ne zavisi od srednje vrednosti, pa relacija ostaje ista
I M[n] zavisi od k[n], pa ni k[n] ne zavisi od srednjih vrednosti
I LEMSKG za θ + b je θ̂ + b (invarijantnost za linearne trans.)
I Izveli smo LEMSKG za θ̂bsv na osnovu x − E x
I LEMSKG za θssv = θbsv + E θ je θ̂ssv = θ̂bsv + E θ

θ̂ssv [n] − E θ = θ̂ssv [n − 1] − E θ


h  i
+ k[n] x[n] − E x[n] − hT [n] θ̂[n − 1] − E θ

I Iz E x[n] = hT [n] E θ dobijamo (10.10)


I Dakle, sve j-ne su potpuno iste i za E θ 6= 0, E x 6= 0

123
Wienerov filtar (WF)
I Wienerov filtar estimira s[n] iz zašumljenih merenja {x[k]}nk=0

x[k] = s[k] + w [k], E(s[i]w [j]) = 0

I Pretpostavka: x[n] i s[n] su slabo-stacionarni, sa

E x[n] = E s[n] = 0, [Cs ]i+k,i = rs [k]


[Cx ]i+k,i = rx [k] = rs [k] + rw [k], Cx = Cs + Cw

gde su rx [k] i rs [k] autokorelacione f-je


I Iz (10.2)–(10.3), za θ = s[n] i x = [x[0] · · · x[n]]T , sledi
  
T
cθx = E s[n]xT = rs [n] · · · rs [0] , rs0


T −1
ŝ[n] = cθx C−1 0
x x = rs (Cs + Cw ) x
| {z }
aT

124
I Interpretacija: ŝ[n] je odziv filtra sa impulsnim odzivom an−k
I Ali a se menja sa n, pa je filtar nestacionaran,
n
X n
X
ŝ[n] = aT x = ak x[k] = h(n) [n − k]x[k]
k=0 k=0

I h(n) [k]
je odziv na impuls od pre k perioda, u trenutku n
I Iz simetričnosti Cx i a = C−1 0
x rs dobijamo
   
a[n] rs [0]
Cx a = rs0 ⇒ Cx  ...  =  ... 
   

a[0] rs [n]
| {z } | {z }
,a0 ,rs

I Iz h(n) , [h(n) [0] · · · h(n) [n]]T = a0 slede Wiener-Hopfove j-ne


n
X
(n)
Cx h = rs ⇔ h(n) [k]rx [l − k] = rs [l], 0≤l ≤n
k=0

125
WF sa konačnim impulsnim odzivom
I Pretpostavka: vremenski-udaljeni odbirci su nekorelisani

rx [k] ≈ 0, rs [k] ≈ 0, |k| > N

I Dakle, x[n − k] ⊥ s[n] za |k| > N, pa je

h(n) [k] = projx[n−k] s[n] = 0, k >N

I Za dovoljno veliko n, Wiener-Hopfove j-ne se svode na


   (n)   
rx [0] ··· rx [N] h [0] rs [0]
 .. .. ..   ..  =  .. 
 . . .  .   .  (10.13)
rx [N] · · · rx [0] h(n) [N] rs [N]

I Rešenje po h(n) ne zavisi od n, pa (10.13) definiše stacionaran


filtar reda N sa konačnim impulsnim odzivom (FIR)
126
WF sa beskonačnim impulsnim odzivom
I Pretpostavka: raspoložive su opservacije {x[n − k]}∞
k=0
I LEMSKG ima oblik
X∞
ŝ[n] = h(n) [k]x[n − k]
k=0

I h(n) [·] biramo tako da bude s[n] − ŝ[n] ⊥ x[n − l], l ≥ 0 (PO)
h X∞  i
E s[n] − h(n) [k]x[n − k] x[n − l] = 0, l ≥ 0
k=0

I Iz w [n − l] ⊥ s[n] sledi E(s[n]x[n − l]) = rs [l], pa dobijamo


X
h[k]rx [l − k] = rs [l], l ≥0 (10.14)
k=0

I Filtar je stacionaran (h(n) [k] = h[k]) jer u (10.14) ne figuriše n


I Ovo je i očekivano, s obzirom na slabu stacionarnost s[n] i x[n]
127
I (10.14) važi samo za l ≥ 0, pa ne možemo primeniti Z-trans
I Za nekorelisane opservacije jedinične varijanse, imali bismo

rx [l − k] = δ[l − k], h[l] = rs [l]

I Ali x[n] nije bela sekvenca, pa moramo primeniti izbeljivanje


I Beo proces v [n] je izlaz izbeljivača Q(z) pobuđenog sa x[n]

X
Sx (z) , rx [k]z −k , 1 = Sv (z) = Q(z)Q(1/z)Sx (z)
k=−∞

I Sx (z) razložimo na proizvod kauzalnog i anti-kauzalnog dela

Sx (z) = Sx+ (z)Sx− (z)

gde su sve nule i polovi od Sx+ (z) unutar jediničnog kruga


I Zbog osobina autokorelacione f-je, uvek je Sx+ (z) = Sx− (1/z)

128
I Izbeljivač mora biti stabilan, pa je Q(z) = 1/Sx+ (z)
I ŝ[n] sada dobijamo iz v [n], primenom PO
h X∞  i
E s[n] − g [k]v [n − k] v [n − l] = 0, l ≥ 0
| k=0 {z }
ŝ[n]
P∞
Iz v [n] = m=0 q[m](s[n − m] + w [n − m]) i s[n] ⊥ w [n] sledi

X
rsv [l] = E (s[n]v [n − l]) = q[m]rs [l + m]
m=0

v [n] je beo, sa E(v [n − k]v [n − l]) = δ[l − k], što daje



X
g [l] = rsv [l] = q[m]rs [l + m], l ≥0 (10.15)
m=0
I Dvostrana Z-trans poslednjeg izraza sa desne strane je
∞ X
X ∞
Ssv (z) = q[m]z m rs [l + m]z −l−m = Q(1/z) Ss (z)
| {z }
l=−∞ m=0
=1/Sx− (z)

129
I Razlažemo Ssv (z) na sumu kauzalnog i antikauzalnog dela
X−1 X∞
Ssv (z) = rsv [l]z −k + rsv [l]z −k
l=−∞ l=0
| {z } | {z }
,[Ssv (z)]− ,[Ssv (z)]+

I Iz (10.15) je g [l] = Z −1 {Ssv (z)} za l ≥ 0, pa je


X∞
G (z) = g [l]z −k = [Ssv (z)]+
l=0

I WF sa beskonačnim impulsnim odzivom (IIR) H(z) je kaskada


1. izbeljivača V (z)/X (z) = Q(z) = Sx+ (z)
2. filtra G (z) = [Ssv (z)]+ za estimaciju s[n] iz izlaza izbeljivača

Sx (z) = Ss (z) + Sw (z) = Sx+ (z)Sx− (z)


 −  +
Ss (z) Ss (z) Ss (z)
Ssv (z) = − = +
Sx (z) Sx− (z) Sx− (z)
 +
1 Ss (z)
H(z) = Q(z)G (z) = +
Sx (z) Sx− (z)

130
Rezime
I Klasa linearnih estimatora + minimizacija Bmse

θ̂ = aT x + aN
 2
(a∗ , aN

) = arg min E θ − θ̂
a,aN

I LEMSKG (= EMSKG za Gauss-Bayesov linearni model)

θ̂ = E θ + cθx C−1
x (x − E x)
Bmse θ̂ = var θ − cθx C−1
x cxθ

I Geometrijska interpretacija
I Princip ortogonalnosti

θ − θ̂ ⊥ x[0], . . . , x[N − 1]

I Vektorski slučaj
131
Opšta Bayesovska estimacija

96
Cena i rizik

I Greška estimacije

 = θ − θ̂

za dato x i θ
I Cena C(·) težini greške
I kvadratna C() = 2
I apsolutna C() = ||
I “0/1” cena
(
0, || ≤ δ
C() =
1, || > δ

97
I Rizik je očekivana cena
Z Z 
R = E C() = C(θ − θ̂) p(θ | x) dθ p(x) dx

I Optimalni estimator minimizira rizik


Z
θ̂∗ = arg min C(θ − θ̂) p(θ | x) dθ (9.1)
θ̂

I Za kvadratnu cenu, optimalan je EMSKG


Z
θ̂emskg = arg min (θ − θ̂)2 p(θ | x) dθ
θ̂

98
I Za apsolutnu cenu, integral iz (9.1) postaje
Z θ̂ Z ∞
(θ − θ̂) p(θ | x) dθ + (θ̂ − θ) p(θ | x) dθ
−∞ θ̂

I Izvod po θ̂ određujemo iz Leibnitzovog pravila


Z b(u) Z b(u)
∂ ∂h(u, v )
h(u, v ) dv = dv
∂u a(u) a(u) ∂u
+ b (u) h(u, b(u)) − a0 (u) h(u, a(u))
0

I Izjednačavanje izvoda sa nulom daje


Z θ̂ Z ∞
p(θ | x) dθ = p(θ | x) dθ
−∞ θ̂

I Optimalni estimator je medijana aposteriorne raspodele

99
I Za 0/1 cenu treba minimizirati
Z θ̂−δ Z ∞ Z θ̂+δ
p(θ | x) dθ + p(θ | x) dθ = 1 − p(θ | x) dθ
−∞ θ̂+δ θ̂−δ

I Za malo δ optimalni estimator je moda

θ̂∗ = arg max p(θ | x) = arg max p(x | θ) p(θ)


θ θ

I Ovo je “maximum a posteriori” (MAP) estimator


100
mode

50% 50%

median

mean

[wikipedia.org]
101
Osobine EMSKG

I Invarijantnost pri linearnim transformacijama parametra

α = A θ + b, θ̂ = E(θ | x), α̂ = E(α | x) = A θ̂ + b

I Aditivnost za nezavisne x1 i x2 u gaussovskom modelu


     
x1 E x1 Cx1 0
x= ∼N ,
x2 E x2 0 Cx2
 −1 
  −1 Cx1 0
Cθx = Cθx1 Cθx2 , Cx = ,
0 C−1
x2
θ̂ = E θ + Cθx C−1
x (x − E x)
2
X (9.2)
= Eθ + Cθxi C−1
xi (xi − E xi )
i=1

102
I EMSKG za θi je i-ta komponenta vektora θ̂

θ̂i = E(θi | x) = [E(θ | x)]i


h i
Bmse θ̂i = var(θi | x) = Bmse θ̂
ii

I EMSKG θ̂ = Eθ|x (θ) je nepomeren, tj. srednja greška je 0


 
E  = E(θ − Eθ|x (θ)) = Ex Eθ|x θ − Eθ|x (θ) = 0

I Varijansa greške je Bmse θ̂


 2  2
var θ̂ = E θ̂ − E θ̂ = E θ̂ − θ = Bmse θ̂

103
I Mθ̂ , cov  = E( T ) u vektorskom slučaju je
h i
Mθ̂ = Ex Eθ|x (θ − E(θ | x)) (θ − E(θ | x))T = Ex Cθ|x

I Za združeno normalne x i θ, i  je normalno

 = θ − µθ − Cθx C−1
x (x − E x) ∼ N (0, Mθ̂ )
Mθ̂ = Cθ − Cθx C−1
x Cxθ , Bmse θ̂i = var θ̂i = [Mθ̂ ]ii

104
Osobine MAPE
I MAPE ne zahteva integraciju, samo maksimizaciju
I Primer: konstanta A ∼ U[−A0 , A0 ] u belom Gaussovom šumu
(
1
φ A; x̄, σ 2 /N , |A| ≤ A0

p(A | x) = c
0, |A| > A0
(
sign(x̄) A0 , |x̄| > A0
Âmap =
x̄, |x̄| ≤ A0

105
U opštem slučaju, θ̂i 6= [θ̂]i . Kontra-primer

1
 6 , θ1 ∈ {[0, 2] ∪ [3, 5]}, θ2 ∈ [1, 2]

p(θ1 , θ2 | x) = 31 , θ1 ∈ [2, 3], θ2 ∈ [0, 1]

0, inače

1 2
p(θ2 | x) = [u(θ2 ) − u(θ2 − 1)] + [u(θ2 − 1) − u(θ2 − 2)]
3 3
θ̂2 ∈ [1, 2], [θ̂]2 ∈ [0, 1]

106
I MAPE nije invarijantan na transformaciju parametara. Primer:

p(x[n] | θ) = θ e −θ x[n] u(x[n]), p(θ) = λ e −λ θ u(θ)


λ −1
 
d
[ln p(x | θ) + ln p(θ)] = 0 ⇒ θ̂ = x̄ +
dθ N
I Recimo da nas zanima procena za α = θ−1
1 − x[n]
p(x[n] | α) = e α u(x[n])
α
pθ (θ(α)) λ λ
pα (α) = 0 = 2 e − α u(α)
|α (θ(α))| α
N x̄ + λ 1
α̂ = arg max p(x | α) pα (α) = 6=
α N +2 θ̂
I Izuzetak su linearne f-je α = a θ + b
   
1 α−b α−b
α̂ = arg max pθ p x = a θ̂ + b
α |a| a a

107
Kalmanov filter

132
Problem estimacije promenljivog signala
I Cilj: proceniti s[n] iz zašumljenih merenja x[n] = s[n] + w [n]

I Isti broj opservacija x[n] i nepoznatih s[n]!


133
Gauss-Markovljev model 1. reda

s[n] = a s[n − 1] + u[n], n≥0


s[−1] ∼ N (µs , σs2 )
u[n] ∼ N (0, σu2 )
cov(u[n], u[m]) = σu2 δnm
cov(s[−1], u[n]) = 0

I Snažno-korelisane procese modelujemo sa |a| ≈ 1 (ali |a| < 1)


I Slabo-korelisane procese modelujemo sa |a|  1
134
I Strogo govoreći, s[n] nije stacionaran
n
X
s[n] = an+1 s[−1] + ak u[n − k]
k=0
E s[n] = an+1 µs ,
cs [m, n] , cov(s[m], s[n])
(
am+n+2 σs2 + σu2 am−n nk=0 a2k , m ≥ n
P
=
cs [n, m], m<n

I Međutim, za |a| < 1, s[n] je asimptotski slabo-stacionaran

σu2
n→∞: E s[n] → 0, cs [m, n] → a|m−n| (11.1)
1 − a2
σu2
rss [k] , cs [n + k, n] = a|k| (11.2)
1 − a2

135
I Rekurzivna forma očekivanja i varijanse

E s[n] = E (a s[n − 1] + u[n]) = a E s[n − 1]


var s[n] = a2 var s[n − 1] + σu2
(s[n − 1] zavisi od s[−1], u[0 : n − 1], koji su nezavisni od u[n])
I Stacionarne (asimptotske) vrednosti (11.1) dobijamo stavljajući

E s[n] = E s[n − 1], var s[n] = var s[n − 1]

136
I Vektroski GMM (A, B i Q mogu zavisiti od n)
s[n] = A s[n − 1] + B u[n], n ≥ 0
 
E u[n] = 0, E u[m] uT [n] = Q δmn
 
s[−1] ∼ N (µs , Cs ), E s[−1] uT [n] = 0

I Očekivanje E s[n] i kovarijaciona matrica C[n] su


n
X
s[n] = An+1 s[−1] + Ak B u[n − k]
k=0
E s[n] = An+1 µs (11.3)
n
T X T
C[n] = An+1 Cs An+1 + Ak B Q BT Ak (11.4)
k=0

U rekurzivnoj formi
E s[n] = An+1 µs , C[n] = A C[n − 1] AT + B Q BT (11.5)

137
I U stacionarnom stanju, C je dato j-nom Ljapunova
C = A CAT + B Q BT
I Kada su sopstvene vrednosti od A unutar jediničnog kruga:

X T
C = lim C[n] = Ak B Q BT Ak (iz (11.4))
n→∞
k=0
I Vektorski model pokriva i skalarne GM procese p-tog reda
p
X
s[n] = a[k] s[n − k] + u[n]
k=1
 T
s[n] , s[n − p + 1] · · · s[n]
   
0 1 ··· 0 0
 0 0 ··· 0 
0
 
 .. . . .

s[n] =  . .. .. ..  s[n − 1] +  .. 
 
 u[n]
 .   
 0 0 ··· 1  0
a[p] a[p − 1] · · · a[1] 1
138
Skalarni Kalmanov filter (KF)
I GMM sa BGŠ merenja w [n], nezavisnim od s[−1] i u[n]
s[n] = a s[n − 1] + u[n]
x[n] = s[n] + w [n]
I Usvajamo s[−1] ∼ N (0, σs2 ), odakle sledi E s[n] = 0, n ≥ 0
I Notacija:
 T
x0:n , x[0] · · · x[n] (vektor)
X0:n , {x[0], . . . , x[n]} (skup)
ŝ[n|n] , E (s[n] | x0:n ) (izlaz KF-a)
ŝ[n|n − 1] , E (s[n] | x0:n−1 ) (predikcija stanja)
x̂[n|n − 1] , E (x[n] | x0:n−1 ) (predikcija opservacije)
x̃[n] , x[n] − x̂[n|n − 1] (inovacija)
M[n|n − 1] , E (s[n] − ŝ[n|n − 1])2 (s.k.g.p.)

139
I KF = sekvencijalni EMSKG za s[n] iz {x[k]}nk=0
I Sve združene raspodele su normalne: EMSKG = LEMGKS

𝑠[1]

𝑥[1|0] 𝑥[0]

𝑠[1|0]

𝑠[1|1]
𝑥[1]

𝑥[1]

140
I U izvođenju koristimo sledeće osobine EMSKG
1. aditivnost nezavisnih opservacija x1 i x2 za gaussovski model

θ̂ = E (θ | x1 , x2 ) = E(θ | x1 ) + E(θ | x2 ) (11.6)

(sledi direktno iz (9.2) za E θ = 0)


2. aditivnost (u opštem slučaju) za θ = θ1 + θ2

E(θ | x) = E(θ1 | x) + E(θ2 | x) (11.7)

I Princip ortogonalnosti (PO): x̃[n] ⊥ X0:n−1


I Skupovi X0:n i {X0:n−1 , x̃[n]} sadrže istu informaciju o s[n]
I x̂[n|n − 1] je linearna f-ja od X0:n−1
I x[n] = x̃[n] + x̂[n|n − 1] je linearna f-ja od {X0:n−1 , x̃[n]}
I ŝ[n|n] je linearna f-ja od X0:n = {X0:n−1 , x[n]}
I dakle, ŝ[n|n] mora biti linearna f-ja od {X0:n−1 , x̃[n]}

141
I Iz svega navedenog i osobine 1 EMSKG sledi

ŝ[n|n] = E (s[n] | x0:n−1 , x̃[n])


= E (s[n] | x0:n−1 ) + E (s[n] | x̃[n])
= ŝ[n|n − 1] + E (s[n] | x̃[n])

I Iz u[n] ⊥ X0:n−1 sledi E(u[n] | x0:n−1 ) = E u[n] = 0, pa je

ŝ[n|n − 1] = E (a s[n − 1] + u[n] | x0:n−1 )


= a ŝ[n − 1|n − 1]

I E(s[n] | x̃[n]) je projekcija s[n] na x̃[n]

hs[n], x̃[n]i
E (s[n] | x̃[n]) = x̃[n] = K [n] x̃[n]
kx̃[n]k2
E(s[n] x̃[n])
K [n] , (Kalmanovo pojačanje)
E x̃ 2 [n]

142
I Iz w [n] ⊥ X0:n−1 i E w [n] = 0 sledi

x̂[n|n − 1] = E (s[n] + w [n] | x0:n−1 ) = ŝ[n|n − 1]


x̃[n] = x[n] − ŝ[n|n − 1]

I ŝ[n|n − 1] zavisi od x0:n−1 , pa iz x̃[n] ⊥ x0:n−1 sledi

E (s[n] x̃[n]) = E [(s[n] − ŝ[n|n − 1]) (x[n] − ŝ[n|n − 1])]

I Slično, pošto je w [n] nezavisno od s[n] i ŝ[n|n − 1], imamo

E (w [n] (s[n] − ŝ[n|n − 1])) = 0

I Iz prethodne tri relacije i x[n] = s[n] + w [n] sledi

E (s[n] x̃[n]) = E (s[n] − ŝ[n|n − 1])2 , (11.8)


2 2
E x̃ [n] = E (x[n] − ŝ[n|n − 1])
= σw2 + E (s[n] − ŝ[n|n − 1])2 (11.9)

143
I Konačno dobijamo Kalmanovo pojačanje

M[n|n − 1]
K [n] = (11.10)
σw2 + M[n|n − 1]
I u[n] je nezavisno od s[n − 1] i ŝ[n − 1|n − 1], pa je

M[n|n − 1] = E (a s[n − 1] + u[n] − a ŝ[n − 1|n − 1])2


= a2 E (s[n − 1] − ŝ[n − 1|n − 1])2 +σu2
| {z }
M[n−1|n−1]

I Treba nam još rekurzivni izraz za M[n|n]

M[n|n] = E (s[n] − ŝ[n|n])2


= E (s[n] − ŝ[n|n − 1] − K [n] x̃[n])2
= M[n|n − 1] − 2 K [n] E [(s[n] − ŝ[n|n − 1]) x̃[n]]
+ K 2 [n] E x̃ 2 [n]

144
I Iz x̃[n] ⊥ ŝ[n|n − 1] sledi

E [(s[n] − ŝ[n|n − 1]) x̃[n]] = E (s[n] x̃[n])


(iz (11.8))
= M[n|n − 1]
E x̃ 2 [n] = σw2 + M[n|n − 1] (iz (11.9))
I Zamenom u dobijeni izraz za M[n|n] i koristeći (11.10)

M[n|n] = (1 − K [n]) M[n|n − 1]


I Jedna iteracija skalarnog KF-a

ŝ[n|n − 1] = a ŝ[n − 1|n − 1] (11.11)


2
M[n|n − 1] = a M[n − 1|n − 1] + σu2 (11.12)
M[n|n − 1]
K [n] = 2 (11.13)
σw + M[n|n − 1]
ŝ[n|n] = ŝ[n|n − 1] + K [n] (x[n] − ŝ[n|n − 1]) (11.14)
M[n|n] = (1 − K [n]) M[n|n − 1] (11.15)

145
I J-ne važe u istom obliku i za E s[−1] = µs 6= 0. Inicijalizacija:

ŝ[−1| − 1] = µs , M[−1| − 1] = σs2

I Korekciju K [n] x̃[n] možemo tumačiti kao û[n]:

s[n] = a s[n − 1] + u[n]


ŝ[n|n] = a ŝ[n − 1|n − 1] + K [n] x̃[n]

146
Osobine skalarnog KF

I KF se svodi na sekvencijalni LEMSKG za konstantno s[n] = θ

σu2 = 0, s[n] = s[−1] = θ


ŝ[n|n − 1] = ŝ[n − 1|n − 1] , ŝ[n − 1]
M[n|n − 1] = M[n − 1|n − 1] , M[n − 1]

I Za razliku od LEMSKG θ̂ = cθx C−1


x x, KF ne zahteva inverziju
matrice koja vremenom raste (dim Cx = (n + 1) × (n + 1))
I KF se može tumačiti kao vremenski-promenljiv linearan filtar

ŝ[n|n] = a (1 − K [n]) ŝ[n − 1|n − 1] + K [n] x[n]

I M[n|n] opisuje kvalitet estimacije; može se odrediti unapred ∀n

147
I Predikcija (11.11) povećava, a korekcija (11.14) smanjuje var

n→∞: M[n|n] = M[n − 1|n − 1],


M[n + 1|n] = M[n|n − 1]
M[n|n − 1]
0 < K [n] = 2 <1
σw + M[n|n − 1]
M[n|n] = (1 − K [n]) M[n|n − 1] < M[n|n − 1]

I Inovacije x̃[n] čine nekorelisanu sekvencu


I x̃[n] je nekorelisano sa X0:n−1
I ŝ[n − k|n − k − 1] je linearna f-ja od X0:n−k−1 , 1 ≤ k ≤ n
I x̃[n − k] je linearna f-ja od {X0:n−k−1 , x[n − k]} = X0:n−k
I dakle, x̃[n] je nekorelisano sa x̃[n − k], 1 ≤ k ≤ n
I KF je EMSKG za gaussovski model; u protivnom je LEMSKG

148
Izvođenje preko osobina Gaussove FGV
I Združena raspodela za x[n] i s[n] je normalna, jer
1. je model linearan, i
2. s[−1], u[n] i w [n] imaju normalnu raspodelu
I Iz x[0] = s[0] + w [0] i s[0] ⊥ w [0] dobijamo

cov(x[0], s[0]) = var s[0], var x[0] = var s[0] + σw2

I Koristimo već uvedene oznake M[−1| − 1] = σs2 i

M[0| − 1] = a2 M[−1| − 1] + σu2 = var s[0]

I Iz osobina Gaussove FGV dobijamo (11.15)

cov2 (x[0], s[0])


var(s[0] | x[0]) = var s[0] −
var x[0]
M 2 [0| − 1]
= M[0| − 1] −
M[0| − 1] + σw2

149
I Već smo pokalazali da je ŝ[0|0] = E(s[0] | x[0]), pa imamo

s[0] | x[0] ∼ N (ŝ[0|0], M[0|0])

I Pretpostavimo da je

s[n − 1] | X0:n−1 ∼ N (ŝ[n − 1|n − 1], M[n − 1|n − 1])

I Pokazaćemo da (11.11)–(11.15) daju s[n] | X0:n


I Iz GMM i s[n − 1] ⊥ u[n], s[n] ⊥ w [n]:

var (s[n] | X0:n−1 ) = a2 M[n − 1|n − 1] + σu2 = M[n|n − 1]


cov (s[n], x[n] | X0:n−1 ) = var (s[n] | X0:n−1 )
var (x[n] | X0:n−1 ) = var (s[n] | X0:n−1 ) + σw2

150
I Iz osobina Gaussove FGV

var (s[n] | x[n], X0:n−1 ) = var (s[n] | X0:n−1 )


cov2 (s[n], x[n] | X0:n−1 )

var (x[n] | X0:n−1 )
= (1 − K [n]) M[n|n − 1]

I Dokazali smo da je ŝ[n|n] = E (s[n] | X0:n ), pa je konačno

s[n] | X0:n ∼ N (ŝ[n|n], M[n|n])


s[n] | X0:n−1 ∼ N (ŝ[n|n − 1], M[n|n − 1])

151
Prediktivna i aposteriorna raspodela u stacionarnom stanju:

M[n|n − 1]
0 < K [n] = <1
σw2
+ M[n|n − 1]
M[n|n] = (1 − K [n]) M[n|n − 1] < M[n|n − 1]

152
Poređenje Kalmanovog i Wienerovog filtra
I Nestacionarni signali
I WF nije primenjiv – podrazumeva slabo-stacionarne x[n] i s[n]
I KF jeste primenjiv – parametri GM modela mogu zavisiti od n
I Za stacionaran GM model, u stacionarnom stanju (n → ∞)
I x[n] je slabo-stacionaran (uticaj s[−1] iščezava za n → ∞)
I LEMSKG postaje linearan vremenski-invarijantan filter
I i KF i WF su LEMSKG, pa su ekvivalentni
I M i K postaju konstantni: M[∞] , limn→∞ M[n|n]

Mp [∞] , lim M[n|n − 1] = a2 M[∞] + σu2 (iz (11.12))


n→∞
Mp [∞]
K [∞] , lim K [n] = (iz (11.13))
n→∞ σw2 + Mp [∞]
I Smenjujući Mp [∞] i K [∞] u (11.15) dobijamo Ricattijevu j-nu

σw2 a2 M[∞] + σu2



M[∞] = (1 − K [∞]) Mp [∞] = 2
a M[∞] + σu2 + σw2
koju rešavamo po M[∞], a zatim dobijamo Mp [∞] i K [∞]
153
I F-ja prenosa KF-a u stacionarnom stanju

ŝ[n|n] = aŝ[n − 1|n − 1] + K [∞] (x[n] − aŝ[n − 1|n − 1])


Z{ŝ[n|n]} K [∞]
H(z) , =
X (z) 1 − a(1 − K [∞])z −1
I Delimičan alternativni dokaz da x̃[n] imaju const SGS:

Z{x̂[n|n − 1]} = a Z{ŝ[n − 1|n − 1]} = az −1 Z{ŝ[n|n]}


Z{x̂[n|n − 1]}
Hp (z) , = az −1 H(z)
X (z)
1 − az −1
X̃ (z) = (1 − Hp (z)) X (z) = X (z)
1 − a(1 − K [∞])z −1
| {z }
,H̃(z)

Sx̃ (z) = H̃(z)H̃(1/z)Sx (z)


σu2
Sx (z) = Ss (z) + σw2 = + σw2
(1 − az −1 )(1 − az)
154
Vektorski Kalmanov filtar
I Vektorski GM model sa vektorskim opservacijama

s[n] = As[n − 1] + Bu[n], n≥0


x[n] = Hs[n] + w[n]
I u[n] ∼ N (0, Q), E(u[n]uT [m]) = δnm Q
I w[n] ∼ N (0, C), E(w[n]wT [m]) = δnm C
I s[−1] ∼ N (µs , Cs ), u[n] i w[n] su svi međusobno nezavisni
I A, B, H, Q i C mogu zavisiti od n
I Kalmanov filtar je rekurzivni EMSKG za s[n] iz {x[k]}nk=0

ŝ[n|n − 1] = Aŝ[n − 1|n − 1]


M[n|n − 1] = AM[n − 1|n − 1]AT + BQBT
 −1
K[n] = M[n|n − 1]HT C + HM[n|n − 1]HT
ŝ[n|n] = ŝ[n|n − 1] + K[n] (x[n] − Hŝ[n|n − 1])
M[n|n] = (I − K[n]H) M[n|n − 1]
155
I Dokaz je sličan kao u skalarnom slučaju
I Sve promenljive su združeno normalne, pa je EMSKG linearan
I EMSKG za s[n] na osnovu x[0 : n − 1] , {x[k]}n−1
k=0

ŝ[n|n − 1] = E (As[n − 1] + u[n] | x[0 : n − 1])


= Aŝ[n − 1|n − 1]
I x[n] se može dobiti iz x̃[n] = x[n] − x̂[n|n − 1] i {x[k]}n−1
k=0
I Dakle, {x[k]}nk=0 nosi istu informaciju kao x̃[n] i {x[k]}n−1
k=0
I x̃[n] ⊥ {x[k]}n−1
k=0 , pa važi aditivnost nezavisnih informacija
ŝ[n|n] = E (s[n] | x[0 : n]) = E (s[n] | x̃[n], x[0 : n − 1])
= E (s[n] | x̃[n]) + ŝ[n|n − 1]
I s[n] i x̃[n] su združeno normalni, pa je

E (s[n] | x̃[n]) = Csx̃ C−1


x̃ x̃[n]

ako je E s[n] = 0 i E x̃[n] = 0 (ovo važi za µs = 0, ali


ispostavlja se da j-ne imaju isti oblik i za µs 6= 0)
156
I Kalmanovo pojačanje je

K[n] = Csx̃ C−1


Pokazuje se da je kros-korelaciona matrica

Csx̃ = M[n|n − 1]HT

i da je auto-korelaciona matrica inovacija

Cx̃ = HM[n|n − 1]HT + C

I Iz nezavisnosti w[n] i {x[k]}n−1


k=0 sledi

x̂[n|n − 1] = E (Hs[n] + w[n] | x[0 : n − 1])


= Hŝ[n|n − 1]

odakle se dobija j-na za korekciju stanja


I Iz u[n] ⊥ {s[n − 1], x[0 : n − 1]} sledi j-ne za M[n|n − 1]
I Algebarskim manipulacijama dobijamo j-nu za M[n|n]
157

You might also like