01 Verovatnoca - Merged

13E053SSE – Stohastički sistemi i
estimacija
Rezime teorije verovatnoće
Verovatnoća kao osnova
• Verovatnoća: mera sigurnosti da će se neki
događaj desiti. To je funkcija koja događaju
dodeljuje vrednosti između 0 i 1.
• Zašto dolazi do nesigurnosti?
– Nedovoljno znanja
– Nesigurna merenja
• Neformalni začetnih teorije verovatnoće je
kockanje!
– 16. vek: Gerolamo Cardano analizira igre na sreću
– 17. vek: Pierre de Fermat, Blaise Pascal
– 18. vek: Laplace, Bernoulli
Verovatnoća kao osnova
• Diskretni slučajevi: bacanje novčića, karte,
kockice (brojanje ishoda)
– Broj permutacija špila karata: 52! ≈ 8·1067
– Šanse da se pobedi u loto-u: 1 : 4.5·107
• Kontinualni slučajevi: trajanje razgovora,
analogno merenje temperature
– Verovatnoća 0 ne znači da se događaj nikad neće
desiti!
Primena
• Matematika, statistika
• Finansije
• Fizika, filozofija
• Veštačka inteligencija, mašinsko učenje, teorija
igara
• Kockanje
Definicija verovatnoće
1) Eksperimentalni (heuristički) opis
verovatnoće:
Verovatnoća događaja 𝐴, u oznaci 𝑃 𝐴 se
računa kao:
broj povoljnih ishoda
𝑃 𝐴 =
ukupan broj ishoda
Ovde podrazumevamo da su svi ishodi
podjednako verovatni
1) Eksperimentalni (heuristički) opis verovatnoće
2) Aksiomatski (matematički) opis verovatnoće
Verovatnoća događaja 𝐴 se definiše pomoću 3 pojma:
Ω, ℱ, 𝑃 𝐴
Ω- prostor verovatnoće predstavlja sigurni događaj, skup
svih elementarnih događaja
𝜔𝑖 - elementarni događaj je ishod eksperimenta
ℱ - polje događaja je skup svih događaja iz Ω tako da su
zadovoljena 2 uslova
A1: Ako događaj 𝐴 ∈ ℱ, onda 𝐴ҧ ∈ ℱ
A2: Ako 𝐴, 𝐵 ∈ ℱonda 𝐴 + 𝐵 = 𝐴 ∪ 𝐵 ∈ ℱ
Primer: Opisati eksperiment bacanja novčića
Definicija: Verovatnoća 𝑃 na skupu Ω je funkcija
(preslikavanje) koja događaje iz polja ℱ preslikava na
interval [0,1] realne ose, tako da su zadovoljeni sledeći
aksiomi:
A1) Nenegativnost: Ako 𝐴 ∈ ℱ onda𝑃 𝐴 ≥ 0
A2) Normiranost: Ako je Ω siguran događaj, onda 𝑃 Ω = 1
A3) Aditivnost: Ako su 𝐴, 𝐵 ∈ ℱ disjunktni (𝐴𝐵 = 0) onda je
𝑃 𝐴+𝐵 =𝑃 𝐴 +𝑃 𝐵
A3a) Ako 𝐴1 , … , 𝐴𝑛 ∈ ℱ i 𝐴𝑖 𝐴𝑗 = 0 za 𝑖 ≠ 𝑗, onda
𝑃 σ𝑛𝑖=1 𝐴𝑖 = σ𝑛𝑖=1 𝑃 𝐴𝑖
Primer: Četvorostrana kockica se baca dva puta
(𝑋 je prvo bacanje, 𝑌 je drugo bacanje).
• 𝑃 𝑋, 𝑌 je 1,1 ili 1,2 =
• 𝑃 𝑋=1 =
• 𝑃 𝑋 + 𝑌 neparno =
• 𝑃 min 𝑋, 𝑌 = 2 =
Primer: Igra se pikado sa kvadratnom metom
Ω = 𝑥, 𝑦 |0 ≤ 𝑥, 𝑦 ≤ 1
1
• 𝑃 𝑋+𝑌 ≤ =
2
• 𝑃 𝑋, 𝑌 = 0.5,0.3 =
Primer: Koliki procenat studenata dolazi na predavanja i pije kafu, ako
je poznato:
• 60% studenata dolazi na predavanja
• 70% studenata pije kafu
• 15% studenata ne pije kafu i ne dolazi na predavanja
Uslovna verovatnoća
Uslovna verovatnoća događaja 𝐴 ∈ ℱako se realizovao
događaj 𝐵 ∈ ℱ se definiše pomoću Ω, ℱ, 𝑃 𝐴|𝐵
Definicija: Ako je 𝑃 𝐵 ≠ 0, onda važi

𝑃 𝐴𝐵
𝑃 𝐴𝐵 =
𝑃 𝐵
Alternativno: 𝑃 𝐴𝐵 = 𝑃 𝐵 𝑃 𝐴 𝐵 = 𝑃 𝐴 𝑃 𝐵 𝐴
• Specijalni slučajevi:
1) Ako su 𝐴𝐵 = 0 (disjunktni događaji)
onda
𝑃 𝐴𝐵 = 0 ⇒ 𝑃 𝐴 𝐵 = 0
2) Ako je 𝐴 ⊂ 𝐵 onda
𝐴𝐵 = 𝐴 ⇒ 𝑃 𝐴𝐵 = 𝑃 𝐴
𝑃 𝐴
⇒𝑃 𝐴𝐵 = ≥𝑃 𝐴
𝑃 𝐵
3) Ako je 𝐴 ⊂ 𝐵 onda
𝐴𝐵 = 𝐴 ⇒ 𝑃 𝐴𝐵 = 𝑃 𝐴
𝑃 𝐵
⇒𝑃 𝐵𝐴 = =1
𝑃 𝐵
• Uslovne verovatnoće su kao obične verovatnoće,
samo primenjene na novom univerzumu na kome
se zna da se 𝐵 desilo
• Uslovna verovatnoća mora da zadovolji
standardne aksiome verovatnoće
A1) Nenegativnost: 𝑃 𝐴 𝐵 ≥ 0
𝑃 Ω𝐵 𝑃 𝐵
A2) Normiranost: 𝑃 Ω 𝐵 = = =1
𝑃 𝐵 𝑃 𝐵
A3) Aditivnost za 𝐴𝐶 = 0:
𝑃 𝐴+𝐶 𝐵 𝑃 𝐴𝐵 + 𝐶𝐵
𝑃 𝐴+𝐶 𝐵 = =
𝑃 𝐵 𝑃 𝐵
𝑃 𝐴𝐵 𝑃 𝐶𝐵
= + =𝑃 𝐴 𝐵 +𝑃 𝐶 𝐵
𝑃 𝐵 𝑃 𝐵
Primer: 2 bacanja četvorostrane kockice (𝑋 je prvo
bacanje, 𝑌 je drugo bacanje). Definisani su događaji:
𝐵: min 𝑋, 𝑌 ; 𝑀: max 𝑋, 𝑌
• 𝑃 𝑀=1𝐵=2 =
• 𝑃 𝑀=2𝐵=2 =
Nezavisnost događaja
Definicija 1: Događaji 𝐴 i 𝐵 su nezavisni ako važi
𝑃 𝐵𝐴 =𝑃 𝐵
Definicija 2: Događaji 𝐴 i 𝐵 su nezavisni ako
važi𝑃 𝐴𝐵 = 𝑃 𝐴 𝑃 𝐵
Primer: Da li su A i B nezavisni?
Nezavisnost događaja
• Uslovna nezavisnost:
𝑃 𝐴𝐵 𝐶 = 𝑃 𝐴 𝐶 𝑃 𝐵 𝐶
Nezavisnost u originalnom modelu ne implicira

nezavisnost u uslovnom modelu!
Teorema totalne verovatnoće
• Događaji 𝐴1 , … 𝐴𝑛 čine potpun sistem hipoteza ako su
događaji disjunktni (𝐴𝑖 𝐴𝑗 = 0 za 𝑖 ≠ 𝑗) i ako σ𝑛𝑖=1 𝐴𝑖 = Ω.
Teorema: Ako događaji 𝐴1 , … 𝐴𝑛 čine potpun sistem hipoteza,
tada se verovatnoća proizvoljnog događaja 𝐵 može izraziti kao
𝑛
𝑃 𝐵 = ෍ 𝑃 𝐵 𝐴𝑖 𝑃 𝐴𝑖
𝑖=1
Dokaz: 𝐵 = σ𝑛𝑖=1 𝐵𝐴𝑖 , 𝐵𝐴𝑖 𝐵𝐴𝑗 = 0, 𝑖 ≠ 𝑗
𝑛 𝑛 𝑛
𝑃 𝐵 = 𝑃 ෍ 𝐵𝐴𝑖 = ෍ 𝑃 𝐵𝐴𝑖 = ෍ 𝑃 𝐵|𝐴𝑖 𝑃 𝐴𝑖

𝑖=1 𝑖=1 𝑖=1
Bajesova teorema
Teorema: Ako događaji 𝐴1 , … 𝐴𝑛 čine potpun sistem hipoteza i
𝑃 𝐵 ≠ 0, tada za ∀𝑖 = 1, … , 𝑛 važi
𝑃 𝐵 𝐴𝑖 𝑃 𝐴𝑖 𝑃 𝐵 𝐴𝑖 𝑃 𝐴𝑖
𝑃 𝐴𝑖 𝐵 = = 𝑛
𝑃 𝐵 σ𝑗=1 𝑃 𝐵|𝐴𝑗 𝑃 𝐴𝑗
𝑃 𝐴𝑖 𝐵
Dokaz: 𝑃 𝐴𝑖 𝐵 =
𝑃 𝐵
𝑃 𝐴𝑖 𝐵
𝑃 𝐵 𝐴𝑖 = ⇒ 𝑃 𝐴𝑖 𝐵 = 𝑃 𝐵 𝐴𝑖 𝑃 𝐴𝑖
𝑃 𝐴𝑖
𝑃 𝐵 𝐴𝑖 𝑃 𝐴𝑖 𝑃 𝐵 𝐴𝑖 𝑃 𝐴𝑖
⇒ 𝑃 𝐴𝑖 𝐵 = = 𝑛
𝑃 𝐵 σ𝑗=1 𝑃 𝐵|𝐴𝑗 𝑃 𝐴𝑗
Bajesova teorema
Primer: Pretpostavimo da 0.001% populacije ima određenu vrstu raka.
Doktor izvrši test na pacijentu koji sa verovatnoćom 0.99 detektuje
rak. Takođe, sa verovatnoćom 0.2 test će biti lažno pozitivan
(detektovaće rak iako ga pacijent nema). Ako je test pozitivan koja
je verovatnoća da pacijent ima rak?
𝐵 – Osoba ima rak
𝐴 – Test je pozitivan
𝑃 𝐵 𝐴 =?
estimacija
Slučajne promenljive
Definicija: Jednodimenziona realna slučajna promenljiva (eng.
random variable) je funkcija (preslikavanje) 𝑋 koja svakom
elementarnom ishodu 𝜔 iz prostora Ω dodeljuje realan broj, i
to tako da su ispunjena 2 uslova:
A1) 𝑋(𝜔) je merljiva funkcija, što znači da skup
𝐴 = 𝜔: 𝑋 𝜔 ≤ 𝑥
pripada polju događaja ℱ, odnosno postoji 𝑃(𝐴)
A2) Ako su 𝐴 = 𝜔: 𝑋 𝜔 = +∞ i 𝐵 = 𝜔: 𝑋 𝜔 = −∞ , onda
je 𝑃 𝐴 = 𝑃 𝐵 = 0
Primer:
Funkcija raspodele
Definicija: Funkcija raspodele (eng. cumulative distribution function) 𝐹𝑋 𝑥 je
kompletan matematički opis slučajne promenljive 𝑋:
𝐹𝑋 𝑥 = 𝑃 𝜔: 𝑋 𝜔 ≤ 𝑥
Osobine:
1) Horizontalne asimptote
𝐹𝑋 −∞ = 𝑃 𝜔: 𝑋 𝜔 ≤ −∞ =0
𝐹𝑋 +∞ = 𝑃 𝜔: 𝑋 𝜔 ≤ +∞ =1
2) Funkcija raspodele je monotono neopadajuća

Ako su 𝐴 = 𝜔: 𝑋 𝜔 ≤ 𝑥1 , 𝐵 = 𝜔: 𝑋 𝜔 ≤ 𝑥2 i 𝑥1 < 𝑥2 , tada važi 𝐴 ⊂
𝐵 ⇒ 𝑃 𝐴 ≤ 𝑃 𝐵 ⇒ 𝐹𝑋 𝑥1 ≤ 𝐹𝑋 𝑥2
3) Funkcija raspodele može da ima prekid prve vrste i neprekidna je sa desne

strane
Funkcija raspodele
• Klasifikacija slučajnih promenljivih prema
obliku raspodele:
1) Neprekidne
2) Diskretne
3) Mešovite
Diskretna slučajna promenljiva
• Slučajna promenljiva uzima vrednost iz diskretnog
skupa realnih brojeva. Funkcija raspodele je
‘stepeničasta’
• Funkcija mase verovatnoće:
𝑝𝑋 𝑥 = 𝑃 𝜔: 𝑋 𝜔 = 𝑥 = 𝑃(𝑋 = 𝑥)
• Funkcija mase verovatnoće (eng. probability
mass function):
𝑝𝑋 𝑥 = 𝑃 𝜔: 𝑋 𝜔 = 𝑥 = 𝑃(𝑋 = 𝑥)
• Osobine:
1) 𝑝𝑋 𝑥 ≥ 0 2) σ𝑥 𝑝𝑋 𝑥 = 1
• Veza F.R. i F.M.V.
𝐹𝑋 𝑥 = ෍ 𝑝𝑋 𝑘
𝑘≤𝑥
• Notacija:
𝑥1 𝑥2 ⋯ 𝑥𝑛
𝑋~ 𝑝 𝑥 𝑝𝑋 𝑥2 𝑝𝑋 𝑥𝑛
𝑋 1
Primer: Eksperiment bacanja novčića
Kontinualna slučajna promenljiva
• Funkcija raspodele je neprekidna funkcija realnog argumenta
𝐹𝑋 𝑥 = 𝐹𝑋 𝑥 − = 𝐹𝑋 𝑥 +
• Funkcija gustine verovatnoće (eng. probability density
function):
𝑥
𝑑𝐹𝑋 𝑥
𝑓𝑋 𝑥 = , 𝐹𝑋 𝑥 = න 𝑓𝑋 𝜏 𝑑𝜏
𝑑𝑥 −∞
• Osobine:
∞
1) 𝑓𝑋 𝑥 ≥ 0 2) ‫׬‬−∞ 𝑓𝑋 𝜏 𝑑𝜏 = 1
𝑏
3) 𝑃 𝑎 ≤ 𝑋 𝜔 ≤ 𝑏 = ‫𝜏 𝑋𝑓 𝑎׬‬ 𝑑𝜏 = 𝐹𝑋 𝑏 − 𝐹𝑋 𝑎
Mešovita slučajna promenljiva
• Funkcija raspodele slučajne promenljive ima
prekide prve vrste.
• Diferenciranjem FR u tačkama prekida
dobijamo Dirakov impuls srazmeran
verovantoći u datoj tački
Veza funkcije mase verovatnoće i
funkcije gustine verovatnoće
𝐹𝑋 𝑥 = ෍ 𝑝𝑋 𝑘 𝑢 𝑥 − 𝑘
𝑘≤𝑥
𝑑𝐹𝑋 𝑥
𝑓𝑋 𝑥 = ෍ 𝑝𝑋 𝑘 𝛿 𝑥 − 𝑘
𝑑𝑥
𝑘≤𝑥
Matematičko očekivanje slučajne
promenljive
• Diskretne slučajne promenljive: 𝐸 𝑋 = σ𝑥 𝑥 ⋅ 𝑝𝑋 𝑥
• Kontinualne slučajne promenljive:

∞
𝐸 𝑋 = න 𝑥 ⋅ 𝑓𝑋 𝑥 𝑑𝑥
−∞
Funkcija slučajne promenljive
• Funkcija slučajne promenljive, 𝑌 = 𝑔 𝑋 ,
je sama po sebi slučajna promenljiva!
• Računanje preko definicije matematičkog
očekivanja:
𝐸 𝑌 = ෍ 𝑦 ⋅ 𝑝𝑌 𝑦
𝑦
ili
∞
𝐸 𝑌 = න 𝑦 ⋅ 𝑓𝑌 𝑦
−∞
... Komplikovano!
Očekivanje funkcija slučajne
promenljive
Definicija: Matematičko očekivanje vrednosti funkcije
𝑔 𝑋 slučajne promenljive 𝑋 se definiše kao
∞
𝐸 𝑔 𝑋 = න 𝑔 𝑥 𝑓𝑋 𝑥 𝑑𝑥
−∞
ili
𝐸 𝑔 𝑋 = ෍ 𝑔 𝑥 𝑝𝑋 𝑥
𝑥
• PAŽNJA!!!
𝐸 𝑔 𝑋 ≠𝑔 𝐸 𝑋
promenljive
• Matematičko očekivanje (srednja vrednost) se dobija za
𝑔 𝑋 =𝑋
𝑋ത = 𝑚𝑋 = 𝐸 𝑋
• Centrirani moment n-tog reda se dobija za

𝑔 𝑋 = 𝑋 − 𝑚𝑋 𝑛
𝜇𝑛 = 𝐸 𝑋 − 𝑚𝑋 𝑛
• Necentrirani moment n-tog reda se dobija za

𝑔 𝑋 = 𝑋𝑛
𝑚𝑛 = 𝐸 𝑋 𝑛
promenljive
• Momenti drugog reda:
– Varijansa (centrirani moment 2. reda): 𝜎𝑋2 = 𝐸 𝑋 − 𝑚𝑋 2
– Necentrirani moment drugog reda: 𝐸 𝑋 2

– Veza:
∞
𝜎𝑋2 = න 𝑥 − 𝑚𝑋 2 𝑓𝑋 𝑥 𝑑𝑥
−∞
∞
=න 𝑥 2 − 2𝑥𝑚𝑋 + 𝑚𝑋2 𝑓𝑋 𝑥 𝑑𝑥
−∞
∞ ∞ ∞
= න 𝑥 2 𝑓𝑋 𝑥 𝑑𝑥 − 2𝑚𝑋 න 𝑥𝑓𝑋 𝑥 𝑑𝑥 + 𝑚𝑋2 න 𝑓𝑋 𝑥 𝑑𝑥
−∞ −∞ −∞
= 𝐸 𝑋2 − 𝐸 𝑋 2
estimacija
Slučajni vektori
Slučajni vektori
Definicija: Ako su 𝑋1 𝜔 , … , 𝑋𝑛 𝜔 slučajne promenljive, onda se
slučajnim vektorom naziva njihov uređeni skup 𝑿 = 𝑋1 , … , 𝑋𝑛
Dvodimenzionalni slučajni vektori
• Matematički opis 2D slučajnog vektora:
𝐹𝑋,𝑌 𝑥, 𝑦 = 𝑃 𝜔: 𝑋 𝜔 ≤ 𝑥, 𝑌 𝜔 ≤ 𝑦
𝜕 2 𝐹𝑋,𝑌 𝑥, 𝑦
𝑓𝑋,𝑌 𝑥, 𝑦 =
𝜕𝑥𝜕𝑦
𝑦 𝑥
𝐹𝑋,𝑌 𝑥, 𝑦 = න න 𝑓𝑋,𝑌 𝛼, 𝛽 𝑑𝛼𝑑𝛽
−∞ −∞
• Osobine:
1) 𝐹 𝑥, −∞ = 𝐹 −∞, 𝑦 = 𝑃 0 = 0
𝐹 ∞, ∞ = 1
2) 𝐹 𝑥, 𝑦 je monotono neopadajuća funkcija realnih argumenata 𝑥 i 𝑦.
3) Marginalne funkcije raspodele se dobijaju kao:
𝐹𝑋 𝑥 = 𝐹 𝑥, +∞ = 𝑃 𝑋 ≤ 𝑥, 𝑌 ≤ ∞ = 𝑃 𝑋 ≤ 𝑥
𝐹𝑌 𝑦 = 𝐹 +∞, 𝑦 = 𝑃 𝑋 ≤ ∞, 𝑌 ≤ 𝑦 = 𝑃 𝑌 ≤ 𝑦
4) Nenegativnost: 𝑓 𝑥, 𝑦 ≥ 0
∞ ∞
5) Normiranost: ‫׬‬−∞ ‫׬‬−∞ 𝑓 𝑥, 𝑦 𝑑𝑥𝑑𝑦 = 𝐹 ∞, ∞ = 1
6) Marginalne funkcije gustine verovatnoće se dobijaju kao:
∞
𝑓𝑋 𝑥 = න 𝑓 𝑥, 𝑦 𝑑𝑦
−∞
• Funkcija raspodele (funkcija gustine verovatnoće) predstavlja
kompletan matematički opis slučajnog vektora:
Matematičko očekivanje funkcije 𝑔 𝑿 = 𝑔 𝑋1 , 𝑋2 slučajnog vektora 𝑿 =
𝑋1 𝑋2 𝑇 :
∞ ∞
𝐸 𝑔 𝑋1 , 𝑋2 =න න 𝑔 𝑥1 , 𝑥2 𝑓𝑋1 ,𝑋2 𝑥1 , 𝑥2 𝑑𝑥1 𝑑𝑥2
−∞ −∞
• Kovarijansa 2 slučajne promenljive:

𝑔 𝑋1 , 𝑋2 = 𝑋1 − 𝐸 𝑋1 𝑋2 − 𝐸 𝑋2
cov 𝑋1 , 𝑋2 = 𝐸 𝑔 𝑋1 , 𝑋2
∞ ∞
=න න 𝑥1 − 𝐸 𝑋1 𝑥2 − 𝐸 𝑋2 𝑓𝑋1 ,𝑋2 𝑥1 , 𝑥2 𝑑𝑥1 𝑑𝑥2
−∞ −∞
• Koeficijent korelacije 2 slučajne promenljive:
cov 𝑋1 , 𝑋2
𝜌 𝑋1 , 𝑋2 ] =
var 𝑋1 𝑣𝑎𝑟 𝑋1
−1 ≤ 𝜌 𝑋1 , 𝑋2 ≤ 1
Dokaz:
n-dimenzioni slučajni vektori
𝑿 = 𝑋1 𝑋2 ⋯ 𝑋𝑛 𝑇
• Funkcija raspodele
𝐹𝑋1,…,𝑋𝑛 𝑥1 , … , 𝑥𝑛 = 𝑃 𝑋1 ≤ 𝑥1 , … , 𝑋𝑛 ≤ 𝑥𝑛
• Marginalne raspodele
𝐹𝑋1,…,𝑋𝑛 ∞, 𝑥2 , … , 𝑥𝑛 = 𝐹𝑋2,…,𝑋𝑛 𝑥2 , … , 𝑥𝑛
𝐹𝑋1,…,𝑋𝑛 ∞, ∞, … , 𝑥𝑛 = 𝐹𝑋3,…,𝑋𝑛 𝑥3 , … , 𝑥𝑛
• Funkcija gustine verovatnoće
𝜕 𝑛 𝐹 𝑥1 , … , 𝑥𝑛
𝑓 𝑥1 , … , 𝑥𝑛 =
𝜕𝑥1 𝜕𝑥2 ⋯ 𝜕𝑥𝑛
∞ ∞
𝐹 𝑥1 , … , 𝑥𝑛 = න ⋯ න 𝑓 𝛼, 𝛽, … 𝑑𝛼𝑑𝛽 …
−∞ −∞
• Marginalne funkcije gustine verovatnoće
∞ ∞
𝑓𝑋𝑖 𝑥𝑖 = න ⋯ න 𝑓 𝑥1 , 𝑥2 , … , 𝑥𝑛 𝑑𝑥1 … 𝑑𝑥𝑖−1 𝑑𝑥𝑖+1 … 𝑑𝑥𝑛
−∞ −∞
n-dimenzioni slučajni vektori
• Matematičko očekivanje slučajnog vektora 𝑿
𝑋1
𝐸 𝑿 =𝐸 ⋮ =𝑿 ഥ
𝑋𝑛
• Kovarijaciona matrica slučajnog vektora 𝑿
var 𝑋1 ⋯ cov 𝑋1 , 𝑋𝑛
𝑅𝑿 = 𝐸 𝑿 − 𝑿 ഥ 𝑿−𝑿 ഥ 𝑇 = ⋮ ⋱ ⋮
cov 𝑋𝑛 , 𝑋1 ⋯ var 𝑋𝑛
• Korelaciona matrica slučajnog vektora 𝑿
Ψ𝑿 = 𝐸 𝑿𝑿𝑇
• Matrica kroskovarijanse slučajnih vektora 𝑿 i 𝒀
𝑅𝑿,𝒀 = 𝐸 𝑿 − 𝑿 ഥ 𝒀−𝒀 ഥ 𝑇
• Matrica kroskorelacije slučajnih vektora 𝑿 i 𝒀

Ψ𝑿,𝒀 = 𝐸 𝑿𝒀𝑇
Karakterizacija slučajnih vektora
• Nezavisnost komponenti slučajnog vektora:
Ako je 𝐹 𝑥1 , … , 𝑥𝑛 združena funkcija raspodele slučajnog vektora 𝑿 =
𝑋1 ⋯ 𝑋𝑛 𝑇 i neka su 𝐹𝑋1 𝑥1 , … , 𝐹𝑋𝑛 𝑥𝑛 marginalne funkcije raspodele, tada
za slučajne promenljive 𝑋1 , … , 𝑋𝑛 kažemo da su nezavisne akko u svakoj tački
𝑥1 , … , 𝑥𝑛 ∈ 𝑅𝑛 važi:
𝑛
𝐹 𝑥1 , … , 𝑥𝑛 = ෑ 𝐹𝑋𝑖 𝑥𝑖
𝑖=1
Ekvivalentno, u kontinualnom slučaju:
𝑛
𝑓 𝑥1 , … , 𝑥𝑛 = ෑ 𝑓𝑋𝑖 𝑥𝑖
𝑖=1
U diskretnom slučaju:
𝑛
𝑃 𝑋1 = 𝑥1 , … , 𝑋𝑛 = 𝑥𝑛 = ෑ 𝑃 𝑋𝑖 = 𝑥𝑖
𝑖=1
Karakterizacija slučajnih vektora
• Nekorelisanost komponenti slučajnog vektora:
Slučajne promenljive 𝑋1 i 𝑋2 su nekorelisane ako važi cov 𝑋1 , 𝑋2 = 0
→ cov 𝑋1 , 𝑋2 = 𝐸 𝑋1 − 𝑋ത1 𝑋2 − 𝑋ത2

= 𝐸 𝑋1 𝑋2 − 𝑋ത1 𝑋2 − 𝑋ത2 𝑋1 + 𝑋ത1 𝑋ത2 = 𝐸 𝑋1 𝑋2 − 𝑋ത1 𝑋ത2
Ekvivalentni uslov: 𝐸 𝑋1 𝑋2 = 𝐸 𝑋1 𝐸 𝑋2
• Ako su slučajne promenljive nezavisne, onda su one i nekorelisane.

Obrnuto ne važi!
• Ortogonalnost slučajnih vektora:

Slučajni vektori 𝑿 i 𝒀 su ortogonalni ako je Ψ𝑿,𝒀 = 𝐸 𝑿𝒀𝑇 = 0
estimacija
Uslovne raspodele
Uslovne raspodele
• Uslovna funkcija raspodele slučajne promenljive 𝑋 u odnosu na događaj
𝑌 = 𝑦 je:
𝑥
𝑓𝑋,𝑌 𝛼, 𝑦
𝐹𝑋|𝑌 𝑥 𝑦 = 𝑃 𝑋 ≤ 𝑥|𝑌 = 𝑦 = න 𝑑𝛼
−∞ 𝑓𝑌 𝑦
Dokaz:
Uslovne raspodele
• Uslovna funkcija gustine verovatnoće:
𝜕 𝜕 𝑥 𝑓𝑋,𝑌 𝛼, 𝑦
𝑓𝑋|𝑌 𝑥 𝑦 = 𝐹𝑋|𝑌 𝑥 𝑦 = න 𝑑𝛼
𝜕𝑥 𝜕𝑥 −∞ 𝑓𝑌 𝑦
𝑓𝑋,𝑌 𝑥, 𝑦
→ 𝑓𝑋|𝑌 𝑥 𝑦 =
𝑓𝑌 𝑦
• Neprekidna verzija formule totalne verovatnoće:
∞ ∞
𝑓𝑋 𝑥 = න 𝑓𝑋,𝑌 𝑥, 𝑦 𝑑𝑦 = න 𝑓𝑋|𝑌 𝑥|𝑦 𝑓𝑌 𝑦 𝑑𝑦
−∞ −∞
• Neprekidna verzija Bajesove formule:
𝑓𝑌|𝑋 𝑦 𝑥 𝑓𝑋 𝑥
𝑓𝑋|𝑌 𝑥 𝑦 =
𝑓𝑌 𝑦
Uslovne raspodele
Primer: Bajesova formula koja povezuje kontinualnu (𝑌) i diskretnu (𝑋)
slučajnu promenljivu, 𝑌 = 𝑋 + 𝑊
Uslovne raspodele
• Uslovno matematičko očekivanje:
∞
𝐸 𝑋|𝑌 = 𝑦 = න 𝑥𝑓𝑋|𝑌 𝑥 𝑦 𝑑𝑥
−∞
• Uslovna varijansa:
var 𝑋 𝑌 = 𝑦 = 𝐸 𝑋 − 𝐸 𝑋|𝑌 = 𝑦 2 |𝑌 = 𝑦
• Uslovna kovarijaciona matrica:
ഥ 𝑿−𝑿
𝑅𝑿|𝒀 = 𝐸 𝑿 − 𝑿 ഥ 𝑇 |𝒀
• Zakon iterativnih očekivanja:
𝐸 𝐸 𝑋|𝑌 =𝐸 𝑋
Dokaz:
Uslovne raspodele
Primer: Štap dužine 𝑙 se lomi 2 puta. Prvo se lomi na dužinu 𝑋~𝑈 0, 𝑙 , pa se
onda lomi na dužinu Y~𝑈 0, 𝑋 , 0 ≤ 𝑌 ≤ 𝑋 ≤ 𝑙. Odrediti 𝐸 𝑌 =?
Uslovne raspodele
• Osobine:
1) 𝐸 𝑔 𝑋 |𝑋 = 𝑥 = 𝑔 𝑋
2) 𝐸 𝑎𝑋|𝑌 = 𝑎𝐸 𝑋|𝑌
3) 𝐸 𝑋 + 𝑌|𝑍 = 𝐸 𝑋|𝑍 + 𝐸 𝑌|𝑍
Uslovne raspodele
Primer: Zajednička funkcija gustine verovatnoće slučajnih promenljivih 𝑋 i 𝑌 je
𝑐, 𝑥 ≤ 2, 0≤𝑦≤ 𝑥3
𝑓𝑋,𝑌 𝑥, 𝑦 = ቊ
0, inače
a) 𝑐 =? b) 𝑓𝑋 𝑥 , 𝑓𝑌 𝑦 =? c) 𝑃 𝑋 ≤ 0.5, 𝑌 ≤ 0.5 =?
estimacija
Funkcije slučajnih vektora
Funkcija slučajne promenljive 𝑌 = 𝑔 𝑋
1) Po definiciji:
𝐹𝑌 𝑦 = 𝑃 𝜔: 𝑌 𝜔 ≤ 𝑦 = 𝑃 𝜔: 𝑔 𝑋 𝜔 ≤𝑦
= 𝑃 𝜔: 𝑋 𝜔 ∈ 𝐼𝑌 = න 𝑓𝑋 𝑥 𝑑𝑥
𝐼𝑌
𝑑
𝑓𝑌 𝑦 = 𝐹 𝑦
𝑑𝑦 𝑌
2) Prema teoremi:
Rešiti jednačinu 𝑔 𝑥 = 𝑦. Ako su rešenja 𝑥1 , … , 𝑥𝑛 onda je
𝑓𝑋 𝑥1 𝑓𝑋 𝑥𝑛
𝑓𝑌 𝑦 = + ⋯+
𝑔ሶ 𝑥1 𝑔ሶ 𝑥𝑛
𝑦
𝐹𝑦 𝑦 = න 𝑓𝑌 𝛼 𝑑𝛼
−∞
Funkcija dve slučajne promenljive
𝑍 = 𝑔 𝑋, 𝑌
Iz definicije važi:
𝐹𝑍 𝑧 = 𝑃 𝜔: 𝑍 𝜔 ≤ 𝑧 = 𝑃 𝜔: 𝑔 𝑋 𝜔 , 𝑌 𝜔 ≤𝑧
Posmatra se skup tačaka u ravni:

𝐼𝑍 = 𝜔: 𝑔 𝑋 𝜔 , 𝑌 𝜔 ≤𝑧
𝐹𝑍 𝑧 = 𝑃 𝑋 𝜔 ,𝑌 𝜔 ∈ 𝐼𝑧
Pomoću združene funkcije gustine verovatnoće:

𝐹𝑧 𝑧 = ඵ 𝑓𝑋,𝑌 𝑥, 𝑦 𝑑𝑥𝑑𝑦
𝐼𝑧
Primer: Odrediti funkciju gustine verovatnoće 𝑓𝑍 𝑧 slučajne promenljive 𝑍 =
𝑌
𝑔 𝑋, 𝑌 = ako je združena funkcija gustine verovatnoće:
𝑋
1, 0 ≤ 𝑥, 𝑦 ≤ 1
𝑓𝑋,𝑌 𝑥, 𝑦 = ቊ
0, inače
Primer: Odrediti funkciju gustine verovatnoće 𝑓𝑍 𝑧 slučajne promenljive 𝑍 =
𝑔 𝑋, 𝑌 = 𝑋 + 𝑌
Primer: Pretpostaviti da su 𝑋 i 𝑌 iz prethodnog primera nezavisne Gausovske
slučajne promenljive 𝑋~𝒩 𝑚𝑋 , 𝜎𝑋2 , 𝑌~𝒩 𝑚𝑌 , 𝜎𝑌2
Sistemi funkcija slučajnih promenljivih
• Odrediti 𝑓𝑍,𝑊 𝑧, 𝑤 ako je poznato 𝑓𝑋,𝑌 𝑥, 𝑦
𝑊 = ℎ 𝑋, 𝑌
1) Po definiciji:
𝑃 𝑍 ≤ 𝑧, 𝑊 ≤ 𝑤 = 𝑃 𝑔 𝑋, 𝑌 ≤ 𝑧, ℎ 𝑋, 𝑌 ≤ 𝑤 = 𝑃 𝑋, 𝑌 ∈ 𝐼𝑍,𝑊 = ඵ 𝑓𝑋,𝑌 𝑥, 𝑦 𝑑𝑥𝑑𝑦
𝐼𝑍,𝑊
2) Prema teoremi:
Ako su rešenja sistema jednačina uređeni parovi 𝑥1 , 𝑦1 , … , 𝑥𝑛 , 𝑦𝑛 , onda je
𝑓𝑋,𝑌 𝑥1 , 𝑦1 𝑓𝑋,𝑌 𝑥𝑛 , 𝑦𝑛
𝑓𝑍,𝑊 𝑧, 𝑤 = + ⋯+
𝐽 𝑥1 , 𝑦1 𝐽 𝑥𝑛 , 𝑦𝑛
Jakobijan:
𝜕𝑔 𝑥, 𝑦 𝜕𝑔 𝑥, 𝑦
𝜕𝑥 𝜕𝑦
𝐽 𝑥𝑖 , 𝑦𝑖 =
𝜕ℎ 𝑥, 𝑦 𝜕ℎ 𝑥, 𝑦
𝜕𝑥 𝜕𝑦 𝑥=𝑥𝑖
𝑦=𝑦𝑖
Primer: 𝑍 = 𝑔 𝑋, 𝑌 = 𝑋 + 𝑌,
𝑊 = ℎ 𝑋, 𝑌 = 𝑋
Primer: Izvršiti transformaciju iz Dekartovih koordinata u polarne ako su 𝑋 i 𝑌
nezavisne Gausovski raspodeljene slučajne promenljive 𝑋, 𝑌~𝒩 0, 𝜎 2
estimacija
Slučajni procesi
Šta su to slučajni procesi?
• Prosečni godišnji broj sunčevih pega:
• Prosečna plata u Srbiji

• Slučajni proces se definiše kao funkcija 2 argumenta:
𝑋 𝑡, 𝜔 , 𝑡 ∈ 𝑇, 𝜔 ∈ Ω
• Svaka moguća sekvenca se naziva realizacija, ishod ili trajektorija slučajnog

procesa
• Skup svih realizacija naziva se ansambl realizacija
• Fiksiranjem slučajnog događaja, 𝜔 = 𝜔0 , dobijamo jednu realizaciju
slučajnog procesa, 𝑋 𝑡, 𝜔0
• Fiksiranjem vremena, 𝑡 = 𝑡0 , dobijamo jednu slučajnu promenljivu,

𝑋 𝑡0 , 𝜔
• Slučajni procesi mogu da budu:
Diskretni u vremenu i diskretni po amplitudi Dikretni u vremenu i kontinualni po
amplitudi
Kontinualni u vremenu i diskretni po amplitudi Kontinualni u vremenu i kontinualni po

amplitudi
• Generisanje slučajnog procesa:
– Konstruisanje svih mogućih trajektorija, pa slučajno biranje jedne od
njih
– U svakom trenutku se na slučajan način bira vrednost realizacije
slučajnog procesa
Matematički opis slučajnih procesa
• Funkcija raspodele reda 𝑛:
𝑃 𝑋 𝜔, 𝑡1 ≤ 𝑥1 , … , 𝑋 𝜔, 𝑡𝑛 ≤ 𝑥𝑛 = 𝐹𝑋 𝑥1 , … , 𝑥𝑛 ; 𝑡1 , … , 𝑡𝑛
= 𝐹𝑋 𝑥1 𝑡1 , … , 𝑥𝑛 𝑡𝑛
= 𝐹𝑋 𝑥𝑡1 , … , 𝑥𝑡𝑛
• Funkcija gustine verovatnoće:
𝜕 𝑛 𝐹𝑋 𝑥1 , … , 𝑥𝑛 ; 𝑡1 , … , 𝑡𝑛
𝑓𝑋 𝑥1 , … , 𝑥𝑛 ; 𝑡1 , … , 𝑡𝑛 =
𝜕𝑥1 ⋯ 𝜕𝑥𝑛
Proces je u potpnosti opisan funkcijom raspodele (funkcijom

gustine verovatnoće) ako za svako 𝑛 znamo 𝐹𝑋 (𝑓𝑋 ) u svim
trenucima 𝑡1 , … , 𝑡𝑛 i za svako 𝑥1 , … , 𝑥𝑛
• Matematičko očekivanje:
∞
𝑚𝑋 𝑡 = 𝑋ത 𝑡 = 𝐸 𝑋 𝜔, 𝑡 = න 𝑥𝑓𝑋 𝑥; 𝑡 𝑑𝑥
−∞
• Varijansa:
∞
2
𝜎𝑋2 𝑡 =න 𝑥 − 𝑚𝑋 𝑡 𝑓𝑋 𝑥; 𝑡 𝑑𝑥
−∞
Različiti slučajni procesi
Primer: Bernulijev proces (sekvenca nezavisnih Bernulijevih
slučajnih promenljivih)
1 0
∀𝑛 ∈ 𝑁 𝑋 𝑛, 𝜔 ~
𝑝 1−𝑝
Primer: Slučajni hod (sekvenca slučajnih koraka)
Primer: Poasonov proces
Definicija: Slučajan proces 𝑋 𝑡, 𝜔 je Poasonov proces ako za 𝑡 ∈ 𝑇 = 0, ∞
važi
1) 𝑃 𝑋 0 = 0 = 1
2) Priraštaji 𝑋 𝑡2 − 𝑋 𝑡1 i 𝑋 𝑡4 − 𝑋 𝑡3 su nezavisni za svako 𝑡1 <
𝑡2 ≤ 𝑡3 < 𝑡4
3) Za svako 𝑡1 < 𝑡2 priraštaj 𝑋 𝑡2 − 𝑋 𝑡1 ima Poasonovu raspodelu sa
parametrom 𝜆 𝑡2 − 𝑡1 , 𝜆 > 0
−𝜆 𝑡2 −𝑡1
𝑘𝑒
𝑃 𝑋 𝑡2 − 𝑋 𝑡1 = 𝑘 = 𝜆 𝑡2 − 𝑡1 , 𝑘 ∈ 0,1, …
𝑘!
Da li smo na ovaj način u potpunosti matematički opisali slučajni proces?

Primer: Broj mušterija koji uđe u prodavnicu modeluje se Poasonovom
raspodelom sa 𝜆 = 10 mušterija na sat.
a) Naći verovatnoću da dođu 2 mušterije od 10:00h do 10:20h
b) Naći verovatnoću da dođu 2 mušterije od 10:00h do 10:20h i 7 mušterija
od 10:20h do 11:00h
• Kovarijansa
𝑅𝑋 𝑡1 , 𝑡2 = cov 𝑋 𝑡1 , 𝜔 , 𝑋 𝑡2 , 𝜔
= 𝐸 𝑋 𝑡1 , 𝜔 − 𝑚𝑋 𝑡1 𝑋 𝑡2 , 𝜔 − 𝑚𝑋 𝑡2
∞ ∞
= ‫׬‬−∞ ‫׬‬−∞ 𝑥1 − 𝑚𝑋 𝑡1 𝑥2 − 𝑚𝑋 𝑡2 𝑓𝑋 𝑥1 , 𝑥2 ; 𝑡1 , 𝑡2 𝑑𝑥1 𝑑𝑥2
• Korelacija
Ψ𝑋 𝑡1 , 𝑡2 = 𝐸 𝑋 𝑡1 , 𝜔 𝑋 𝑡2 , 𝜔
∞ ∞
=න න 𝑥1 𝑥2 𝑓𝑋 𝑥1 , 𝑥2 ; 𝑡1 , 𝑡2 𝑑𝑥1 𝑑𝑥2
−∞ −∞
→ 𝑅𝑋 𝑡1 , 𝑡2 = Ψ𝑋 𝑡1 , 𝑡2 − 𝑚𝑋 𝑡1 𝑚𝑋 𝑡2
• Osobine:
– Nekorelisanost važi ako je za ∀𝑡1 , 𝑡2 ∈ 𝑇, 𝑡1 ≠ 𝑡2 :
𝑅𝑋 𝑡1 , 𝑡2 = 0,
– Nezavisnost važi ako je za ∀𝑛 ∈ 𝑁 i ∀ 𝑡1 , … , 𝑡𝑛 ∈ 𝑇 𝑛 :

𝑛
𝐹𝑋 𝑥1 , … , 𝑥𝑛 ; 𝑡1 , … , 𝑡𝑛 = ෑ 𝐹𝑋 𝑥𝑖 ; 𝑡𝑖
𝑖=1
– Ortogonalnost važi ako je za ∀𝑡1 , 𝑡2 ∈ 𝑇, 𝑡1 ≠ 𝑡2 :
Ψ𝑋 𝑡1 , 𝑡2 = 0
Stacionarnost slučajnih procesa
• Stroga stacionarnost (stacionarnost u užem smislu)
Proces je strogo stacionaran ako za ∀𝑚, ∀𝜏 > 0, ∀𝑡1 , … , 𝑡𝑚 ∈ 𝑇, 𝑡1 < ⋯ < 𝑡𝑚
važi:
𝐹𝑋 𝑥1 𝑡1 , … , 𝑥𝑚 𝑡𝑚 = 𝐹𝑋 𝑥1 𝑡1 + 𝜏 , … , 𝑥𝑚 𝑡𝑚 + 𝜏
Nezavisni, identično raspodeljeni slučajni procesi su stacionarni:

• Stacionarnost reda M važi ako je ispunjena stroga
stacionarnost za svaku 𝑚-torku 𝑚 ≤ 𝑀
• Slaba stacionarnost (stacionarnost u širem smislu)
𝑚𝑋 𝑡 = 𝑐𝑜𝑛𝑠𝑡
𝑅𝑋 𝑡1 , 𝑡2 = 𝑅𝑋 𝑡2 − 𝑡1
• Osobine 𝑅𝑋 𝜏 slabo stacionarnih procesa

1) 𝑅𝑋 0 = 𝜎𝑋2
2) 𝑅𝑋 𝜏 = 𝑅𝑋 −𝜏 ; Ψ𝑋 𝜏 = Ψ𝑋 −𝜏
3) 𝑅𝑋 𝜏 ≤ 𝑅𝑋 0
4) lim 𝑅𝑋 𝜏 = 0
𝜏→∞
Ergodičnost
• Proces je ergodičan po nekoj funkciji 𝑔 𝑋 𝑡 ako je usrednjavanje po
ansamblu 𝐸 𝑔 𝑋 𝑡 jednako usrednjavanju po jednoj realizaciji 𝑋 𝑖 𝑡 :
1 𝑇/2
𝑔 𝑋 𝑡 = lim ‫׬‬−𝑇/2 𝑔 𝑋 𝑖 𝑡 𝑑𝑡
𝑇→∞𝑇
Ergodičnost
Primer: Slabo stacionaran proces 𝑋 𝑡 je ergodičan po srednjoj
vrednosti
Ergodičnost
Primer: Zaproces 𝑋 𝑡 = 𝐴 cos 𝑎𝑡 + 𝜃 , 𝜃~𝑈 0,2𝜋
a) Proveriti stacionarnost u širokom smislu
b) Proveriti ergodičnost po srednjoj vrednosti 𝑔 𝑋 𝑡 =𝑋 𝑡
c) Proveriti ergodičnost po kovarijansi 𝑔 𝑋 𝑡 = 𝑋 𝑡 − 𝑚𝑋 𝑡 ൫𝑋ሺ𝑡 +
𝜏ሻ − 𝑚𝑋 𝑡 + 𝜏 ൯
Gausovi procesi
• Proces je Gausov (normalan) ako ∀𝑛 ∈ 𝑁 i ∀ 𝑡1 , … , 𝑡𝑛 ∈ 𝑇 𝑛 važi:
1 1
𝑓𝑋 𝑥1 , … , 𝑥𝑛 = exp − 𝒙 − 𝒙 ഥ 𝑇 𝑅𝑋−1 𝒙 − 𝒙
ഥ ,
𝑛
2𝜋 det 𝑅𝑋 2
gde je 𝒙 = 𝑥1 ⋯ 𝑥𝑛 𝑇 i
var 𝑋1 cov 𝑋1 , 𝑋2 ⋯ cov 𝑋1 , 𝑋𝑛
ഥ 𝒙−𝒙
𝑅𝑋 = 𝐸 𝒙 − 𝒙 ഥ 𝑇 = ⋮ ⋱ ⋮
cov 𝑋𝑛 , 𝑋1 cov 𝑋𝑛 , 𝑋2 ⋯ var 𝑋𝑛
Markovljevi procesi
Definicija: Markovljev proces je je proces kod kojeg za ∀𝑚, ∀𝑡1 <
⋯ < 𝑡𝑚 < 𝑡 ∈ 𝑇 važi
𝑃 𝑋 𝑡 ≤ 𝑥|𝑋 𝑡1 = 𝑥1 , … , 𝑋 𝑡𝑚 = 𝑥𝑚
= 𝑃 𝑋 𝑡 ≤ 𝑥|𝑋 𝑡𝑚 = 𝑥𝑚
• Markovljev proces je u potpunosti određen početnom

raspodelom i raspodelama koje opisuju prelazak iz početnog u
naredno stanje:
Markovljevi procesi
Primer: Da li je Poasonov proces Markovljev?
Spektralna reprezentacija slučajnog
procesa
• Spektralna gustina srednje snage procesa:
𝑆 𝑗𝜔 = 𝐸 𝑋 𝑗𝜔 2
Wiener-Khinchin teorema
Teorema: Ako je 𝑋 𝑡, 𝜔 slabo stacionaran proces, spektralna
gustina snage i autokorelaciona funkcija predstavljaju Furijeov
transformacioni par
∞
𝑆𝑋 𝑗𝜔 = න Ψ𝑋 𝜏 𝑒 −𝑗𝜔𝜏 𝑑𝜏
−∞
∞
1
Ψ𝑋 𝜏 = න S𝑋 𝑗𝜔 𝑒 𝑗𝜔𝜏 𝑑𝜔
2𝜋 −∞
• Diskretni slučajni proces:
∞
𝑆𝑋 𝜔 = 𝑍 Ψ𝑋 𝑛 ቚ = ෍ Ψ𝑋 𝑛 𝑧 −𝑛 ቚ
𝑧=𝑒 𝑗𝜔 𝑧=𝑒 𝑗𝜔
𝑛=−∞
Ψ𝑋 𝑛 = 𝑍 −1 𝑆𝑋 𝑧
procesa
• Srednja snaga signala:
∞
1
𝐸 𝑋 2 𝑡 = Ψ𝑋 0 = න 𝑆𝑋 𝑗𝜔 𝑑𝜔
2𝜋 −∞
• Prosečna snaga slučajnog procesa 𝑋 u delu spektra 𝜔 ∈
𝜔1 , 𝜔2
1 𝜔2
𝑆 𝜔1 ,𝜔2 = න 𝑆𝑋 𝑗𝜔 𝑑𝜔
2𝜋 𝜔1
procesa
Primeri:
Spektralna faktorizacija
Nepomereni estimatori minimalne varijanse
8
Nepomerenost estimatora
I Razmatramo determinističke parametre.
I Nepomeren estimator θ̂ = g (x) u proseku daje tačno θ
Z
E θ̂ = g (x)p(x; θ) dx = θ, ∀θ
I Pomeraj estimatora ukazuje na sistematsku grešku

b(θ) = E θ̂ − θ
I Primer: konstanta A u šumu w [n]
I Aritmetička sredina je nepomeren estimator
I U proseku, sledeći estimator daje tačnu vrednost za A = 0
N−1
1 X A
Ǎ = x[n], E Ǎ = =A=0
2N n=0 2
ali nije nepomeren, jer nije E Ǎ = A za svako A:

A
b(A) = E Ǎ − A = −
2
9
10
Minimizacija srednje-kvadratne greške
I Koji estimator je poželjniji

I pomeren estimator sa malom varijansom
I nepomeren estimator sa velikom varijansom
I Kriterijum srednje-kvadratne greške (SKG)
2
mse θ̂ = E θ̂ − θ
h i2
= E θ̂ − E θ̂ + E θ̂ − θ
2 2
= E θ̂ − E θ̂ + 2(E θ̂ − θ) E(θ̂ − E θ̂) + E E θ̂ − θ
= var θ̂ + b 2 (θ)
I U opštem slučaju, minimizacija SKG nije praktično izvodljiva.
11
I Konstanta A u belom šumu:
a
PN−1
I Usvajamo Â = N n=0 x[n]
a2 σ 2
E Â = aA, b(A) = (a − 1)A, var Â =
N
I Biramo a tako da minimiziramo SKG
a2 σ 2 d mse Â 2aσ 2
mse Â = + (a − 1)2 A2 , = + 2(a − 1)A2
N da N
A2
aopt = 2
A + σ 2 /N
I Optimalno a zavisi od A koje treba estimirati!
I Praktično izvodljiv pristup:
I razmatramo samo klasu nepomerenih estimatora
I izaberemo onaj sa minimalnom varijansom
I dobijamo nepomeren estimator minimalne varijanse (NEMV)
12
13
Postojanje NEMV
I Da li je uvek moguće odrediti NEMV? Ne :(
I Nekada nije moguće odrediti ni nepomeren estimator.
I Primer: x ∼ U[0, 1/θ], proceniti θ na osnovu 1 merenja
Z 1/θ Z 1/θ
E θ̂ = θ g (x) dx = θ ⇔ g (x) dx = 1
0 0
ali ovaj integral ne može biti 1 za svako θ.

I Primer kada postoje nepomereni, ali ne i uniformno najbolji ∀θ
(
N (θ, 1), θ ≥ 0
x[0] ∼ N (θ, 1), x[1] ∼
N (θ, 2), θ < 0
θ̂1 = 12 x[0] + 12 x[1], θ̂2 = 23 x[0] + 13 x[1]
θ≥0
var θ̂1 ≶ var θ̂2
θ<0
14
Pristupi nalaženju NEMV
1. Cramer-Rao-ova donja granica (CRDG)

I CRDG je min ostvariva var bilo kog nepomerenog estimatora
I ako neki estimator dostiže CRDG ∀θ, on mora biti NEMV
2. Rao-Blackwell-Lehmann-Scheffe teorema (RBLST)
I dovoljna statistika – f-ja merenja koja čuva svu informaciju o θ
I odrediti f-ju DS koja je nepomeren estimator za θ
3. Najbolji linearni nepomereni estimator (NLNE)
I razmatramo samo klasu linearnih estimatora
I dobijeni estimator je u opštem slučaju suboptimalan
15
Uvod u teoriju estimacije
1
Pojam i primene
I Procena vrednosti parametara iz zašumljenih merenja
θ̂ = g (x[0], . . . , x[N − 1])
I Matematički, θ̂ je slučajna promenljiva.

I Primene:
I radar
I sonar
I govor
I analiza slike
I biomedicina
I upravljanje
I mašinsko učenje
2
Matematička formulacija
I Primer: tačna pozicija θ, GPS merenje x, beo Gaussov šum w
1 (x−θ)2
x = θ + w, p(x; θ) = √ e − 2σ2
2πσ
I Primer: modelovanje cene akcije na berzi
T
x[n] = A + Bn + w [n], θ= A B
N−1
!
1 1 X
p(x; θ) = exp (x[n] − A − Bn)2
(2πσ 2 )N/2 2σ 2
n=0
I Model (funkcija gustine verovatnoće, FGV) treba da

I konzistentan sa predznanjem o problemu,
I dovoljno jednostavan
3
Mera kvaliteta estimacije
I Primer: konstanta A u belom šumu w [n] varijanse σ 2
x[n] = A + w [n], n = 0, . . . , N − 1
I Dva validna estimatora:

N−1
1 X
Â1 = x[n], Â2 = x[0]
N
n=0
I Za neku konkretnu realizaciju možemo imati
|A − Â1 | > |A − Â2 |
I Poređenje moramo vršiti statistički:

I uzmemo više uzoraka od po N odbiraka
I za svaki uzorak sračunamo Â1 i Â2
I odredimo koji je bio bolji za većinu uzoraka
4
I Kakve su prosečne procene svakog estimatora?
N−1
1 X 1
E Â1 = E x[n] = NA = A
N N
i=0
E Â2 = E x[0] = A
Podjednako su dobre!
I Kolike su prosečne srednje-kvadratne greške?
N−1
!2
1 X σ2
var Â1 = E (x[n] − A) =
N N
i=0
var Â2 = E (x[0] − A)2 = σ 2
Â1 je u proseku mnogo bliži tačnoj vrednosti!
5
Bayesovska estimacija
I Nepoznate parametre θ možemo posmatrati kao
1. determinisane (fiksirane), ali nama nepoznate vrednosti, ili kao
2. realizacija slučajnog vektora
I Pristup 2 nazivamo Bayesovskim.
I Bayesovski pristup omogućava ugradnju predznanja.
I Primer: konstanta A u belom šumu w [n].
I Ako znamo da je A ∈ [0, 2], možemo usvojiti apriornu FGV
p(A) = 1/2, A ∈ [0, 2]

I Za konkretno A, uslovna FGV merenja je
N−1
!
1 1 X
p(x | A) = exp (x[n] − A)2
(2πσ 2 )N/2 2σ 2 n=0
I Uslovna FGV vrednosti parametra, za date opservacije

p(x | A)p(A)
p(A | x) = R
A
p(x | A)p(A) dA
6
7
Linearni gaussovski modeli
40
Definicija linearnog gaussovskog modela
I Linearni model sa poznatom opservacionom matricom H
x = Hθ + w (4.1)
I x = x[0] · · · x[N − 1] T je vektor opservacija

I θ = θ1 · · · θp T je vektor nepoznatih parametara

I w = w [0] · · · w [N − 1] T je Gaussov šum

I Pretpostavka: šum je beo Gaussov, w ∼ N (0, σ 2 I)

I Primer: modelovanje cene akcije na berzi
x[n] = θ0 + θ1 n + w [n], n = 0, . . . , N − 1
     
x[0] 1 0 w [0]
..   .. ..  θ0 +  ..
 = .
 
 . .  θ  . 
1
x[N − 1] 1 N − 1 |{z} w [N − 1]
| {z } | {z } θ | {z }
x H w
41
I Prema Cramer-Raoovoj teoremi, NEMV postoji ako je
∂ ln p(x; θ)
= I(θ) [g(x) − θ] (4.2)
∂θ
I Pravila diferenciranja (b je vektor, A simetrična matrica)
∂bT θ ∂θT Aθ
= b, = 2Aθ
∂θ ∂θ
I Za (4.1) sa BGŠ je x ∼ N (Hθ, σ 2 I)
N 1
ln p(x; θ) = − ln(2πσ 2 ) − 2 (x − Hθ)T (x − Hθ)
2 2σ
∂ ln p(x; θ) 1
= 2 HT x − HT Hθ
∂θ σ
42
I Tipično je N > p (više opservacija nego nepoznatih)
I Za rang HT H ≡ rang H = p, postoji (HT H)−1 , pa je
 
∂ ln p(x; θ) 1
= 2 HT H (HT H)−1 HT x −θ
 
∂θ σ
| {z } | {z }
g(x)
I(θ)
I Poređenjem sa (4.2) dobijamo efikasni estimator

−1
θ̂ = g(x) = HT H HT x
−1
Cθ̂ = I−1 (θ) = σ 2 HT H
I θ̂ je nepomeren
−1
E θ̂ = HT H HT |{z}
Ex = θ
Hθ
43
I Primer: linearna regresija
x[n] = θ0 + n θ1 + w [n], n = 0, . . . , N − 1
rang H = 2, x̂[n] = θ̂0 + θ̂1 n
I Primer: polinomijalna regresija
x[n] = θ0 + θ1 n + · · · + θp np + w [n]
[H]n,: = 1 n · · · np , n = 0, . . . , N − 1

I Identifikacija impulsnog odziva LVI sistema

p−1
X
x[n] = θ[n] ∗ u[n] + w [n] = θ[k]u[n − k] + w [n]
k=0
 
u[0] 0 ··· 0
 u[1] u[0] ··· 0 
H= .. .. ..
 
.. 
 . . . . 
u[N − 1] u[N − 2] · · · u[N − p]
44
Uslov invertibilnosti
I HN×p tipično ima više vrsta nego kolona

I rang H = p znači da kolone treba da budu linearno nezavisne
I Primer kada ovaj uslov nije ispunjen
 
1 1
H =  ... ... 
 
1 1
I U ovom slučaju je
x[n] = θ1 + θ2 + w [n], ∀n
I Rešenje po θ nije jednoznačno, čak i bez šuma
45
Obojeni šum
I Obojeni šum: w ∼ N (0, C)
I Za C > 0 važi C−1 > 0, pa postoji invertibilno D tako da
C−1 = DT D
D možemo efikasno naći pomoću Cholesky dekompozicije, npr

I “Izbeljivanje” šuma: w0 = Dw

C0 = E (Dw)(Dw)T = DCDT = D(DT D)−1 DT = I
I Transformacijom x0 = Dx dobijamo signal u belom šumu
x0 = DHθ + w0 = H0 θ + w0
−1 −1
θ̂ = HT DT DH HT DT x0 = HT C−1 H HT C−1 x
−1 −1
T
Cθ̂ = H0 H0 = HT C−1 H
46
I Konstanta u nestacionarnom nekorelisnom Gaussovom šumu
x[n] = A + w [n], x = A1 + w
w [n] ∼ N (0, σn2 ), C = diag(σ02 , . . . , σN−1
2
)
−1
Â = 1T C−1 1 1T C−1 x
N−1
!−1 N−1
X X x[n]
−2
= σn
σn2
n=0 n=0
Merenje x[n] je otežinjeno inverzno proporcionalno varijansi σn2

I Signal sa poznatom komponentom s
x = Hθ + s + w
x0 = x − s
−1 −1
θ̂ = HT H HT (x − s), Cθ̂ = σ 2 HT H
47
Rezime
I Linearan gaussovski model
x = Hθ + w, w ∼ N (0, I)
I Primena Cramer-Raoove teoreme
∇l(θ) = I(θ) [g(x) − θ]

−1
θ̂ = g(x) = HT H HT x
−1
Cθ̂ = I−1 (θ) = σ 2 HT H
I Postojanje pseudo-inverzije
I Obojeni šum: predizbeljivanje
48
Najbolji linearan nepomeren estimator
(Best Linear Unbiased Estimator, BLUE)
61
Motivacija
I Za nepoznato p(x; θ), ni CRT ni RBLST nisu primenljive
I I kada imamo p(x; θ), CRT i RBLST mogu biti neprimenjive
I Tada “pristajemo” na (potencijalno) suboptimalno rešenje
I Usvajamo da je θ̂ (inkrementalno) linearna f-ja od x
N−1
X
θ̂ = an x[n] = aT x
n=0
I Biramo an tako da je E θ̂ = θ a var θ̂ minimalno

I Rezultat je NLNE
I Za procenu E θ̂ i var θ̂ dovoljni su E x i cov x
I Bez p(x; θ) ne možemo znati koliko je var θ̂ blizu optimuma
I NLNE je nekada neadekvatan; npr E x[n] = 0, θ = var x[n]
PN−1
I svaki linearni estimator je pomeren E n=0 an x[n] = 0
I međutim, NLNE je smislen za y [n] = x 2 [n]
62
Uslov nepomerenosti
I Uslov nepomerenosti za θ̂ = aT x je
N−1
X
E θ̂ = an E x[n] = θ
n=0
I Generalno, ovo je moguće za E x[n] = θ s[n], uz poznato s[n].

I Kontra-primer:
N−1
?
X
E x[n] = cos θ, E θ̂ = cos θ an = θ
n=0
I Interpretacija: signal s[n] nepoznate amplitude θ u šumu
x[n] = E x[n] + x[n] − E x[n]

| {z } | {z }
θ s[n] “šum” w [n]
63
Nalaženje NLNE
I Varijansa linearnog nepomerenog estimatora (C , cov x)
h i
var θ̂ = var aT (x − E x) = aT C a (6.1)
I Za E x = θ s, uslov nepomerenosti je
E θ̂ = θ aT s = θ ⇔ aT s = 1 (6.2)
I Minimiziramo (6.1) pod uslovom (6.2)

L(a, λ) = aT C a + λ aT s − 1
λ
∇a L = 2 C a + λ s = 0 ⇒ a = − C−1 s
2
λ λ 1
1 = sT a = − sT C−1 s ⇒ − = T −1
2 2 s C s
C−1 s 1
aopt = , var θ̂ = aT
opt C aopt =
sT C−1 s sT C−1 s
64
Vektorski slučaj
I Estimator za θp×1 je linearna kombinacija opservacija x
N−1
X
θ̂ = A x ⇔ θ̂i = ain x[n], i = 1, . . . , p
n=0
I Uslov nepomerenosti je moguće ispuniti samo za E x = H θ
E θ̂ = A E x = A H θ, E θ̂ = θ ⇔ AH = I
I Neka su aT
i vrste od A, a hi kolone od H. Iz A H = I sledi
aT
i hj = δij , j = 1, . . . , p (6.3)
I Za C , cov x i ∀i, treba pod uslovom (6.3) minimizirati
var θ̂i = [A C AT ]ii = aT

i C ai (6.4)
65
I Za svako i imamo p ograničenja (6.3), pa je Lagranžijan
p
(i)
X
Ji (ai ) = aT
i C ai + λj hT
j ai − δij
j=1
I Kao u skalarnom slučaju, za λ(i) , [λ(i) (i) T

1 · · · λp ] dobijamo
p
(i)
X
∇ai Ji (ai ) = 2 C ai + λj hj = 2 C ai + H λ(i) = 0,
j=1
1
ai = − C−1 H λ(i) (6.5)
2
I Za ort-vektor ei ([ei ]j = δij ), (6.3) je isto kao HT ai = ei .
I Iz (6.5) dobijamo Lagranžov multiplikator
1 1 −1
HT ai = − HT C−1 H λ(i) = ei , − λ(i) = HT C−1 H ei
2 2
66
I Zamenom u (6.5) dobijamo
−1
aT T
i = ei HT C−1 H HT C−1
−1
A = HT C−1 H HT C−1
I Konačna estimacija i njena varijansa (iz (6.4)) su

−1
θ̂ = HT C−1 H HT C−1 x
−1 (6.6)
Cθ̂ = HT C−1 H
I NEMV je upravo oblika (6.6) ako je model linearan Gaussov
x = H θ + w, w ∼ N (0, C)
Dakle, za ove modele NLNE je optimalan, tj. NLNE = NEMV
67
Rezime
I Motivacija: dovoljni E x i cov x

I Primenjivost: uslov nepomerenosti E x = θs
I Nalaženje: uslovna minimizacija varijanse

L(a, λ) = aT C a + λ aT s − 1
I NLNE = NEMV za linearne Gaussove modele
68
Bayesovska filozofija
78
Definicija i motivacija
I Klasičan pristup: θ je determinističan ali nepoznat

I Bayesovski pristup: θ tretiramo kao slučajnu promenljivu
I Monte Carlo simulacija u klasičnom slučaju
I izaberemo jedno fiksno θ
I svaka realizacija niza opservacija x koristi isto θ
I rezultati zavise od izabranog θ
I Monte Carlo simulacija u Bayesovskom slučaju
I za svaku realizaciju se iznova uzorkuje p(θ)
I rezultati su “uprosečeni” po mogućim vrednostima za θ
I Potencijalne prednosti Bayesovskog pristupa
I ugradnja dostupnog predznanja kroz p(θ)
I nalazi “prosečno” najbolji estimator kada ne postoji NEMV
79
Aposteriorna fgv
p(x | θ)p(θ)
p(θ | x) =
p(x)
Primer:
A ∼ N (0, 1), x | A ∼ N (A, 1)

(x−A)2 A2
p(A | x) ∝ e − e− 2
2

x 2
∝ exp − A −
2

x 1
A|x ∼ N ,
2 2
80
Bayesovska srednje-kvadratna greška (BSKG)
I Minimizacija klasične srednje-kvadratne greške (SKG)

Z h i2
2
mse θ̂ = E(θ̂ − θ) = θ̂(x) − θ p(x; θ) dx
nije praktično izvodljiva, jer mse generalno zavisi od θ

I Bayesovska SKG je “uprosečena” po θ
ZZ h i2
2
Bmse θ̂ = E(θ − θ̂) = θ − θ̂(x) p(x, θ) dx dθ
i ne zavisi od θ, pa njena minimizacija jeste praktično izvodljiva
81
Estimator minimalne srednje-kvadratne greške (EMSKG)
I Iz p(x, θ) = p(θ | x) p(x) sledi
Z Z h i2
Bmse θ̂ = θ − θ̂ p(θ | x) dθ p(x) dx
I Iz p(x) ≥ 0 sledi da je dovoljno minimizirati izraz u zagradi ∀x

Z h i2
arg min Bmse θ̂ = arg min θ − θ̂ p(θ | x) dθ
θ̂ θ̂
I Izjednačavamo sa nulom izvod integrala sa desne strane

Z Z
θ̂ p(θ | x) dθ = θ̂ = θ p(θ | x) dθ
θ̂ = E (θ | x)
82
Primer: konstanta u belom Gaussovom šumu
I Pretpostavka: znamo samo da je A ∈ [−A0 , A0 ], pa usvajamo
p(A) ∼ U[−A0 , A0 ]
I Uvodimo oznaku φ(x; µ, Σ) za FGV od x ∼ N (µ, Σ)
p(x | A) = φ(x; A 1, σ 2 I)
(
1
φ A; x̄, σ 2 /N , |A| ≤ A0

p(x | A) p(A) c
p(A | x) = =
p(x) 0, |A| > A0
Z A0
c= φ(A; x̄, σ 2 /N) dA
−A0
I p(A | x) je “odsečena” normalna FGV, sa max u x̄
83
(
1
φ A; x̄, σ 2 /N , |A| ≤ A0

p(A | x) = c
0, |A| > A0
84
I Za konačno N, EMSKG je pomeren (0 < |Â| < |x̄|)
I apriorno znanje A ∼ U[−A0 , A0 ] “povlači” estimaciju ka nuli
I opservacije x “povlače” estimaciju ka x̄
I Za veliko N, var aposteriorne FGV σ 2 /N teži nuli
I p(A | x) je skoncentrisano u neposrednoj blizini x̄
I “odsecanje” na [−A0 , A0 ] nema efekta
I apriorno znanje gubi na značaju (podaci ga “zatrpavaju”)
I estimacija je asimptotski nepomerena
85
I Problem: integracija, pogotovu u vektorskom slučaju θp×1
I p-dim integracija da bismo dobili p(x)
Z
p(x) = p(x | θ) p(θ) dθ
I dodatna p-dim integracija da bismo dobili EMSKG
p(x | θ) p(θ)
Z
θ̂ = θ dθ
p(x)
86
Izbor apriorne FGV
I Za adekvatno p(θ), rešenje ima zatvorenu formu

I Primer: konstanta u šumu, x | A ∼ N (A 1, σ 2 I)
p(A) = φ(A; µA , σA2 ), µA = 0, σA = 3 A0
Posle “kraćeg” izvođenja se pokazuje da je

2
p(A | x) = φ(A; µA|x , σA|x )
−1
2 N 1 N µA 2
σA|x = + , µA|x = x̄ + 2 σA|x
σ 2 σA2 σ2 σA
σA2
Â = µA|x = α x̄ + (1 − α) µA , α= σ2
σA2 + N
87
−1
2 N 1 N µA 2
σA|x = + , µA|x = x̄ + 2 σA|x
σ 2 σA2 σ2 σA
I za malo N je p(A | x) ≈ p(A)

I za veliko N, p(A | x) ≈ φ(A; x̄, σ 2 /N)
I bez apriornog znanja: σA2 → ∞, p(A | x) = φ(A; x̄, σ 2 /N), ∀N
88
I U opštem slučaju, Bayesovska SKG za EMSKG je
Bmse θ̂ = E [θ − E (θ | x)]2
Z Z
= [θ − E (θ | x)]2 p(θ | x) dθ p(x) dx
Z
= var(θ | x) p(x) dx
2 ne zavisi od x, pa je
I Za prethodni primer, var(A | x) = σA|x
−1
σ2 σA2

2 N 1
Bmse Â = σA|x = + 2 =
σ 2 σA N σA2 + σ2
N
σ2
Bmse Âemskg < mse Ânemv =
N
89
I EMSKG ima manju SKG od NEMV uprosečeno po A
I Za neko konkretno, fiksno A ovo ne mora biti slučaj
b(Âemskg ) = α A + (1 − α) µA − A,
σ2
var Âemskg = α2 var x̄ = α2 ,
N
mse Âemskg = var Âemskg + b 2 (Âemskg )
σ2
= α2 + (1 − α)2 (µA − A)2
N
Za veliko |µA − A|, možemo imati
σ2
mse Âemskg > mse Ânemv =
N
90
Osobine Gaussove FGV
I Za združeno normalne vektore x i θ sa

Ex Cx Cxθ
(x, θ) ∼ N ,
Eθ Cθx Cθ
aposteriorna raspodela θ | x je normalna, sa
µθ|x = E θ + Cθx C−1

x (x − E x)
Cθ|x = Cθ − Cθx C−1
x Cxθ
I U skalarnom slučaju, dobijamo

cov(x, θ)
µθ|x = E θ + (x − E x)
var x
cov2 (x, θ)
= 1 − ρ2 var θ

var(θ | x) = var θ −
var x
I EMSKG θ̂ = µθ|x je inkrementalno linearna f-ja od x

I var(θ | x) < var θ, a umanjenje raste sa ρ = √cov(x,θ)
var θ var x
91
Bayesovski linearan model
I Linearni gaussovsko-bayesovski model: nezavisni θ i w
x = H θ + w, θ ∼ N (µθ , Cθ ), w ∼ N (0, Cw )
I x i θ združeno normalni, jer je

Hθ + w H I θ
z, =
θ I 0 w
linearna kombinacija nezavisnih normalnih vektora θ i w

n o
Cx = E [H (θ − µθ ) + w] [H (θ − µθ ) + w]T
= H Cθ HT + Cw ,
n o
Cθx = E (θ − µθ ) [H (θ − µθ ) + w]T = Cθ HT
92
I p(θ | x) za bayesovski linearan model je normalna, sa
−1
µθ|x = µθ + Cθ HT H Cθ HT + Cw (x − H µθ ) (8.1)
−1
Cθ|x = Cθ − Cθ HT H Cθ HT + Cw H Cθ (8.2)
I Lema o inverziji matrica daje alternativnu formu za Cθ|x

−1
(A + U B V)−1 = A−1 − A−1 U V A−1 U + B−1 V A−1
A−1 = Cθ , V = UT = H, B−1 = Cw
C−1 −1 T −1
θ|x = Cθ + H Cw H (8.3)
93
I Uvodimo oznaku S , H Cθ HT + Cw

Cθ|x HT = Cθ − Cθ HT S−1 H Cθ HT (iz (8.2))
h i
= Cθ HT I − S−1 H Cθ HT
h i
= Cθ HT S−1 S − H Cθ HT (iz I = S−1 S)
= Cθ HT S−1 Cw
Odavde dobijamo alternativnu formu za µθ|x
µθ|x = µθ + Cθ HT S−1 (x − H µθ )
= µθ + Cθ|x HT C−1
w (x − H µθ )
94
Neželjeni parametri
I Recimo da FGV x zavisi od θ i α, a nas zanima samo θ

I α je “neželjeni” (ometajući) parametar
I Klasični estimatori moraju da procene i θ i α
I Bayesovski estimator može da “izintegrali” α
Z
p(x | θ) = p(x | θ, α) p(α | θ) dα
nakon čega EMSKG nalazimo na standardni način

I Ako su α i θ nezavisni
Z
p(x | θ) = p(x | θ, α) p(α) dα
95
Estimator maksimalne verodostojnosti
(Maximum Likelihood Estimator, MLE)
1
Definicija
I Motivacija: recimo da
I znamo p(x; θ)
I ne možemo faktorisati l 0 (θ) kao I(θ)(θ̂(x) − θ)
I Estimator maksimalne verodostojnosti (EMV)
θ̂ = arg max p(x; θ) = arg max L(θ) = arg max l(θ)

θ θ θ
traži θ tako da maksimizira verovatnoću dobijenih opservacija

I EMV koristimo ako NEMV ne možemo naći iz CRT ili RBLST
I EMV je nekada efikasan. Za konstantu u Gaussovom šumu
N−1
N 1 X
l(A) = − ln(2πσ) − 2 (x[n] − A)2
2 2σ
n=0
0
l (A) = 0 ⇒ Âemv = x̄ = Ânemv
I Generalno, nema garancije optimalnosti za konačno N

2
Primer:
N
X
x[n] ∼ Bernoulli(φ), N1 = x[n], N0 = N − N 1
i=1
L(φ) = φN1 (1 − φ)N0
3
Osobine EMV
I Ako su l 0 (θ) i l 00 (θ) definisani, I(θ) 6= 0 i E l 0 (θ) = 0, važi
a
θ̂emv ∼ N (θ, I −1 (θ)) za N → ∞
odnosno EMV je asimptotski normalan, nepomeren i efikasan
I Primer: konstanta A u Gaussovom šumu varijanse A
N−1
N 1 X
l(A) = − ln(2πA) − (x[n] − A)2
2 2A
n=0
N−1 N−1
N 1 X 1 X
l 0 (A) = − + (x[n] − A) + (x[n] − A)2
2A A 2A2
n=0 n=0
N−1
1 X
l 0 (Â) = 0 ⇒ Â2 + Â − x 2 [n] = 0
N
n=0
v
u N−1 !
1 u 1 X 2 1 a A2
Â = − + t x [n] + ∼ N A,
2 N 4
n=0
N(A + 12 )
4
N−1
N 1 X
l(A) = − ln(2πA) − (x[n] − A)2
2 2A
n=0
5
v
u N−1 !
1 u 1 X 2 1 a A2
Â = − + t x [n] + ∼ N A,
2 N
n=0
4 N(A + 21 )
6
Numerička maksimizacija verodostojnosti
I Za θ ∈ [a, b], max možemo naći računajući p(x; θ) za
a, a + ∆θ, a + 2∆θ, ..., b

I Inače koristimo, npr, Newton-Raphson ili metodu skorovanja
I Newton-Raphson u izvornom obliku traži nulu f-je
f (θk )
f (θk+1 ) ≈ f (θk ) + f 0 (θk )(θk+1 − θk ), θk+1 = θk −
f 0 (θk )
I Za max, iterativno tražimo nulu prvog izvoda
l 0 (θk )
θk+1 = θk −
l 00 (θk )
I Metoda skorovanja: manja zavisnost od konkretnog uzorka
l 00 (θ) → E l 00 (θ) = − I(θ), θk+1 = θk + I −1 (θ) l 0 (θ)
7
Linearna Bayesovska estimacija
108
Definicija
I Klasa inkrementalno linearnih estimatora

XN−1
θ̂ = an x[n] + aN = aT x + aN
n=0
I Linearni estimator minimalne SKG (LEMSKG)

2
arg min E θ − aT x − aN
aN ,a
I LEMSKG je generalno suboptimalan, i nije uvek smislen
109
Optimalni koeficijenti LEMSKG
I aN = 0 ako je E θ = E x[n] = 0; u opštem slučaju,
∂ Bmse θ̂
=0 ⇒ aN = E θ − aT E x
∂aN
I Ostale koeficijente a = [a0 · · · an ]T nalazimo minimizacijom

h i2
E aT (x − E x) − (θ − E θ) = aT Cx a − 2 cθx a + var θ
(10.1)
I Izjednačavajući gradijent po a sa nulom:
2 Cx a − 2 cxθ = 0 ⇒ a = C−1
x cxθ
110
I Kombinujući izraze za aN i a dobijamo LEMSKG
θ̂ = E θ + cθx C−1
x (x − E x) (10.2)
I Smenjujući (10.2) u (10.1):
Bmse θ̂ = var θ − cθx C−1

x cxθ (10.3)
I Isto kao u Gauss-Bayesovom linearnom modelu!
111
Geometrijska interpretacija
I Pretpostavljamo E θ = E x[n] = 0; u protivnom centriramo
θ0 , θ − E θ, x0 , x − E x
I Slučajne promenljive nultog očekivanja čine vektorski prostor
I Skalarni proizvod dat je korelacijom (= kovarijansom)
hθ, xi , E(θ x), kθk2 = E θ2 = var θ
I Ortogonalnost (= nekorelisanost)
θ⊥x ⇔ hθ, xi = 0
I Optimalno θ̂ je projekcija θ na x
d hθ, xi
E (θ − a x)2 = 0 ⇒ a =
da hx, xi

x x
θ̂ = θ, , projx θ
kxk kxk
112
Princip ortogonalnosti
I E x[n] = 0 ⇒ aN = 0, pa je θ̂ = aT x; minimiziramo
2
Bmse θ̂ = θ − aT x = kk2

I Princip ortogonalnosti: dužina vektora greške kk je najmanja

N−1
kada je ortogonalna na potprostor definisan sa {x[n]}n=0
⊥ x[0], . . . , x[N − 1] (10.4)
113
⊥ x[0], . . . , x[N − 1]
N−1
X
hx[m], θi = an hx[m], x[n]i, m = 0, . . . , N − 1
n=0
cxθ = Cx a ⇒ a = C−1
x cxθ , θ̂ = cθx C−1
x x
θ − θ̂ = ⊥ x[n], ∀n ⇒ hθ − θ̂, θ̂i = 0
Bmse θ̂ = hθ − θ̂, θ − θ̂i = hθ − θ̂, θi = var θ − cθx C−1
x cxθ
114
θ̂ = projx[0] θ + projx[1] θ (x[0] ⊥ x[1])
E(θx[0]) E(θx[1])
= x[0] + x[1]
E x 2 [0] E x 2 [0]
−1
E x 2 [0]

0 x[0]
= E(θx[0]) E(θx[1])
0 E x 2 [1] x[1]
= cθx C−1
x x
Isto kao (10.2) za E θ = 0, E x = 0

115
Vektorski LEMSKG
I Optimalni LEMSKG za θi , i = 1, . . . , p, je
θ̂i = E θi + cθi x C−1

x (x − E x)
Bmse θ̂i = var θi − cθi x C−1
x cxθi
I “Pakujući” optimalne estimacije u vektor, dobijamo
θ̂ = E θ + Cθx C−1
x (x − E x) (10.5)
Mθ̂ , Bmse θ̂ = Cθ − Cθx C−1
x Cxθ (10.6)
I Invarijantnost za linearne transformacije parametra
α = Aθ + b ⇒ α̂ = A θ̂ + b
I Za linearni, ne nužno Gaussovski model
x = Hθ + w
LEMSKG je dat sa (8.1) i (8.2) (bez obzira na oblik p(θ, x))
116
Sekvencijalni LEMSKG: motivacioni primer
Primer: korelisani x[0] i x[1]
I Estimacija samo na osnovu x[0]: θ̂[0] , projx[0] θ
I Kada bi bilo x[1] ⊥ x[0], na θ̂[0] bismo samo dodali projx[1] θ
I x[1] razlažemo na deo k x[0] i deo koji je ⊥ x[0]
E(x[1]x[0])
x̂[1|0] , projx[0] x[1] = x[0] (k x[0])
E x 2 [0]
x̃[1] , x[1] − x̂[1|0] (⊥ x[0])
I {x[0], x̃[1]} i {x[0], x[1]} definišu istu ravan, pa je
θ̂ = projx[0] θ + projx̃[1] θ (iz x[0] ⊥ x̃[1])

= θ̂[0] + projx̃[1] θ
I θ̂ ažuriramo sekvencijalno, ortogonalizacijom opservacija
117
Sekvencijalni LEMSKG: formalno izvođenje
I Pretpostavljamo linearni model sa belim šumom
x[n] = hT [n] θ + w [n], var w [n] = σn2
n−1
I Neka je θ̂[n − 1] LEMSKG na osnovu {x[k]}k=0
I Cilj: izraziti θ̂[n] preko θ̂[n − 1] (rekurzivna implementacija)
I Neka je x̂[n|n − 1] LEMSKG za x[n] na osnovu {x[k]}n−1 k=0
I Greška x̃[n] , x[n] − x̂[n|n − 1] se zove inovacija
I Iz principa ortogonalnosti (PO) sledi
x̃[n] ⊥ x[0], . . . , x[n − 1] ⇒ x̃[n] ⊥ θ̂i [n − 1], ∀i
jer je θ̂i [n − 1] linearna kombinacija od {x[k]}n−1

k=0
118
I θ̂i [n] je projekcija θi na lineal L(·) skupa X0:n , {x[k]}nk=0
I Kako je x̃[n] ⊥ L(X0:n−1 ), to je isto što i
hθi , x̃[n]i
θ̂i [n] = projL(X0:n−1 ) θi + projx̃[n] θi = θ̂i [n − 1] + x̃[n]
| {z } kx̃[n]k2
| {z }
θ̂i [n−1]
,ki [n]
I Iz w [n] ⊥ L(X0:n−1 ) i x̂[n|n − 1] = projL(X0:n−1 ) x[n] sledi

p
X
x̂[n|n − 1] = hi [n] projL(X0:n−1 ) θi + projL(X0:n−1 ) w [n]
i=1
T
= h [n] θ̂[n − 1],

x̃[n] = hT [n] θ − θ̂[n − 1] + w [n]
I Neka M[n − 1] označava kov mat od θ − θ̂[n − 1]
kx̃[n]k2 = hT [n] M[n − 1] h[n] + σn2 , (10.7)

119
I Ponovo koristimo θ̂i [n − 1] ⊥ {x̃[n], w [n]}, θi ⊥ w [n], ∀i
hθi , x̃[n]i = hθi − θ̂i [n − 1], x̃[n]i

= hθi − θ̂i [n − 1], (θ − θ̂[n − 1])T h[n] + w [n]i
D E
= θi − θ̂i [n − 1], (θ − θ̂[n − 1])T h[n],
T
hθ, x̃[n]i = E θ − θ̂[n − 1] θ − θ̂[n − 1] h[n]
= M[n − 1] h[n] (10.8)
I Konačno dobijamo izraz za ki [n], a odatle i za k[n]
hθi , x̃[n]i
ki [n] = ,
kx̃[n]k2
M[n − 1] h[n]
k[n] = T (10.9)
h [n] M[n − 1] h[n] + σn2
120
I Iz (10.9) i (10.7)
k[n] kx̃[n]k2 = M[n − 1] h[n],

I Iz θ̂i [n − 1] ⊥ x̃[n] i (10.8)
hθ − θ̂[n − 1], x̃[n]i = hθ, x̃[n]i = M[n − 1] h[n]

I Konačno dobijamo rekurzivnu relaciju za M[n]

M[n] = cov θ − θ̂[n]

= cov θ − θ̂[n − 1] − k[n] x̃[n]
h i
= M[n − 1] − E θ − θ̂[n − 1] x̃[n] kT [n]
T
− k[n] E x̃[n] θ − θ̂[n − 1]
+ k[n] kx̃[n]k2 kT [n]

= I − k[n] hT [n] M[n − 1]
121
I Pre prve opservacije imamo samo apriornu fgv, pa je
θ̂[−1] = E θ, M[−1] = Cθ
I Konačni rekurzivni LEMSKG

θ̂[n] = θ̂[n − 1] + k[n] x[n] − hT [n] θ̂[n − 1] (10.10)
M[n − 1] h[n]
k[n] = (10.11)
σn2 + hT [n] M[n − 1] h[n]

M[n] = I − k[n] hT [n] M[n − 1] (10.12)
122
Šta ako nemamo nulte srednje vrednosti?
I θ̂bsv označava LEMSKG kada je E θ = 0, E x = 0
I θ̂ssv je LEMSKG kada je E θ 6= 0, E x 6= 0
I M[n] ne zavisi od srednje vrednosti, pa relacija ostaje ista
I M[n] zavisi od k[n], pa ni k[n] ne zavisi od srednjih vrednosti
I LEMSKG za θ + b je θ̂ + b (invarijantnost za linearne trans.)
I Izveli smo LEMSKG za θ̂bsv na osnovu x − E x
I LEMSKG za θssv = θbsv + E θ je θ̂ssv = θ̂bsv + E θ
θ̂ssv [n] − E θ = θ̂ssv [n − 1] − E θ

h i
+ k[n] x[n] − E x[n] − hT [n] θ̂[n − 1] − E θ
I Iz E x[n] = hT [n] E θ dobijamo (10.10)

I Dakle, sve j-ne su potpuno iste i za E θ 6= 0, E x 6= 0
123
Wienerov filtar (WF)
I Wienerov filtar estimira s[n] iz zašumljenih merenja {x[k]}nk=0
x[k] = s[k] + w [k], E(s[i]w [j]) = 0
I Pretpostavka: x[n] i s[n] su slabo-stacionarni, sa
E x[n] = E s[n] = 0, [Cs ]i+k,i = rs [k]

[Cx ]i+k,i = rx [k] = rs [k] + rw [k], Cx = Cs + Cw
gde su rx [k] i rs [k] autokorelacione f-je

I Iz (10.2)–(10.3), za θ = s[n] i x = [x[0] · · · x[n]]T , sledi

T
cθx = E s[n]xT = rs [n] · · · rs [0] , rs0

T −1
ŝ[n] = cθx C−1 0
x x = rs (Cs + Cw ) x
| {z }
aT
124
I Interpretacija: ŝ[n] je odziv filtra sa impulsnim odzivom an−k
I Ali a se menja sa n, pa je filtar nestacionaran,
n
X n
X
ŝ[n] = aT x = ak x[k] = h(n) [n − k]x[k]
k=0 k=0
I h(n) [k]
je odziv na impuls od pre k perioda, u trenutku n
I Iz simetričnosti Cx i a = C−1 0
x rs dobijamo
   
a[n] rs [0]
Cx a = rs0 ⇒ Cx  ...  =  ... 
   
a[0] rs [n]
| {z } | {z }
,a0 ,rs
I Iz h(n) , [h(n) [0] · · · h(n) [n]]T = a0 slede Wiener-Hopfove j-ne

n
X
(n)
Cx h = rs ⇔ h(n) [k]rx [l − k] = rs [l], 0≤l ≤n
k=0
125
WF sa konačnim impulsnim odzivom
I Pretpostavka: vremenski-udaljeni odbirci su nekorelisani
rx [k] ≈ 0, rs [k] ≈ 0, |k| > N
I Dakle, x[n − k] ⊥ s[n] za |k| > N, pa je
h(n) [k] = projx[n−k] s[n] = 0, k >N
I Za dovoljno veliko n, Wiener-Hopfove j-ne se svode na

   (n)   
rx [0] ··· rx [N] h [0] rs [0]
 .. .. ..   ..  =  .. 
 . . .  .   .  (10.13)
rx [N] · · · rx [0] h(n) [N] rs [N]
I Rešenje po h(n) ne zavisi od n, pa (10.13) definiše stacionaran

filtar reda N sa konačnim impulsnim odzivom (FIR)
126
WF sa beskonačnim impulsnim odzivom
I Pretpostavka: raspoložive su opservacije {x[n − k]}∞
k=0
I LEMSKG ima oblik
X∞
ŝ[n] = h(n) [k]x[n − k]
k=0
I h(n) [·] biramo tako da bude s[n] − ŝ[n] ⊥ x[n − l], l ≥ 0 (PO)
h X∞ i
E s[n] − h(n) [k]x[n − k] x[n − l] = 0, l ≥ 0
k=0
I Iz w [n − l] ⊥ s[n] sledi E(s[n]x[n − l]) = rs [l], pa dobijamo
∞
X
h[k]rx [l − k] = rs [l], l ≥0 (10.14)
k=0
I Filtar je stacionaran (h(n) [k] = h[k]) jer u (10.14) ne figuriše n

I Ovo je i očekivano, s obzirom na slabu stacionarnost s[n] i x[n]
127
I (10.14) važi samo za l ≥ 0, pa ne možemo primeniti Z-trans
I Za nekorelisane opservacije jedinične varijanse, imali bismo
rx [l − k] = δ[l − k], h[l] = rs [l]
I Ali x[n] nije bela sekvenca, pa moramo primeniti izbeljivanje

I Beo proces v [n] je izlaz izbeljivača Q(z) pobuđenog sa x[n]
∞
X
Sx (z) , rx [k]z −k , 1 = Sv (z) = Q(z)Q(1/z)Sx (z)
k=−∞
I Sx (z) razložimo na proizvod kauzalnog i anti-kauzalnog dela
Sx (z) = Sx+ (z)Sx− (z)
gde su sve nule i polovi od Sx+ (z) unutar jediničnog kruga

I Zbog osobina autokorelacione f-je, uvek je Sx+ (z) = Sx− (1/z)
128
I Izbeljivač mora biti stabilan, pa je Q(z) = 1/Sx+ (z)
I ŝ[n] sada dobijamo iz v [n], primenom PO
h X∞ i
E s[n] − g [k]v [n − k] v [n − l] = 0, l ≥ 0
| k=0 {z }
ŝ[n]
P∞
Iz v [n] = m=0 q[m](s[n − m] + w [n − m]) i s[n] ⊥ w [n] sledi
∞
X
rsv [l] = E (s[n]v [n − l]) = q[m]rs [l + m]
m=0
v [n] je beo, sa E(v [n − k]v [n − l]) = δ[l − k], što daje

∞
X
g [l] = rsv [l] = q[m]rs [l + m], l ≥0 (10.15)
m=0
I Dvostrana Z-trans poslednjeg izraza sa desne strane je
∞ X
X ∞
Ssv (z) = q[m]z m rs [l + m]z −l−m = Q(1/z) Ss (z)
| {z }
l=−∞ m=0
=1/Sx− (z)
129
I Razlažemo Ssv (z) na sumu kauzalnog i antikauzalnog dela
X−1 X∞
Ssv (z) = rsv [l]z −k + rsv [l]z −k
l=−∞ l=0
| {z } | {z }
,[Ssv (z)]− ,[Ssv (z)]+
I Iz (10.15) je g [l] = Z −1 {Ssv (z)} za l ≥ 0, pa je

X∞
G (z) = g [l]z −k = [Ssv (z)]+
l=0
I WF sa beskonačnim impulsnim odzivom (IIR) H(z) je kaskada

1. izbeljivača V (z)/X (z) = Q(z) = Sx+ (z)
2. filtra G (z) = [Ssv (z)]+ za estimaciju s[n] iz izlaza izbeljivača
Sx (z) = Ss (z) + Sw (z) = Sx+ (z)Sx− (z)

− +
Ss (z) Ss (z) Ss (z)
Ssv (z) = − = +
Sx (z) Sx− (z) Sx− (z)
+
1 Ss (z)
H(z) = Q(z)G (z) = +
Sx (z) Sx− (z)
130
Rezime
I Klasa linearnih estimatora + minimizacija Bmse
θ̂ = aT x + aN
2
(a∗ , aN
∗
) = arg min E θ − θ̂
a,aN
I LEMSKG (= EMSKG za Gauss-Bayesov linearni model)
θ̂ = E θ + cθx C−1
x (x − E x)
Bmse θ̂ = var θ − cθx C−1
x cxθ
I Geometrijska interpretacija
I Princip ortogonalnosti
θ − θ̂ ⊥ x[0], . . . , x[N − 1]
I Vektorski slučaj
131
Opšta Bayesovska estimacija
96
Cena i rizik
I Greška estimacije
= θ − θ̂
za dato x i θ
I Cena C(·) težini greške
I kvadratna C() = 2
I apsolutna C() = ||
I “0/1” cena
(
0, || ≤ δ
C() =
1, || > δ
97
I Rizik je očekivana cena
Z Z
R = E C() = C(θ − θ̂) p(θ | x) dθ p(x) dx
I Optimalni estimator minimizira rizik

Z
θ̂∗ = arg min C(θ − θ̂) p(θ | x) dθ (9.1)
θ̂
I Za kvadratnu cenu, optimalan je EMSKG

Z
θ̂emskg = arg min (θ − θ̂)2 p(θ | x) dθ
θ̂
98
I Za apsolutnu cenu, integral iz (9.1) postaje
Z θ̂ Z ∞
(θ − θ̂) p(θ | x) dθ + (θ̂ − θ) p(θ | x) dθ
−∞ θ̂
I Izvod po θ̂ određujemo iz Leibnitzovog pravila

Z b(u) Z b(u)
∂ ∂h(u, v )
h(u, v ) dv = dv
∂u a(u) a(u) ∂u
+ b (u) h(u, b(u)) − a0 (u) h(u, a(u))
0
I Izjednačavanje izvoda sa nulom daje

Z θ̂ Z ∞
p(θ | x) dθ = p(θ | x) dθ
−∞ θ̂
I Optimalni estimator je medijana aposteriorne raspodele
99
I Za 0/1 cenu treba minimizirati
Z θ̂−δ Z ∞ Z θ̂+δ
p(θ | x) dθ + p(θ | x) dθ = 1 − p(θ | x) dθ
−∞ θ̂+δ θ̂−δ
I Za malo δ optimalni estimator je moda
θ̂∗ = arg max p(θ | x) = arg max p(x | θ) p(θ)

θ θ
I Ovo je “maximum a posteriori” (MAP) estimator

100
mode
50% 50%
median
mean
[wikipedia.org]
101
Osobine EMSKG
I Invarijantnost pri linearnim transformacijama parametra
α = A θ + b, θ̂ = E(θ | x), α̂ = E(α | x) = A θ̂ + b
I Aditivnost za nezavisne x1 i x2 u gaussovskom modelu

x1 E x1 Cx1 0
x= ∼N ,
x2 E x2 0 Cx2
−1
−1 Cx1 0
Cθx = Cθx1 Cθx2 , Cx = ,
0 C−1
x2
θ̂ = E θ + Cθx C−1
x (x − E x)
2
X (9.2)
= Eθ + Cθxi C−1
xi (xi − E xi )
i=1
102
I EMSKG za θi je i-ta komponenta vektora θ̂
θ̂i = E(θi | x) = [E(θ | x)]i

h i
Bmse θ̂i = var(θi | x) = Bmse θ̂
ii
I EMSKG θ̂ = Eθ|x (θ) je nepomeren, tj. srednja greška je 0

E = E(θ − Eθ|x (θ)) = Ex Eθ|x θ − Eθ|x (θ) = 0
I Varijansa greške je Bmse θ̂

2 2
var θ̂ = E θ̂ − E θ̂ = E θ̂ − θ = Bmse θ̂
103
I Mθ̂ , cov = E( T ) u vektorskom slučaju je
h i
Mθ̂ = Ex Eθ|x (θ − E(θ | x)) (θ − E(θ | x))T = Ex Cθ|x
I Za združeno normalne x i θ, i je normalno
= θ − µθ − Cθx C−1
x (x − E x) ∼ N (0, Mθ̂ )
Mθ̂ = Cθ − Cθx C−1
x Cxθ , Bmse θ̂i = var θ̂i = [Mθ̂ ]ii
104
Osobine MAPE
I MAPE ne zahteva integraciju, samo maksimizaciju
I Primer: konstanta A ∼ U[−A0 , A0 ] u belom Gaussovom šumu
(
1
φ A; x̄, σ 2 /N , |A| ≤ A0

p(A | x) = c
0, |A| > A0
(
sign(x̄) A0 , |x̄| > A0
Âmap =
x̄, |x̄| ≤ A0
105
U opštem slučaju, θ̂i 6= [θ̂]i . Kontra-primer

1
 6 , θ1 ∈ {[0, 2] ∪ [3, 5]}, θ2 ∈ [1, 2]

p(θ1 , θ2 | x) = 31 , θ1 ∈ [2, 3], θ2 ∈ [0, 1]

0, inače

1 2
p(θ2 | x) = [u(θ2 ) − u(θ2 − 1)] + [u(θ2 − 1) − u(θ2 − 2)]
3 3
θ̂2 ∈ [1, 2], [θ̂]2 ∈ [0, 1]
106
I MAPE nije invarijantan na transformaciju parametara. Primer:
p(x[n] | θ) = θ e −θ x[n] u(x[n]), p(θ) = λ e −λ θ u(θ)

λ −1

d
[ln p(x | θ) + ln p(θ)] = 0 ⇒ θ̂ = x̄ +
dθ N
I Recimo da nas zanima procena za α = θ−1
1 − x[n]
p(x[n] | α) = e α u(x[n])
α
pθ (θ(α)) λ λ
pα (α) = 0 = 2 e − α u(α)
|α (θ(α))| α
N x̄ + λ 1
α̂ = arg max p(x | α) pα (α) = 6=
α N +2 θ̂
I Izuzetak su linearne f-je α = a θ + b

1 α−b α−b
α̂ = arg max pθ p x = a θ̂ + b
α |a| a a
107
Kalmanov filter
132
Problem estimacije promenljivog signala
I Cilj: proceniti s[n] iz zašumljenih merenja x[n] = s[n] + w [n]
I Isti broj opservacija x[n] i nepoznatih s[n]!

133
Gauss-Markovljev model 1. reda
s[n] = a s[n − 1] + u[n], n≥0

s[−1] ∼ N (µs , σs2 )
u[n] ∼ N (0, σu2 )
cov(u[n], u[m]) = σu2 δnm
cov(s[−1], u[n]) = 0
I Snažno-korelisane procese modelujemo sa |a| ≈ 1 (ali |a| < 1)

I Slabo-korelisane procese modelujemo sa |a| 1
134
I Strogo govoreći, s[n] nije stacionaran
n
X
s[n] = an+1 s[−1] + ak u[n − k]
k=0
E s[n] = an+1 µs ,
cs [m, n] , cov(s[m], s[n])
(
am+n+2 σs2 + σu2 am−n nk=0 a2k , m ≥ n
P
=
cs [n, m], m<n
I Međutim, za |a| < 1, s[n] je asimptotski slabo-stacionaran
σu2
n→∞: E s[n] → 0, cs [m, n] → a|m−n| (11.1)
1 − a2
σu2
rss [k] , cs [n + k, n] = a|k| (11.2)
1 − a2
135
I Rekurzivna forma očekivanja i varijanse
E s[n] = E (a s[n − 1] + u[n]) = a E s[n − 1]

var s[n] = a2 var s[n − 1] + σu2
(s[n − 1] zavisi od s[−1], u[0 : n − 1], koji su nezavisni od u[n])
I Stacionarne (asimptotske) vrednosti (11.1) dobijamo stavljajući
E s[n] = E s[n − 1], var s[n] = var s[n − 1]
136
I Vektroski GMM (A, B i Q mogu zavisiti od n)
s[n] = A s[n − 1] + B u[n], n ≥ 0

E u[n] = 0, E u[m] uT [n] = Q δmn

s[−1] ∼ N (µs , Cs ), E s[−1] uT [n] = 0
I Očekivanje E s[n] i kovarijaciona matrica C[n] su

n
X
s[n] = An+1 s[−1] + Ak B u[n − k]
k=0
E s[n] = An+1 µs (11.3)
n
T X T
C[n] = An+1 Cs An+1 + Ak B Q BT Ak (11.4)
k=0
U rekurzivnoj formi
E s[n] = An+1 µs , C[n] = A C[n − 1] AT + B Q BT (11.5)
137
I U stacionarnom stanju, C je dato j-nom Ljapunova
C = A CAT + B Q BT
I Kada su sopstvene vrednosti od A unutar jediničnog kruga:
∞
X T
C = lim C[n] = Ak B Q BT Ak (iz (11.4))
n→∞
k=0
I Vektorski model pokriva i skalarne GM procese p-tog reda
p
X
s[n] = a[k] s[n − k] + u[n]
k=1
T
s[n] , s[n − p + 1] · · · s[n]
   
0 1 ··· 0 0
 0 0 ··· 0 
0
 
 .. . . .

s[n] =  . .. .. ..  s[n − 1] +  .. 
 
 u[n]
 .   
 0 0 ··· 1  0
a[p] a[p − 1] · · · a[1] 1
138
Skalarni Kalmanov filter (KF)
I GMM sa BGŠ merenja w [n], nezavisnim od s[−1] i u[n]
s[n] = a s[n − 1] + u[n]
x[n] = s[n] + w [n]
I Usvajamo s[−1] ∼ N (0, σs2 ), odakle sledi E s[n] = 0, n ≥ 0
I Notacija:
T
x0:n , x[0] · · · x[n] (vektor)
X0:n , {x[0], . . . , x[n]} (skup)
ŝ[n|n] , E (s[n] | x0:n ) (izlaz KF-a)
ŝ[n|n − 1] , E (s[n] | x0:n−1 ) (predikcija stanja)
x̂[n|n − 1] , E (x[n] | x0:n−1 ) (predikcija opservacije)
x̃[n] , x[n] − x̂[n|n − 1] (inovacija)
M[n|n − 1] , E (s[n] − ŝ[n|n − 1])2 (s.k.g.p.)
139
I KF = sekvencijalni EMSKG za s[n] iz {x[k]}nk=0
I Sve združene raspodele su normalne: EMSKG = LEMGKS
𝑠[1]
𝑥[1|0] 𝑥[0]
𝑠[1|0]
𝑠[1|1]
𝑥[1]
𝑥[1]
140
I U izvođenju koristimo sledeće osobine EMSKG
1. aditivnost nezavisnih opservacija x1 i x2 za gaussovski model
θ̂ = E (θ | x1 , x2 ) = E(θ | x1 ) + E(θ | x2 ) (11.6)
(sledi direktno iz (9.2) za E θ = 0)

2. aditivnost (u opštem slučaju) za θ = θ1 + θ2
E(θ | x) = E(θ1 | x) + E(θ2 | x) (11.7)
I Princip ortogonalnosti (PO): x̃[n] ⊥ X0:n−1

I Skupovi X0:n i {X0:n−1 , x̃[n]} sadrže istu informaciju o s[n]
I x̂[n|n − 1] je linearna f-ja od X0:n−1
I x[n] = x̃[n] + x̂[n|n − 1] je linearna f-ja od {X0:n−1 , x̃[n]}
I ŝ[n|n] je linearna f-ja od X0:n = {X0:n−1 , x[n]}
I dakle, ŝ[n|n] mora biti linearna f-ja od {X0:n−1 , x̃[n]}
141
I Iz svega navedenog i osobine 1 EMSKG sledi
ŝ[n|n] = E (s[n] | x0:n−1 , x̃[n])

= E (s[n] | x0:n−1 ) + E (s[n] | x̃[n])
= ŝ[n|n − 1] + E (s[n] | x̃[n])
I Iz u[n] ⊥ X0:n−1 sledi E(u[n] | x0:n−1 ) = E u[n] = 0, pa je
ŝ[n|n − 1] = E (a s[n − 1] + u[n] | x0:n−1 )

= a ŝ[n − 1|n − 1]
I E(s[n] | x̃[n]) je projekcija s[n] na x̃[n]
hs[n], x̃[n]i
E (s[n] | x̃[n]) = x̃[n] = K [n] x̃[n]
kx̃[n]k2
E(s[n] x̃[n])
K [n] , (Kalmanovo pojačanje)
E x̃ 2 [n]
142
I Iz w [n] ⊥ X0:n−1 i E w [n] = 0 sledi
x̂[n|n − 1] = E (s[n] + w [n] | x0:n−1 ) = ŝ[n|n − 1]

x̃[n] = x[n] − ŝ[n|n − 1]
I ŝ[n|n − 1] zavisi od x0:n−1 , pa iz x̃[n] ⊥ x0:n−1 sledi
E (s[n] x̃[n]) = E [(s[n] − ŝ[n|n − 1]) (x[n] − ŝ[n|n − 1])]
I Slično, pošto je w [n] nezavisno od s[n] i ŝ[n|n − 1], imamo
E (w [n] (s[n] − ŝ[n|n − 1])) = 0
I Iz prethodne tri relacije i x[n] = s[n] + w [n] sledi
E (s[n] x̃[n]) = E (s[n] − ŝ[n|n − 1])2 , (11.8)

2 2
E x̃ [n] = E (x[n] − ŝ[n|n − 1])
= σw2 + E (s[n] − ŝ[n|n − 1])2 (11.9)
143
I Konačno dobijamo Kalmanovo pojačanje
M[n|n − 1]
K [n] = (11.10)
σw2 + M[n|n − 1]
I u[n] je nezavisno od s[n − 1] i ŝ[n − 1|n − 1], pa je
M[n|n − 1] = E (a s[n − 1] + u[n] − a ŝ[n − 1|n − 1])2

= a2 E (s[n − 1] − ŝ[n − 1|n − 1])2 +σu2
| {z }
M[n−1|n−1]
I Treba nam još rekurzivni izraz za M[n|n]
M[n|n] = E (s[n] − ŝ[n|n])2

= E (s[n] − ŝ[n|n − 1] − K [n] x̃[n])2
= M[n|n − 1] − 2 K [n] E [(s[n] − ŝ[n|n − 1]) x̃[n]]
+ K 2 [n] E x̃ 2 [n]
144
I Iz x̃[n] ⊥ ŝ[n|n − 1] sledi
E [(s[n] − ŝ[n|n − 1]) x̃[n]] = E (s[n] x̃[n])

(iz (11.8))
= M[n|n − 1]
E x̃ 2 [n] = σw2 + M[n|n − 1] (iz (11.9))
I Zamenom u dobijeni izraz za M[n|n] i koristeći (11.10)
M[n|n] = (1 − K [n]) M[n|n − 1]

I Jedna iteracija skalarnog KF-a
ŝ[n|n − 1] = a ŝ[n − 1|n − 1] (11.11)

2
M[n|n − 1] = a M[n − 1|n − 1] + σu2 (11.12)
M[n|n − 1]
K [n] = 2 (11.13)
σw + M[n|n − 1]
ŝ[n|n] = ŝ[n|n − 1] + K [n] (x[n] − ŝ[n|n − 1]) (11.14)
M[n|n] = (1 − K [n]) M[n|n − 1] (11.15)
145
I J-ne važe u istom obliku i za E s[−1] = µs 6= 0. Inicijalizacija:
ŝ[−1| − 1] = µs , M[−1| − 1] = σs2
I Korekciju K [n] x̃[n] možemo tumačiti kao û[n]:
s[n] = a s[n − 1] + u[n]

ŝ[n|n] = a ŝ[n − 1|n − 1] + K [n] x̃[n]
146
Osobine skalarnog KF
I KF se svodi na sekvencijalni LEMSKG za konstantno s[n] = θ
σu2 = 0, s[n] = s[−1] = θ

ŝ[n|n − 1] = ŝ[n − 1|n − 1] , ŝ[n − 1]
M[n|n − 1] = M[n − 1|n − 1] , M[n − 1]
I Za razliku od LEMSKG θ̂ = cθx C−1

x x, KF ne zahteva inverziju
matrice koja vremenom raste (dim Cx = (n + 1) × (n + 1))
I KF se može tumačiti kao vremenski-promenljiv linearan filtar
ŝ[n|n] = a (1 − K [n]) ŝ[n − 1|n − 1] + K [n] x[n]
I M[n|n] opisuje kvalitet estimacije; može se odrediti unapred ∀n
147
I Predikcija (11.11) povećava, a korekcija (11.14) smanjuje var
n→∞: M[n|n] = M[n − 1|n − 1],

M[n + 1|n] = M[n|n − 1]
M[n|n − 1]
0 < K [n] = 2 <1
σw + M[n|n − 1]
M[n|n] = (1 − K [n]) M[n|n − 1] < M[n|n − 1]
I Inovacije x̃[n] čine nekorelisanu sekvencu

I x̃[n] je nekorelisano sa X0:n−1
I ŝ[n − k|n − k − 1] je linearna f-ja od X0:n−k−1 , 1 ≤ k ≤ n
I x̃[n − k] je linearna f-ja od {X0:n−k−1 , x[n − k]} = X0:n−k
I dakle, x̃[n] je nekorelisano sa x̃[n − k], 1 ≤ k ≤ n
I KF je EMSKG za gaussovski model; u protivnom je LEMSKG
148
Izvođenje preko osobina Gaussove FGV
I Združena raspodela za x[n] i s[n] je normalna, jer
1. je model linearan, i
2. s[−1], u[n] i w [n] imaju normalnu raspodelu
I Iz x[0] = s[0] + w [0] i s[0] ⊥ w [0] dobijamo
cov(x[0], s[0]) = var s[0], var x[0] = var s[0] + σw2
I Koristimo već uvedene oznake M[−1| − 1] = σs2 i
M[0| − 1] = a2 M[−1| − 1] + σu2 = var s[0]
I Iz osobina Gaussove FGV dobijamo (11.15)
cov2 (x[0], s[0])

var(s[0] | x[0]) = var s[0] −
var x[0]
M 2 [0| − 1]
= M[0| − 1] −
M[0| − 1] + σw2
149
I Već smo pokalazali da je ŝ[0|0] = E(s[0] | x[0]), pa imamo
s[0] | x[0] ∼ N (ŝ[0|0], M[0|0])
I Pretpostavimo da je
s[n − 1] | X0:n−1 ∼ N (ŝ[n − 1|n − 1], M[n − 1|n − 1])
I Pokazaćemo da (11.11)–(11.15) daju s[n] | X0:n

I Iz GMM i s[n − 1] ⊥ u[n], s[n] ⊥ w [n]:
var (s[n] | X0:n−1 ) = a2 M[n − 1|n − 1] + σu2 = M[n|n − 1]

cov (s[n], x[n] | X0:n−1 ) = var (s[n] | X0:n−1 )
var (x[n] | X0:n−1 ) = var (s[n] | X0:n−1 ) + σw2
150
I Iz osobina Gaussove FGV
var (s[n] | x[n], X0:n−1 ) = var (s[n] | X0:n−1 )

cov2 (s[n], x[n] | X0:n−1 )
−
var (x[n] | X0:n−1 )
= (1 − K [n]) M[n|n − 1]
I Dokazali smo da je ŝ[n|n] = E (s[n] | X0:n ), pa je konačno
s[n] | X0:n ∼ N (ŝ[n|n], M[n|n])

s[n] | X0:n−1 ∼ N (ŝ[n|n − 1], M[n|n − 1])
151
Prediktivna i aposteriorna raspodela u stacionarnom stanju:
M[n|n − 1]
0 < K [n] = <1
σw2
+ M[n|n − 1]
M[n|n] = (1 − K [n]) M[n|n − 1] < M[n|n − 1]
152
Poređenje Kalmanovog i Wienerovog filtra
I Nestacionarni signali
I WF nije primenjiv – podrazumeva slabo-stacionarne x[n] i s[n]
I KF jeste primenjiv – parametri GM modela mogu zavisiti od n
I Za stacionaran GM model, u stacionarnom stanju (n → ∞)
I x[n] je slabo-stacionaran (uticaj s[−1] iščezava za n → ∞)
I LEMSKG postaje linearan vremenski-invarijantan filter
I i KF i WF su LEMSKG, pa su ekvivalentni
I M i K postaju konstantni: M[∞] , limn→∞ M[n|n]
Mp [∞] , lim M[n|n − 1] = a2 M[∞] + σu2 (iz (11.12))

n→∞
Mp [∞]
K [∞] , lim K [n] = (iz (11.13))
n→∞ σw2 + Mp [∞]
I Smenjujući Mp [∞] i K [∞] u (11.15) dobijamo Ricattijevu j-nu
σw2 a2 M[∞] + σu2

M[∞] = (1 − K [∞]) Mp [∞] = 2
a M[∞] + σu2 + σw2
koju rešavamo po M[∞], a zatim dobijamo Mp [∞] i K [∞]
153
I F-ja prenosa KF-a u stacionarnom stanju
ŝ[n|n] = aŝ[n − 1|n − 1] + K [∞] (x[n] − aŝ[n − 1|n − 1])

Z{ŝ[n|n]} K [∞]
H(z) , =
X (z) 1 − a(1 − K [∞])z −1
I Delimičan alternativni dokaz da x̃[n] imaju const SGS:
Z{x̂[n|n − 1]} = a Z{ŝ[n − 1|n − 1]} = az −1 Z{ŝ[n|n]}

Z{x̂[n|n − 1]}
Hp (z) , = az −1 H(z)
X (z)
1 − az −1
X̃ (z) = (1 − Hp (z)) X (z) = X (z)
1 − a(1 − K [∞])z −1
| {z }
,H̃(z)
Sx̃ (z) = H̃(z)H̃(1/z)Sx (z)

σu2
Sx (z) = Ss (z) + σw2 = + σw2
(1 − az −1 )(1 − az)
154
Vektorski Kalmanov filtar
I Vektorski GM model sa vektorskim opservacijama
s[n] = As[n − 1] + Bu[n], n≥0

x[n] = Hs[n] + w[n]
I u[n] ∼ N (0, Q), E(u[n]uT [m]) = δnm Q
I w[n] ∼ N (0, C), E(w[n]wT [m]) = δnm C
I s[−1] ∼ N (µs , Cs ), u[n] i w[n] su svi međusobno nezavisni
I A, B, H, Q i C mogu zavisiti od n
I Kalmanov filtar je rekurzivni EMSKG za s[n] iz {x[k]}nk=0
ŝ[n|n − 1] = Aŝ[n − 1|n − 1]

M[n|n − 1] = AM[n − 1|n − 1]AT + BQBT
−1
K[n] = M[n|n − 1]HT C + HM[n|n − 1]HT
ŝ[n|n] = ŝ[n|n − 1] + K[n] (x[n] − Hŝ[n|n − 1])
M[n|n] = (I − K[n]H) M[n|n − 1]
155
I Dokaz je sličan kao u skalarnom slučaju
I Sve promenljive su združeno normalne, pa je EMSKG linearan
I EMSKG za s[n] na osnovu x[0 : n − 1] , {x[k]}n−1
k=0
ŝ[n|n − 1] = E (As[n − 1] + u[n] | x[0 : n − 1])

= Aŝ[n − 1|n − 1]
I x[n] se može dobiti iz x̃[n] = x[n] − x̂[n|n − 1] i {x[k]}n−1
k=0
I Dakle, {x[k]}nk=0 nosi istu informaciju kao x̃[n] i {x[k]}n−1
k=0
I x̃[n] ⊥ {x[k]}n−1
k=0 , pa važi aditivnost nezavisnih informacija
ŝ[n|n] = E (s[n] | x[0 : n]) = E (s[n] | x̃[n], x[0 : n − 1])
= E (s[n] | x̃[n]) + ŝ[n|n − 1]
I s[n] i x̃[n] su združeno normalni, pa je
E (s[n] | x̃[n]) = Csx̃ C−1

x̃ x̃[n]
ako je E s[n] = 0 i E x̃[n] = 0 (ovo važi za µs = 0, ali

ispostavlja se da j-ne imaju isti oblik i za µs 6= 0)
156
I Kalmanovo pojačanje je
K[n] = Csx̃ C−1

x̃
Pokazuje se da je kros-korelaciona matrica
Csx̃ = M[n|n − 1]HT
i da je auto-korelaciona matrica inovacija
Cx̃ = HM[n|n − 1]HT + C
I Iz nezavisnosti w[n] i {x[k]}n−1

k=0 sledi
x̂[n|n − 1] = E (Hs[n] + w[n] | x[0 : n − 1])

= Hŝ[n|n − 1]
odakle se dobija j-na za korekciju stanja

I Iz u[n] ⊥ {s[n − 1], x[0 : n − 1]} sledi j-ne za M[n|n − 1]
I Algebarskim manipulacijama dobijamo j-nu za M[n|n]
157

01 Verovatnoca - Merged

Uploaded by

Copyright:

Available Formats

You might also like

01 Verovatnoca - Merged

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

01 Verovatnoca - Merged

Uploaded by

Copyright:

Available Formats

13E053SSE – Stohastički sistemi i

Definicija: Ako je 𝑃 𝐵 ≠ 0, onda važi

Nezavisnost u originalnom modelu ne implicira

𝑃 𝐵 = 𝑃 ෍ 𝐵𝐴𝑖 = ෍ 𝑃 𝐵𝐴𝑖 = ෍ 𝑃 𝐵|𝐴𝑖 𝑃 𝐴𝑖

2) Funkcija raspodele je monotono neopadajuća

3) Funkcija raspodele može da ima prekid prve vrste i neprekidna je sa desne

• Kontinualne slučajne promenljive:

• Centrirani moment n-tog reda se dobija za

• Necentrirani moment n-tog reda se dobija za

– Necentrirani moment drugog reda: 𝐸 𝑋 2

• Kovarijansa 2 slučajne promenljive:

• Matrica kroskorelacije slučajnih vektora 𝑿 i 𝒀

→ cov 𝑋1 , 𝑋2 = 𝐸 𝑋1 − 𝑋ത1 𝑋2 − 𝑋ത2

• Ako su slučajne promenljive nezavisne, onda su one i nekorelisane.

• Ortogonalnost slučajnih vektora:

Posmatra se skup tačaka u ravni:

Pomoću združene funkcije gustine verovatnoće:

• Prosečna plata u Srbiji

• Svaka moguća sekvenca se naziva realizacija, ishod ili trajektorija slučajnog

• Fiksiranjem vremena, 𝑡 = 𝑡0 , dobijamo jednu slučajnu promenljivu,

Kontinualni u vremenu i diskretni po amplitudi Kontinualni u vremenu i kontinualni po

Proces je u potpnosti opisan funkcijom raspodele (funkcijom

Da li smo na ovaj način u potpunosti matematički opisali slučajni proces?

– Nezavisnost važi ako je za ∀𝑛 ∈ 𝑁 i ∀ 𝑡1 , … , 𝑡𝑛 ∈ 𝑇 𝑛 :

Nezavisni, identično raspodeljeni slučajni procesi su stacionarni:

• Osobine 𝑅𝑋 𝜏 slabo stacionarnih procesa

• Markovljev proces je u potpunosti određen početnom

I Pomeraj estimatora ukazuje na sistematsku grešku

ali nije nepomeren, jer nije E Ǎ = A za svako A:

I Koji estimator je poželjniji

I U opštem slučaju, minimizacija SKG nije praktično izvodljiva.

ali ovaj integral ne može biti 1 za svako θ.

1. Cramer-Rao-ova donja granica (CRDG)

I Procena vrednosti parametara iz zašumljenih merenja

θ̂ = g (x[0], . . . , x[N − 1])

I Matematički, θ̂ je slučajna promenljiva.

I Primer: tačna pozicija θ, GPS merenje x, beo Gaussov šum w

I Model (funkcija gustine verovatnoće, FGV) treba da

I Dva validna estimatora:

I Za neku konkretnu realizaciju možemo imati

|A − Â1 | > |A − Â2 |

I Poređenje moramo vršiti statistički:

Â1 je u proseku mnogo bliži tačnoj vrednosti!

p(A) = 1/2, A ∈ [0, 2]

I Uslovna FGV vrednosti parametra, za date opservacije

I x = x[0] · · · x[N − 1] T je vektor opservacija

I θ = θ1 · · · θp T je vektor nepoznatih parametara

I w = w [0] · · · w [N − 1] T je Gaussov šum

I Pretpostavka: šum je beo Gaussov, w ∼ N (0, σ 2 I)

I Poređenjem sa (4.2) dobijamo efikasni estimator

I Identifikacija impulsnog odziva LVI sistema

I HN×p tipično ima više vrsta nego kolona

I Rešenje po θ nije jednoznačno, čak i bez šuma

D možemo efikasno naći pomoću Cholesky dekompozicije, npr

I Transformacijom x0 = Dx dobijamo signal u belom šumu

Merenje x[n] je otežinjeno inverzno proporcionalno varijansi σn2

I Linearan gaussovski model

I Primena Cramer-Raoove teoreme

I Princip ortogonalnosti: dužina vektora greške kk je najmanja

⊥ x[0], . . . , x[N − 1] (10.4)