Professional Documents
Culture Documents
Chapter 6
Chapter 6
Chapter 6
Chapter 6
.7اﻣﯿﺪ رﯾﺎﺿﯽ ﺷﺮﻃﯽ ﺗﺎﺑﻌﯽ از دو ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ .2ﻗﻀﯿﮥ اﺣﺘﻤﺎل ﮐﻞ و ﻗﻀﯿﮥ ﺑﯿﺰ
ﺛﺎﺑﺖ ﮐﺮده ﺑﻮدﯾﻢ ﮐﻪ اﺣﺘﻤﺎل ﺷﺮﻃﯽ ﺗﻤﺎم ﺧﻮاص اﺣﺘﻤﺎل را دارد .ﻟﺬا ) Px (x|Mﻧﯿﺰ ﺗﻤﺎم ﺧﻮاص ﺗﺎﺑﻊ اﺣﺘﻤﺎل ﻏﯿﺮﺷﺮﻃﯽ را دارد،
از ﺟﻤﻠﻪ اﯾﻨﮑﻪ دارﯾﻢ:
)1 ∑i Px (xi |M) = 1
⊂ 2) ∀D = }: P{ x ∈ D|M )∑ P (x |M
xi ∈D
x i
1
ﺗﺎﺑﻊ ﺗﻮزﯾﻊ اﻧﺒﺎﺷﺘﮥ ﺷﺮﻃﯽ ) CDFﺷﺮﻃﯽ(:
ﻃﺒﻖ ﺗﻌﺮﯾﻒ ،ﺗﺎﺑﻊ ﺗﻮزﯾﻊ اﻧﺒﺎﺷﺘﮥ ﺷﺮﻃﯽ xﺑﻪ ﺷﺮط واﻗﻌﮥ Mﺑﺮاﺑﺮ اﺳﺖ ﺑﺎ:
}Fx (x|M) = P{ x ≤ x|M
اﯾﻦ ﺗﺎﺑﻊ ﻧﯿﺰ ﺗﻤﺎم ﺧﻮاص CDFﻏﯿﺮﺷﺮﻃﯽ را دارد ،از ﺟﻤﻠﻪ دارﯾﻢ:
1) F( −∞|M) = 0
2) F( +∞|M) = 1
)3) P(x1 ≤ x ≤ x 2 |M) = F(x 2 |M) − F(x1|M
2
ﺗﺎﺑﻊ ﭼﮕﺎﻟﯽ ﺷﺮﻃﯽ ) pdfﺷﺮﻃﯽ(:
ﻃﺒﻖ ﺗﻌﺮﯾﻒ ،ﺗﺎﺑﻊ ﭼﮕﺎﻟﯽ ﺷﺮﻃﯽ xﺑﻪ ﺷﺮط واﻗﻌﮥ Mﺑﺮاﺑﺮ اﺳﺖ ﺑﺎ:
)dFx (x|M
= )fx (x|M
dx
اﯾﻦ ﺗﺎﺑﻊ ﻧﯿﺰ ﺗﻤﺎم ﺧﻮاص pdfﻏﯿﺮﺷﺮﻃﯽ را دارد ،از ﺟﻤﻠﻪ دارﯾﻢ:
}1) fx (x|M)dx = P{x ≤ x ≤ x + dx|M
∞+
)2 ∫
∞−
fx (x|M)dx = F( +∞|M) − F( −∞|M) = 1
3
ﯾﺎدآوری :اﮔﺮ Aiﻫﺎ ) (i = 0,1, 2,… ,mاﻓﺮازی از Ωﺑﺎﺷﻨﺪ ،ﻗﻀﺎﯾﺎی زﯾﺮ را داﺷﺘﯿﻢ:
.1ﻗﻀﯿﮥ اﺣﺘﻤﺎل ﮐﻞ:
m
= )P(B ) ∑ P(B|A )P(A
i =1
i i
.2ﻗﻀﯿﮥ ﺑِﯿﺰ:
) P(B|A k )P(A k ) P(B|A k )P(A k
= )P(A k |B = m
)P(B
∑ ) P(B|A i )P(A i
i =1
4
ﺣﺎل اﮔﺮ xﯾﮏ ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ ﮔﺴﺴﺘﻪ ﺑﺎﺷﺪ ،در راﺑﻄﻪ ﺑﺎ pmfﺷﺮﻃﯽ آن دارﯾﻢ:
m
= }P{ x = x ) ∑ P{x = x|A }P(A
i =1
i i
ﯾﻌﻨﯽ:
.1ﻗﻀﯿﮥ اﺣﺘﻤﺎل ﮐﻞ:
m
= )Px (x ) ∑ P (x|A )P(A
i =1
x i i
ﻫﻤﭽﻨﯿﻦ دارﯾﻢ:
)P{ x = xk |A}P(A
= } P{A|x = xk
} P{ x = xk
ﯾﻌﻨﯽ:
.2ﻗﻀﯿﮥ ﺑِﯿﺰ:
)Px (xk |A)P(A
= ) P(A|xk
) Px (xk
5
و ﻧﯿﺰ اﮔﺮ } { x = xiﻫﺎ را ﺑﻪ ﻋﻨﻮان وﻗﺎﯾﻊ اﻓﺮازﮐﻨﻨﺪه در ﻧﻈﺮ ﺑﮕﯿﺮﯾﻢ ،ﺧﻮاﻫﯿﻢ داﺷﺖ:
.1ﻗﻀﯿﮥ اﺣﺘﻤﺎل ﮐﻞ:
= )P(A ) ∑ P(A|x = x )P{x = x } = ∑ P(A|x )P (x
i
i i
i
i x i
ﻫﻤﭽﻨﯿﻦ دارﯾﻢ:
} P(A|x = xk )P{ x = xk
= }P{ x = xk |A
)P(A
ﭘﺲ:
.2ﻗﻀﯿﮥ ﺑِﯿﺰ:
) P(A|xk )Px (xk ) P(A|xk )Px (xk
= )Px (xk |A =
)P(A ∑
) P(A|xi )Px (xi
i
6
در راﺑﻄﻪ ﺑﺎ CDFﺷﺮﻃﯽ ﻧﯿﺰ دارﯾﻢ:
.1ﻗﻀﯿﮥ اﺣﺘﻤﺎل ﮐﻞ:
m
= )Fx (x ) ∑ Fx (x|A )P(A
i =1
i i
.2ﻗﻀﯿﮥ ﺑﯿﺰ:
)Fx (x|A)P(A
= )P(A|x ≤ x
)Fx (x
.2ﻗﻀﯿﮥ ﺑﯿﺰ:
)fx (x|A)P(A) ∆x fx (x|A)P(A
= )P(A|x = x) = lim P(A|x ≤ x ≤ x + ∆x =
↓
∆x →0 fx (x) ∆x )fx (x
اﺣﺘﻤﺎﻟﺶ ﺻﻔﺮ اﺳﺖ
7
و اﮔﺮ } { x = xﻫﺎ را وﻗﺎﯾﻊ اﻓﺮازﮐﻨﻨﺪه در ﻧﻈﺮ ﺑﮕﯿﺮﯾﻢ ،دارﯾﻢ:
.1ﻗﻀﯿﮥ اﺣﺘﻤﺎل ﮐﻞ:
∞+
= )P(A ∫
∞−
P(A|x)fx (x)dx
.2ﻗﻀﯿﮥ ﺑﯿﺰ:
)P(A|x)fx (x )P(A|x)fx (x
= )fx (x|A = ∞+
)P(A
∫∞−
P(A|x)fx (x)dx
)ﺑﺮای اﺛﺒﺎت راﺑﻄﮥ ﺑﺎﻻﯾﯽ ﻣﯽﺗﻮان از راﺑﻄﮥ ﭘﺎﯾﯿﻨﯽ )ﺑﯿﺰ( اﺳﺘﻔﺎده ﮐﺮد و از ﻃﺮﻓﯿﻦ ،از ∞ −ﺗﺎ ∞ +اﻧﺘﮕﺮال ﮔﺮﻓﺖ(.
8
ﻣﺜﺎﻟﯽ از ﻣﺨﺎﺑﺮات دﯾﺠﯿﺘﺎل:
ﺑﺮای ارﺳﺎل 0و ،1وﻟﺘﺎژﻫﺎی s0و s1را ﺑﻪ ﮐﺎر ﻣﯽﺑﺮﯾﻢ ،وﻟﯽ ﺑﻪ دﻟﯿﻞ وﺟﻮد ﻧﻮﯾﺰ در ﮐﺎﻧﺎل ،ﮔﯿﺮﻧﺪه ﺧﻮد s0و s1را درﯾﺎﻓﺖ ﻧﻤﯽﮐﻨﺪ.
1
s1
s0 0 n
y=s+n
) 0ﯾﺎ T (1 s1ﯾﺎ s = s0ﻓﺮﺳﺘﻨﺪه + ﮔﯿﺮﻧﺪه ) 0ﯾﺎ R (1
ﻓﺮض ﮐﻨﯿﺪ ﻧﻮﯾﺰ دارای ﺗﻮزﯾﻊ ﮔﻮﺳﯽ ) N(0,σاﺳﺖ .ﻣﯽﺗﻮان ﻧﺸﺎن داد ﺑﺮای اﯾﻨﮑﻪ ﮔﯿﺮﻧﺪه از روی اﯾﻦ دادهﻫﺎی ﻧﻮﯾﺰی ﺑﺘﻮاﻧﺪ ﺑﻪ ﻃﻮر
ﺑﻬﯿﻨﻪ )ﮐﻤﺘﺮﯾﻦ اﺣﺘﻤﺎل ﺧﻄﺎ( ﺗﺼﻤﯿﻢ ﺑﮕﯿﺮد ﮐﻪ 0ﯾﺎ 1ارﺳﺎل ﺷﺪه ﺑﻮده ،ﺑﺎﯾﺪ وﻟﺘﺎژ درﯾﺎﻓﺘﯽ را ﺑﺎ ﺳﻄﺢ آﺳﺘﺎﻧﻪای ﻣﻘﺎﯾﺴﻪ ﮐﻨﺪ .اﮔﺮ از اﯾﻦ
1
ﺳﻄﺢ آﺳﺘﺎﻧﻪ ﺑﺰرﮔﺘﺮ ﺑﻮد 1 ،و اﮔﺮ ﮐﻮﭼﮑﺘﺮ ﺑﻮد 0 ،ﻓﺮض ﻣﯽﺷﻮد .ﻣﻘﺪار ﺳﻄﺢ آﺳﺘﺎﻧﻪ در ﺻﻮرﺗﯽ ﮐﻪ = ) P(T0 ) = P(T1ﺑﺎﺷﺪ ،ﺑﺮاﺑﺮ
2
s0 + s1 σ2 ) P(T1 s +s
= .( γ + ln γ = 0 1اﺳﺖ )در ﺣﺎﻟﺖ ﮐﻠﯽ دارﯾﻢ:
2 ) s0 − s1 P(T0 2
در ﻫﺮ ﺑﯿﺖ ،اﺣﺘﻤﺎل ﺧﻄﺎ ،ﯾﻌﻨﯽ ، Perrorﭼﻘﺪر اﺳﺖ؟
9
Perror = P(E|T1 )P(T1 ) + P(E|T0 )P(T0 )
= P(R 0 |T1 )P(T1 ) + P(R 1 |T0 )P(T0 )
= P{ y < γ|T1 )P(T1 ) + P{ y > γ|T0 )P(T0 )
(
= Fy ( γ|T1 )P(T1 ) + 1 − Fy ( γ|T0 ) P(T0 ) )
γ +∞
= P(T1 ) ∫
−∞
fy (y|T1 )dy + P(T0 ) ∫
γ
fy (y|T0 )dy
fy(y|T0) fy(y|T1)
s0 γ s1
10
: ﭘﺲ،( y = x + 2 )ﻣﺜﻞy = s1 + n : ﯾﻌﻨﯽT1 ﺑﻪ ﺷﺮط،در واﻗﻊ
fy (y|T1 ) = fn (y − s1 )
:و ﺑﻪ ﻫﻤﯿﻦ ﺗﺮﺗﯿﺐ ﺧﻮاﻫﯿﻢ داﺷﺖ
fy (y|T0 ) = fn (y − s0 )
:در ﻧﺘﯿﺠﻪ
( y − s1 )2 ( y − s0 )2
1 γ 1 − 1 +∞ 1 −
Perror =
2 ∫
−∞ 2π σ
e 2σ 2 dy +
2 ∫
γ 2π σ
e 2σ 2 dy
1 γ − s1 1 γ − s0
= G( ) + 1 − G( )
2 σ 2 σ
s0 + s1
: ﭘﺲ، γ = وﻟﯽ
2
1 s0 − s1 1 s −s 1 s −s 1 s −s
Perror = G( ) + 1 − G( 1 0 ) = 1 − G( 1 0 ) + 1 − G( 1 0 )
2 2σ 2 2σ 2 2σ 2 2σ
s −s s −s
= 1 − G( 1 0 ) = Q( 1 0 )
2σ 2σ
11
s1 − s0
ﺑﺰرﮔﺘﺮ ﺑﺎﺷﺪ )ﯾﻌﻨﯽ ﻧﺴﺒﺖ ﺳﯿﮕﻨﺎل ﺑﻪ ﻧﻮﯾﺰ ﺑﯿﺸﺘﺮ ﺑﺎﺷﺪ( ،ﺧﻄﺎ ﮐﻮﭼﮑﺘﺮ ﺧﻮاﻫﺪ ﺑﻮد .ﻣﺜﻼً اﮔﺮ s1 = 2Vو ﻫﺮ ﭼﻪ
σ
s0 = −2Vو σ = 1Vﺑﺎﺷﺪ ،دارﯾﻢ:
Perror = Q(2) = 0.0227
ﯾﻌﻨﯽ %2اﺣﺘﻤﺎل ﺧﻄﺎ وﺟﻮد دارد.
12
ﺷﺮط واﻗﻌﻪای در ارﺗﺒﺎط ﺑﺎ ﻫﻤﺎن ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ:
ﻣﻤﮑﻦ اﺳﺖ واﻗﻌﮥ ﻣﺸﺮوط ﮐﻨﻨﺪه ،واﻗﻌﻪای در ارﺗﺒﺎط ﺑﺎ ﻫﻤﺎن ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ ﺑﺎﺷﺪ .ﻣﺜﻼً اﮔﺮ:
}M = {b < x ≤ a
آﻧﮕﺎه دارﯾﻢ:
1 x≥a
P{ x ≤ x|b < x ≤ a}
= )Fx (x|b < x ≤ a = 0 x<b
}P{b < x ≤ a ) P{b < x ≤ x} F (x) − F (b
= x x
b≤x<a
) P{b < x ≤ a} Fx (a) − Fx (b
13
:ﺑﺎ ﻣﺸﺘﻖﮔﯿﺮی ﺧﻮاﻫﯿﻢ داﺷﺖ
0 x≥a
fx (x|b < x ≤ a) = 0 x<b
fx (x) fx (x)
= a
b≤x<a
F (a) − F (b)
x
x
∫b fx (x)dx
f ( x | b < x ≤ a)
f (x)
b a
x
14
ﻣﺜﺎﻟﯽ از ﮐﺎرﺑﺮد ﺗﻮزﯾﻊ ﻣﺸﺮوط :ﻗﺎﺑﻠﯿﺖ اﻋﺘﻤﺎد
ﻓﺮض ﮐﻨﯿﺪ ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ xزﻣﺎن ﺧﺮاب ﺷﺪن ﺳﯿﺴﺘﻤﯽ ﺑﺎﺷﺪ ﮐﻪ از t = 0ﺷﺮوع ﺑﻪ ﮐﺎر ﮐﺮده اﺳﺖ )ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ xرا ﻋﻤﺮ ﺳﯿﺴﺘﻢ
) (Time to Failureﻣﯽﮔﻮﯾﻨﺪ( .اﺻﻄﻼﺣﺎً ) 1 − F(xرا ﻗﺎﺑﻠﯿﺖ اﻋﺘﻤﺎد ﺳﯿﺴﺘﻢ ﻣﯽﮔﻮﯾﻨﺪ:
}R(x) = 1 − F(x) = P{ x > x
ﯾﻌﻨﯽ اﺣﺘﻤﺎل اﯾﻨﮑﻪ ﺳﯿﺴﺘﻢ ﻻاﻗﻞ ﺗﺎ زﻣﺎن xﮐﺎر ﮐﻨﺪ.
)R(x
ﭘﺲ R( +∞ ) = 0 ، R(0) = 1 :و ) R(xﻫﻤﻮاره ﻧﺰوﻟﯽ اﺳﺖ.
1
x
0
اﻣﯿﺪ رﯾﺎﺿﯽ xرا (MTTF) Mean Time to Failureﮔﻮﯾﻨﺪ )ﻋﻤﺮ ﻣﺘﻮﺳﻂ ﺳﯿﺴﺘﻢ(:
∞+ ∞+
= ) E( x ∫
0
= xf(x)dx ∫
0
R(x)dx
∞+ 0 ∞+
( ∫−∞ xf(x)dx = ∫−∞ F(x)dx + ∫0 )ﭼﻮن(1 − F(x))dx :
15
ﺣﺎل ﻣﯽﺧﻮاﻫﯿﻢ ) F(x|x ≥ tو ) f(x|x ≥ tرا ﺣﺴﺎب ﮐﻨﯿﻢ.
) F(x|x ≥ tﯾﻌﻨﯽ اﺣﺘﻤﺎل اﯾﻨﮑﻪ ﺳﯿﺴﺘﻤﯽ ﮐﻪ ﺗﺎ ﻟﺤﻈﮥ tﮐﺎر ﻣﯽﮐﺮده اﺳﺖ ﻗﺒﻞ از ﻟﺤﻈﮥ xﺧﺮاب ﺷﻮد:
0 x<t
P{ x ≤ x, x ≥ t}
= )F(x|x ≥ t )= F(x) − F(t
}P{ x ≥ t ) 1 − F(t x≥t
ﺑﺎ ﻣﺸﺘﻖﮔﯿﺮی f(x|x ≥ t) ،ﺑﻪ دﺳﺖ ﻣﯽآﯾﺪ .ﺗﺎﺑﻊ ﻓﻮق در x = tﭘﯿﻮﺳﺘﻪ اﺳﺖ ،ﭘﺲ fﺷﺎﻣﻞ δﻧﺨﻮاﻫﺪ ﺷﺪ:
0 x<t
)f(x|x ≥ t) = f(x
1 − F(t) x ≥ t
f(x|x ≥ t)dxﯾﻌﻨﯽ اﺣﺘﻤﺎل اﯾﻨﮑﻪ ﺳﯿﺴﺘﻤﯽ ﮐﻪ ﺗﺎ ﻟﺤﻈﮥ tﮐﺎر ﻣﯽﮐﺮده اﺳﺖ ﺑﯿﻦ ﻟﺤﻈﺎت xو x + dxﺧﺮاب ﺷﻮد.
16
ﻣﺜﺎل :اﮔﺮ ) f(x) = λe −λx u(xﺑﺎﺷﺪ ،دارﯾﻢ:
F(x) = (1 − e −λx )u(x) ⇒ R(x) = e −λx : x ≥ 0 )R ( x
1
1
= ) E( x
λ
0.37
x
0 1
λ
در واﻗﻊ وﻗﺘﯽ ) f(xﻧﻤﺎﯾﯽ ﺑﺎﺷﺪ ،ﻧﺮخ ﺧﺮاﺑﯽ ﺷﺮﻃﯽ ﺛﺎﺑﺖ اﺳﺖ.
17
ﻧﺮخ ﺧﺮاﺑﯽ ﺷﺮﻃﯽ:
ﻃﺒﻖ ﺗﻌﺮﯾﻒ ،ﻧﺮخ ﺧﺮاﺑﯽ ﺷﺮﻃﯽ ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ xﺑﺮاﺑﺮ اﺳﺖ ﺑﺎ:
)β (t) f(t|x ≥ t
β (t)dtﺑﯿﺎﻧﮕﺮ اﺣﺘﻤﺎل اﯾﻦ اﺳﺖ ﮐﻪ ﺳﯿﺴﺘﻤﯽ ﮐﻪ ﺗﺎ ﻟﺤﻈﮥ tﺳﺎﻟﻢ ﺑﻮده ،در ﻟﺤﻈﮥ ) tﯾﻌﻨﯽ ﺑﯿﻦ tو ( t + dtﺧﺮاب ﺷﻮد.
)f(t )F′(t )−R′(t
= )β (t = =
)1 − F(t) 1 − F(t) R(t
18
ﺧﻮاص ):β(t
)f(t
= )1) β (t ⇒ β (t) ≥ 0
)1 − F(t
∞+
⇒ 2) F( +∞ ) = 1 ∫ 0
∞β (t)dt → +
اﮔﺮ β (t) = λt r −1ﺑﺎﺷﺪ ،در ﺑﺴﯿﺎری ﻣﻮارد ﺗﺎﺑﻊ ﻣﻨﺎﺳﺒﯽ اﺳﺖ و دارﯾﻢ:
xr
−λ
= )f(x )λ xr −1 e r u(x
اﯾﻦ ﺗﻮزﯾﻊ را ﺗﻮزﯾﻊ وﯾﺒﻮل ) (Weibullﻣﯽﮔﻮﯾﻨﺪ ﮐﻪ ﺑﺮای r = 1ﻫﻤﺎن ﺗﻮزﯾﻊ ﻧﻤﺎﯾﯽ و ﺑﺮای r = 2ﻫﻤﺎن ﺗﻮزﯾﻊ راﯾﻠﯽ ﻣﯽﺷﻮد.
19
ﺑﺮای β (t) ، r = 1ﺛﺎﺑﺖ اﺳﺖ و ﺑﺮای rﻫﺎی ﺑﺰرﮔﺘﺮ ،ﻓﺮﺳﻮدﮔﯽ را ﻣﺪل ﻣﯽﮐﻨﺪ:
)f (x )β (t r=3 r=2
r=3
r=1
r=2 r=1
x x
0 0 1
1
r r+1
(MTTF = E( x ) = ( ) r Γ )
λ r
ﭘﯿﺮی
اﮔﺮ xو yﮔﺴﺴﺘﻪ ﺑﺎﺷﻨﺪ ،ﺗﺎﺑﻊ اﺣﺘﻤﺎل yﺑﻪ ﺷﺮط x1 < x ≤ x 2ﺑﺮاﺑﺮ اﺳﺖ ﺑﺎ:
21
در ﻣﻮرد pdfﻧﯿﺰ دارﯾﻢ:
x2
و ﻫﻤﭽﻨﯿﻦ:
)fxy (x, y
= )fy (y|x
)fx (x
در ﺣﺎﻟﺖ ﺧﺎص اﮔﺮ xو yﻣﺴﺘﻘﻞ ﺑﺎﺷﻨﺪ ،آﻧﮕﺎه ﺑﺮای ﻫﺮ xو yدارﯾﻢ ، fxy (x, y) = fx (x)fy (y) :ﻟﺬا:
)fy (y|x) = fy (y
و ﻧﯿﺰ:
)fx (x|y) = fx (x
ﻣﯽداﻧﯿﻢ ﮐﻪ:
∞+
= )fy (y ∫
∞−
fxy (x, y)dx
22
:وﻟﯽ دارﯾﻢ
fxy (x, y) = fy (y|x)fx (x)
:ﭘﺲ
+∞
fy (y) = ∫
−∞
fy (y|x)fx (x)dx
.ﮐﻪ ﻫﻤﺎن ﻗﻀﯿﮥ اﺣﺘﻤﺎل ﮐﻞ اﺳﺖ
23
ً ؛ ﻣﺜﻼp ∼ u(0,1) : ﺧﻮد ﯾﮏ ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ اﺳﺖp وﻟﯽ اﺣﺘﻤﺎل ﻣﻮﻓﻘﯿﺖ را ﻧﻤﯽداﻧﯿﻢ و، x ∼ Binomial(n, p) :1 ﻣﺜﺎل
.ﺳﮑﻪای ﮐﻪ اﺣﺘﻤﺎل ﺷﯿﺮ آﻣﺪﻧﺶ را ﻧﻤﯽداﻧﯿﻢ
n
Px (k|p = p) = P{ x = k|p = p} = pk (1 − p)n −k : k = 0,1,… , n
k
1 0 ≤ p < 1
fp (p) =
0 otherwise
. را ﺑﯿﺎﺑﯿﺪfp (p|x = k) وPx (k) = P{ x = k} ﺗﻮاﺑﻊ
+∞
Px (k) = ∫
−∞
Px (k|p = p)fp (p)dp : k = 0,1,… , n
1 n 1 Γ(a)Γ(b)
∫ ∫
n −k
= p k
(1 − p) dp → β(a, b) = xa−1 (1 − x)b−1 dx =
0 k
0 Γ(a + b)
n n! k!(n − k)!
= β(k + 1, n − k + 1) = ⋅
k k!(n − k)! (n + 1)!
1
= : k = 0,1,… , n
n+1
24
0.4 0.35
0.35 0.3
Px (k | p = p)
0.3 0.25
0.25
0.2 p = 0.1 0.2
p = 0.25
0.15 0.15
0.25
0.1
p = 0.5
0.1
0.2
0.05 0.05
0 0.15 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
0.35 0.4
0.1 0.35
0.3
0.25 0.3
0.05
0.25
0.2
0.15
p = 0.75 0
0 1 2 3 4 5 6 7 8 9 10
0.2 p = 0.9
0.15
0.1 0.1
0.05 0.05
0 0.1 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
0.09
0.08
0.07
0.06
Px (k ): 0.05
0.04
0.03
0.02
0.01
0
0 1 2 3 4 5 6 7 8 9 10
25
n k n −k
p (1 − p)
P{ x = k|p = p}fp (p) Px (k|p)fp (p) k
fp (p|x = k) = = = :0≤ p< 1
P{ x = k} Px (k) 1
n+1
(n + 1)! k
= p (1 − p)n −k : 0 ≤ p < 1
k!(n − k)!
⇒ (p|x = k) ∼ Beta(k + 1, n − k + 1)
: ﺗﻮزﯾﻊ ﺑﺘﺎ:ﯾﺎدآوری
Γ(a + b) a −1
f(x) = x (1 − x)b−1 : 0 < x < 1
Γ(a)Γ(b)
26
ﯾﻌﻨﯽ pﮐﻪ ﺗﻮزﯾﻊ ﯾﮑﻨﻮاﺧﺖ داﺷﺖ ،ﺑﺎ ﻣﺸﺎﻫﺪۀ ﻣﻘﺪار ) xﻣﺜﻼً ﺗﻌﺪاد ﺷﯿﺮﻫﺎی آﻣﺪه در nﺑﺎر ﭘﺮﺗﺎب ﺳﮑﻪ( ﺗﻮزﯾﻊ ﺑﺘﺎ ﭘﯿﺪا ﻣﯽﮐﻨﺪ.
k a−1
اﺗﻔﺎق ﻣﯽاﻓﺘﺪ .ﻫﺮ ﭼﻪ nﺑﺰرﮔﺘﺮ ﺑﺎﺷﺪ ،ﻧﻤﻮدار ﺗﯿﺰﺗﺰ ﻣﯽﺷﻮد. ﯾﻌﻨﯽ ﻣﺎﮐﺰﯾﻤﻢ ﺗﻮزﯾﻊ ﺑﺘﺎ در
n a+b−2
)fp (p | x = k )fp (p
) (k = 3, n = 10
1
p p
0 k 1 0 1
n
ﮐﺘﺎب در ﻓﺼﻞ (Section 6.1) 6در ﻣﻮرد ﺗﺨﻤﯿﻦ ﺑﯿﺰ ﻧﯿﺰ ﺑﺤﺚ ﮐﺮده اﺳﺖ ﮐﻪ ﻣﺎ ﺑﻌﺪاً ﻣﻔﺼﻞ درﺑﺎرۀ آن ﺻﺤﺒﺖ ﺧﻮاﻫﯿﻢ ﮐﺮد.
27
fp (p | x = k) fp (p | x = k)
(k = 7 , n = 10 ) (k = 20, n = 30 )
5
3
p p
0 0 .7 1 0 0.67 1
28
: را ﺑﺮای ﺗﻮزﯾﻊ زﯾﺮ ﭘﯿﺪا ﮐﻨﯿﺪvar( x|y = y) وE( x|y = y) ، P{ x > 1|y = y} ﻣﻘﺎدﯾﺮ:2 ﻣﺜﺎل
−x
e y e − y
fxy (x, y) = x > 0, y > 0
y
0 otherwise
: را ﺑﻪ دﺳﺖ آورﯾﻢfx (x|y) اﺑﺘﺪا ﺑﺎﯾﺪ:ﺣﻞ
x
−
e y
e− y −
x
fxy (x, y) fxy (x, y) y
y e
fx (x|y) = = +∞
= x
= : x > 0, y > 0
fy (y) y
∫ fxy (x, y)dx +∞ e
−
y
∫
0 −y
e dx
0 y
1
⇒ ( x|y) ∼ exp( )
y
x x +∞ 1
+∞ +∞ 1 −y − −
∫ ∫ e dx = − e y y
P{ x > 1|y} = fx (x|y)dx = 1 =e : ﺑﺰرﮔﺘﺮy ﺑﯿﺸﺘﺮ ﺑﺮای
1 1 y
E( x|y) = y
var( x|y) = y 2
29
. را ﺑﯿﺎﺑﯿﺪfy|x . ﻣﺘﻐﯿﺮﻫﺎی ﺗﺼﺎدﻓﯽ ﻣﺸﺘﺮﮐﺎً ﻧﺮﻣﺎل ﻫﺴﺘﻨﺪy وx :3 ﻣﺜﺎل
y −η y − r (x −ηx )
1 σx
= exp− 2 2
2 πσ y 1 − r 2 2 σ y (1 − r )
σy
: ( و دارﯾﻢy|x) ∼ N(η y + r (x −ηx ),σ y 1 − r 2 ) ﯾﻌﻨﯽ
σx
σy µxy
η y|x =η y + r (x −ηx ) =η y + 2 (x −ηx )
σx σx
µ 2
xy
σ y2|x =σ y2 (1 − r 2 ) =σ y2 − 2
σx
()اﻫﻤﯿﺖ زﯾﺎدی در ﺑﺤﺚ ﺗﺨﻤﯿﻦ دارد
30
ﻣﺜﺎل دﯾﮕﺮی از ﮐﺎرﺑﺮد ﺗﻮزﯾﻊ ﺷﺮﻃﯽ:
روش دﯾﮕﺮی ﺑﺮای ﺗﻌﯿﯿﻦ ﺗﻮزﯾﻊ ) z = g( x , yﺑﺎ اﺳﺘﻔﺎده از ﭼﮕﺎﻟﯽ ﺷﺮﻃﯽ ﺑﻪ ﺻﻮرت زﯾﺮ اﺳﺖ:
∞+
= )fz (z ∫
∞−
fz (z|x)fx (x)dx
ﺑﺮای x = xداده ﺷﺪه z = g(x, y ) ،ﺗﺎﺑﻌﯽ از yاﺳﺖ و ﻟﺬا ﺑﻪ راﺣﺘﯽ ،اﮔﺮ رﯾﺸﮥ ) z = g(x, yﻧﻘﻄﮥ y 0ﺑﺎﺷﺪ ،دارﯾﻢ:
)fy (y 0 |x
= )fz (z|x
) ∂g(x, y 0
∂y
)ﯾﺎ ﻣﯽﺗﻮان y = yرا ﻣﺸﺮوط ﮔﺮﻓﺖ(.
31
ﻣﺜﺎل :اﮔﺮ z = xyﺑﺎﺷﺪ ،ﺑﺮای x = xداده ﺷﺪه z ،ﺿﺮﯾﺒﯽ از yاﺳﺖ و دارﯾﻢ:
1 z
= )fz (z|x )fy ( |x
x x
∞+ 1 z ∞+ 1 z
= )fz (z ∫∞− x
= fy ( |x)fx (x)dx
x ∫
∞− x
fxy (x, )dx
x
ﮐﻪ ﻗﺒﻼً ﻫﻢ اﯾﻦ را ﺑﻪ دﺳﺖ آورده ﺑﻮدﯾﻢ.
ﻣﺜﻼً اﮔﺮ xو yﻣﺸﺘﺮﮐﺎً ﻧﺮﻣﺎل ﺑﺎ ﻣﺘﻮﺳﻄﻬﺎی ﺻﻔﺮ و وارﯾﺎﻧﺴﻬﺎی ﯾﮏ و ﺿﺮﯾﺐ ﻫﻤﺒﺴﺘﮕﯽ rﺑﺎﺷﻨﺪ ،دارﯾﻢ:
1 1 2 2
= )fxy (x, y exp − 2
(x − 2r x y + y )
2π 1 − r 2
2(1 − r )
z2
rz x2 + 2
1 2 z z 2 x
− 2
x − 2r (x ) + ( ) 2 −
1 ∞+ 1 e 1− r ∞+ 1 ) 2(1− r 2
∞∫− ∫0
2(1−r ) x x
= )fz (z e = dx e dx
2π 1 − r 2 x π 1−r 2 x
rz z2 rz
u+
2 − u 2
e 1− r ∞+ 1 ) 2(1− r 2 e 1− r z
=
π 1 − r2
∫0 2u
e = du
π 1 − r2
( K0
1 − r2
)
از ﻗﻀﯿﮥ اﺣﺘﻤﺎل ﮐﻞ ﻣﯽداﻧﯿﻢ ﮐﻪ اﮔﺮ A iﻫﺎ ) (i = 1, 2,… ,mاﻓﺮازی از Ωﺑﺎﺷﻨﺪ ،دارﯾﻢ:
m
= )fx (x ∑
i =1
) fx (x|A i )P(A i
33
ﻟﺬا ﺧﻮاﻫﯿﻢ داﺷﺖ:
m
= ) E( x ∑
i =1
) E( x|A i )P(A i
34
. را ﺣﺴﺎب ﮐﻨﯿﺪvar( x|x > 0) ﻣﻘﺪار، ﺑﺎﺷﺪx ∼ N(0,σ ) اﮔﺮ:ﻣﺜﺎل
x2
1 −
fx (x) = e 2σ 2
2 πσ
fx (x)
= 2fx (x) x > 0
fx (x|x > 0) = 1 − F(0)
0 x<0
x2
+∞ +∞ 2x − 2
E( x|x > 0) = ∫−∞ x fx (x|x > 0)dx = ∫0 2π σ
e 2σ 2 dx =
π
σ
2 x2
2x
+∞ −
∫ 2σ 2 dx
2
E( x |x > 0) = e =σ2
0 2π σ
2
var( x|x > 0) = σ 2 (1 − )
π
()ﻣﺎﻧﻨﺪ ﻣﺴﺄﻟﮥ ﯾﮑﺴﻮﺳﺎز ﺗﻤﺎم ﻣﻮج در ﺗﻤﺮﯾﻦ ﺳﺮی ﭼﻬﺎرم
35
ﻣﻤﮑﻦ اﺳﺖ واﻗﻌﮥ ﻣﺸﺮوط ﮐﻨﻨﺪه در ارﺗﺒﺎط ﺑﺎ ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ دﯾﮕﺮ ﺑﺎﺷﺪ .ﻣﯽداﻧﯿﻢ ﮐﻪ:
∞+
= )E( y|M ∫−∞ y fy (y|M)dy
اﮔﺮ } M = { x = xﺑﺎﺷﺪ fy (y|x = x) ،را ﺑﺎﯾﺪ در اﻧﺘﮕﺮال ﻓﻮق ﻗﺮار دﻫﯿﻢ:
∞+
= )E( y|x = x) = E( y|x )ﮐﻪ ﻓﻘﻂ ﺗﺎﺑﻊ xاﺳﺖ( ∫−∞ y fy (y|x)dy :
ﺑﻪ ﻫﻤﯿﻦ ﺗﺮﺗﯿﺐ ﺧﻮاﻫﯿﻢ داﺷﺖ:
∞+
= ))E(g( y )|x )ﮐﻪ ﻓﻘﻂ ﺗﺎﺑﻊ xاﺳﺖ( ∫−∞ g(y)fy (y|x)dy :
36
( )
در ﻣﺜﺎﻟﯽ ﮐﻪ داﺷﺘﯿﻢ E( y|x) ،و E y 2 − E( y|x)|xرا دﯾﺪﯾﻢ E( y|x) .در آن ﻣﺜﺎل ﺗﺎﺑﻌﯽ ﺧﻄﯽ از xﺑﻮد:
σy µxy
) η y|x =η y + r (x −ηx ) =η y + 2 (x −ηx
σx σx
µxy
2
σ y2|x =σ y2 (1 − r 2 ) =σ y2 −
σ x2
) E( yﯾﮏ ﻋﺪد اﺳﺖ .ﺑﻪ ﻫﻤﯿﻦ ﺗﺮﺗﯿﺐ ) E( y|x = xدﯾﮕﺮ ﯾﮏ ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ ﻧﯿﺴﺖ ،ﺑﻠﮑﻪ ﺑﺮای ﻫﺮ xﯾﮏ ﻋﺪد اﺳﺖ.
ﯾﻌﻨﯽ ﺗﺎﺑﻌﯽ از xاﺳﺖ:
)Φ(x) = E( y|x
37
ﺧﻮاص ﻣﺘﻮﺳﻂ ﻣﺸﺮوط ﯾﮏ ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ )ﺑﻪ ﺷﺮط ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ دﯾﮕﺮ(:
(1
) E(E( y|x )) = E( y
اﺛﺒﺎت:
∞+ ∞+ ∞+
y fy (y|x)dy fx (x)dx
= )) E(E( y|x
∞− ∫
= E( y|x)fx (x)dx
−∞ ∞∫ ∫−
) Φ( x )Φ (x
∞+ ∞+
= ) ∫−∞ ∫−∞ y fxy (x, y)dxdy = E( y
(2اﮔﺮ xو yﻣﺴﺘﻘﻞ ﺑﺎﺷﻨﺪ ،آﻧﮕﺎه. E( y|x ) = E( y ) :
در ﻫﻤﯿﻦ ﻣﺜﺎل اﮔﺮ r = 0ﺑﺎﺷﺪ )ﯾﻌﻨﯽ xو yﻣﺴﺘﻘﻞ ﺑﺎﺷﻨﺪ( ،ﺧﻮاﻫﯿﻢ داﺷﺖ:
∀x : E( y|x) = η y
39
ﻣﺜﺎل :3آزﻣﺎﯾﺸﻬﺎی ﺳﺎده و ﻣﺴﺘﻘﻞ ﺑﺮﻧﻮﻟﯽ ﺑﺎ اﺣﺘﻤﺎل ﻣﻮﻓﻘﯿﺖ pﺑﻪ ﻃﻮر ﻣﺘﻮاﻟﯽ اﻧﺠﺎم ﻣﯽﺷﻮﻧﺪ .اﮔﺮ Nﺗﻌﺪاد ﺷﮑﺴﺘﻬﺎ ﺗﺎ ﺣﺼﻮل اوﻟﯿﻦ
ﻣﻮﻓﻘﯿﺖ ﺑﺎﺷﺪ E(N ) ،و ) var( Nرا ﭘﯿﺪا ﮐﻨﯿﺪ.
ﺣﻞ :ﻓﺮض ﮐﻨﯿﺪ:
1 اﮔﺮ آزﻣﺎﯾﺶ اول ﻣﻮﻓﻖ ﺑﺎﺷﺪ
z=
0 اﮔﺮ آزﻣﺎﯾﺶ اول ﻣﻮﻓﻖ ﻧﺒﺎﺷﺪ
40
:ﻫﻤﭽﻨﯿﻦ
E(N 2 ) = E E(N 2 |z )
E(N 2 |z = 1) = 0
E(N 2 |z = 0) = E (1 + N )2
2 pq + 2q 2
⇒ E(N ) =
p2
q
⇒ var( N ) = E(N 2 ) − ( E(N ) ) =
2
p2
rq rq
( var( x ) = و E( x ) = :)در ﺗﻮزﯾﻊ دو ﺟﻤﻠﻪای ﻣﻨﻔﯽ داﺷﺘﯿﻢ
p2 p
41
اﻣﯿﺪ رﯾﺎﺿﯽ ﻣﺸﺮوط ﺗﺎﺑﻌﯽ از دو ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ:
∞+ ∞+
= )E(g( x , y )|M ∫ ∫
∞− ∞−
g(x, y)fxy (x, y|M)dxdy
از ﺟﻤﻠﻪ ﻣﯽﺗﻮان واﻗﻌﮥ } M = { x = xرا در ﻧﻈﺮ ﮔﺮﻓﺖ.
ﺣﺎﻟﺖ ﺧﺎص:
) g( x , y ) = g 1 ( x )g 2 ( y
در اﯾﻦ ﺣﺎﻟﺖ دارﯾﻢ:
)E(g 1 ( x )g 2 ( y )|x = x) = E(g 1 (x)g 2 ( y )|x = x) = g 1 (x)E(g 2 ( y )|x = x
ﭼﻮن ﺗﺴﺎوی ﻓﻮق ﺑﺮای ﻫﺮ xﺑﺮﻗﺮار اﺳﺖ ،ﭘﺲ:
) E(g 1 ( x )g 2 ( y )|x ) = g 1 ( x )E(g 2 ( y )|x
42
وﯾﮋﮔﯽ :2
)) E [ E(g( x , y )|x )] = E(g( x , y
اﺛﺒﺎت :ﭼﻮن ) E(g( x , y )|x = xﺗﺎﺑﻌﯽ از xاﺳﺖ ،اﮔﺮ آن را ) θ(xﺑﻨﺎﻣﯿﻢ ،ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ ) θ( xﻗﺎﺑﻞ ﺗﻌﺮﯾﻒ اﺳﺖ.
∞+
= E E(g( x , y )|x )
∫−∞ E(g(x, y )|x = x) fx (x)dx
θ ( x ) )θ(x
ﺣﺎﻟﺖ ﺧﺎص:
) g( x , y ) = g 1 ( x )g 2 ( y
ﺑﻨﺎ ﺑﺮ ﺣﺎﻟﺖ ﺧﺎص در وﯾﮋﮔﯽ 1
در اﯾﻦ ﺣﺎﻟﺖ دارﯾﻢ:
]) E(g 1 ( x )g 2 ( y )) = E [ E(g 1 ( x )g 2 ( y )|x )] = E [g 1 ( x )E(g 2 ( y )|x
43
ﻣﺜﺎﻟﯽ از ﮐﺎرﺑﺮد ﻣﺘﻮﺳﻂ ﻣﺸﺮوط :ﺗﺨﻤﯿﻦ ﯾﮏ ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ:
ﺑﺪون ﻣﺸﺎﻫﺪه:
ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ yرا در ﻧﻈﺮ ﺑﮕﯿﺮﯾﺪ .اﮔﺮ ﺑﺨﻮاﻫﯿﻢ yرا ﺑﺎ ﻋﺪدی ﭘﯿﺶﺑﯿﻨﯽ ﮐﻨﯿﻢ )ﺗﺨﻤﯿﻦ ﺑﺰﻧﯿﻢ( ،دارﯾﻢ:
ŷ = c
و ﺧﻄﺎی ﺗﺨﻤﯿﻦ ﺑﺮاﺑﺮ ﺧﻮاﻫﺪ ﺑﻮد ﺑﺎ:
y − ŷ = y − c
ﻣﯽﺧﻮاﻫﯿﻢ ﺑﻪ ﻧﺤﻮی ﺧﻄﺎ ﻣﯽﻧﯿﻤﻢ ﺷﻮد .ﻣﺜﻼً ﯾﮏ ﻣﻌﯿﺎر ﺑﺮای اﯾﻦ ﻣﻨﻈﻮر ،ﻣﻌﯿﺎر (Mean Absolute Error) maeاﺳﺖ:
) mae = E( y − c
ﻣﯽﺗﻮان ﻧﺸﺎن داد ﺑﺮای اﯾﻨﮑﻪ maeﻣﯽﻧﯿﻤﻢ ﺷﻮد ،ﺑﺎﯾﺪ داﺷﺘﻪ ﺑﺎﺷﯿﻢ:
) c = median( y
44
ﻣﻌﯿﺎر ﻣﺘﺪاولﺗﺮ ،ﻣﻌﯿﺎر (Mean Square Error) mseاﺳﺖ:
mse = E ( y − c)2
ﺣﺎل ﺑﺎﯾﺪ cرا آﻧﭽﻨﺎن ﺑﯿﺎﺑﯿﻢ ﮐﻪ mseﻣﯽﻧﯿﻤﻢ ﺷﻮد .در ﯾﮑﯽ از ﻣﺴﺎﺋﻞ ﻧﺸﺎن دادﯾﺪ ﮐﻪ:
E ( y − c)2 = (η y − c)2 + σ y2
ﭘﺲ mseوﻗﺘﯽ ﻣﯽﻧﯿﻤﻢ ﻣﯽﺷﻮد ﮐﻪ:
c = ηy
ﺗﺨﻤﯿﻨﯽ را ﮐﻪ mseرا ﻣﯽﻧﯿﻤﻢ ﻣﯽﮐﻨﺪ ،ﺗﺨﻤﯿﻦ (Least Square) lsﯾﺎ (Least Mean Square) LMSﻣﯽﻧﺎﻣﻨﺪ.
در اﯾﻨﺠﺎ دﯾﺪﯾﻢ ﮐﻪ ﺗﺨﻤﯿﻦ ﺣﺪاﻗﻞ ﻣﺮﺑﻌﺎت ) yﺑﺪون ﻫﯿﭻ ﻣﺸﺎﻫﺪه( ،ﻫﻤﺎن ﻣﯿﺎﻧﮕﯿﻦ آن اﺳﺖ:
)ﺑﺪون ﻣﺸﺎﻫﺪه( ŷls = η y
در اﯾﻦ ﺻﻮرت ﺣﺪاﻗﻞ ﺧﻄﺎی ﺗﺨﻤﯿﻦ (Minimum Mean Square Error) mmseﺑﺮاﺑﺮ ﺧﻮاﻫﺪ ﺑﻮد ﺑﺎ:
)ﺑﺪون ﻣﺸﺎﻫﺪه( mmse = σ y2
45
ﺑﺎ ﻣﺸﺎﻫﺪه:
ﺣﺎل ﻣﯽﺧﻮاﻫﯿﻢ ﺑﺮ ﻣﺒﻨﺎی اﻃﻼﻋﺎﺗﻤﺎن از ﻣﻘﺪار ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ دﯾﮕﺮی ﻣﺜﻞ y ،xرا ﺗﺨﻤﯿﻦ ﺑﺰﻧﯿﻢ )ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﯾﻨﮑﻪ xو yﺑﻪ ﻧﺤﻮی
ارﺗﺒﺎط دارﻧﺪ و ﻣﺴﺘﻘﻞ ﻧﺒﺎﺷﻨﺪ(.
ﻣﺜﻼً ﻣﻘﺪار x = xرؤﯾﺖ ﺷﺪه و ﻣﯽﺧﻮاﻫﯿﻢ ﺑﻪ وﺳﯿﻠﻪ ﺗﺎﺑﻊ ) Φ(xﻣﻘﺪار ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ yرا ﺗﺨﻤﯿﻦ ﺑﺰﻧﯿﻢ )ﺑﻪ ﻃﻮری ﮐﻪ mse
ﻣﯽﻧﯿﻤﻢ ﺷﻮد(:
ﻣﻨﺤﻨﯽ رﮔﺮﺳﯿﻮن ŷls = Φ(x) :
) yˆ ls = Φ( x
46
:ﻗﻀﯿﻪ
yˆ ls = E( y|x )
:اﺛﺒﺎت
+∞ +∞
mse = E ( y − yˆ )2 = E ( y − Φ( x ))2 = ∫ ∫
−∞ −∞
ˆ 2 fxy (x, y)dxdy
(y − y)
( ) ∫
+∞ +∞
ˆ y (y|x)dy dx
= E E ( y − yˆ )2 |x =
−∞ ∫
fx (x)
−∞
(y − y)f
: ﻣﯽﻧﯿﻤﻢ ﻣﯽﮐﻨﯿﻢx ﻋﺒﺎرت داﺧﻞ اﻧﺘﮕﺮال را ﺑﺮای ﻫﺮ، ﻣﯽﻧﯿﻤﻢ ﺷﻮدmse ﺑﺮای اﯾﻨﮑﻪ
+∞ +∞
A= ∫−∞ ˆ 2 fy (y|x)dy =
(y − y) ∫−∞ ( y − Φ (x) ) 2
fy (y|x)dy = E( y 2
|x) − 2 ˆ E( y|x) + yˆ 2
y
∂A
= 0 ⇒ yˆ ls = E( y|x) : ∀x
∂ŷ
:ﭘﺲ
yˆ ls = E( y|x )
47
اﺻﻞ ﺗﻌﺎﻣﺪ:
ﺧﻄﺎ در ﺗﺨﻤﯿﻦ lsﺑﺮ ﻫﺮ ﺗﺎﺑﻌﯽ از داده ﻋﻤﻮد اﺳﺖ ،ﯾﻌﻨﯽ:
E [( y − yˆ ls )g( x )] = E ( y − E( y|x ) ) g( x ) = 0
اﯾﻦ ﻗﻀﯿﻪ اﺳﺘﻔﺎدۀ زﯾﺎدی دارد.
اﺛﺒﺎت :ﻃﺒﻖ ﺣﺎﻟﺖ ﺧﺎص در وﯾﮋﮔﯽ دوم اﻣﯿﺪ ﻣﺸﺮوط ﺗﺎﺑﻌﯽ از دو ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ دارﯾﻢ:
E ( g( x )h( y ) ) = E g( x )E ( h( y )|x )
ﺑﻪ ازای h( y ) = yدارﯾﻢ:
E ( yg(x ) ) =E[g(x )E(y|x )] ⇒ E g(x ) ( y − E( y|x ) ) = 0
48
. ﻧﺎارﯾﺐ اﺳﺖls ﺗﺨﻤﯿﻦ:ﻗﻀﯿﻪ
E( yˆ ls ) = E [ E( y|x )] = E( y ) :زﯾﺮا
( )
2
) − ( E( y ) ) + E( yˆ ls )
2
mmse = E( y 2 ) − E( yˆ ls
2
= σ y2 − σ y2ˆ
ls
49
ﻧﺘﯿﺠﮥ mmse :1ﻧﺴﺒﺖ ﺑﻪ ﺣﺎﻟﺘﯽ ﮐﻪ ﺑﺪون ﻣﺸﺎﻫﺪۀ y ،xرا ﺗﺨﻤﯿﻦ زده ﺑﻮدﯾﻢ ،ﮐﻤﺘﺮ ﺷﺪه اﺳﺖ:
σ y2 − σ y2ˆ < σ y2
ls
ﻣﺜﺎل :اﮔﺮ xو yﻣﺸﺘﺮﮐﺎً ﮔﻮﺳﯽ ﺑﺎﺷﻨﺪ ،ﺗﺨﻤﯿﻦ ﺑﻬﯿﻨﮥ yﺑﺮ اﺳﺎس ﻣﺸﺎﻫﺪۀ xﻋﺒﺎرت اﺳﺖ از:
σy µxy
yˆ ls = E( y|x ) = η y + r ) ( x − ηx ) = η y + 2 ( x − ηx
σx σx
ﻣﺸﺎﻫﺪه ﻣﯽﺷﻮد ﮐﻪ در اﯾﻨﺠﺎ ﺗﺎﺑﻊ ﺗﺨﻤﯿﻦ ﺧﻄﯽ اﺳﺖ .وﻟﯽ در ﺣﺎﻟﺖ ﮐﻠﯽ ﺗﺎﺑﻊ ) Φ(x) = E( y|xﺗﺎﺑﻌﯽ ﺧﻄﯽ ﻧﯿﺴﺖ و ﻣﻤﮑﻦ اﺳﺖ
ﺗﺎﺑﻊ ﭘﯿﭽﯿﺪهای ﺑﺎﺷﺪ )اﮔﺮ xو yﻣﺸﺘﺮﮐﺎً ﻧﺮﻣﺎل ﺑﺎﺷﻨﺪ E( y|x) ،ﺧﻄﯽ اﺳﺖ ،وﻟﯽ ﻋﮑﺲ اﯾﻦ ﻣﻄﻠﺐ ﺻﺤﯿﺢ ﻧﯿﺴﺖ .ﻣﺜﺎل در ﮐﺘﺎب
ﻓﺮآﯾﻨﺪ ،Papoulisﻓﺼﻞ ،7ﺻﻔﺤﮥ .(19
50
ﺗﺨﻤﯿﻦ ﺧﻄﯽ ﺣﺪاﻗﻞ ﻣﺮﺑﻌﺎت ):(lls
اﮔﺮ اﻟﺰام دارﯾﻢ ﮐﻪ ﺗﺎﺑﻊ ﺗﺨﻤﯿﻦ ) Φ(xﺧﻄﯽ ﺑﺎﺷﺪ ،ﯾﻌﻨﯽ ) Φ(x) = a + b x :رﮔﺮﺳﯿﻮن ﺧﻄﯽ( ،آﻧﮕﺎه ﺑﺎﯾﺪ aو bرا ﭼﻨﺎن
ﺗﻌﯿﯿﻦ ﮐﻨﯿﻢ ﮐﻪ mseﻣﯽﻧﯿﻤﻢ ﺷﻮد )ﺑﻬﺘﺮﯾﻦ ﺗﺎﺑﻊ ﺧﻄﯽ را ﻣﯽ ﯾﺎﺑﯿﻢ ،ﻃﺒﯿﻌﺘﺎً ﻣﻤﮑﻦ اﺳﺖ ﺗﺎﺑﻌﯽ ﻏﯿﺮ ﺧﻄﯽ وﺟﻮد داﺷﺘﻪ ﺑﺎﺷﺪ ﮐﻪ mse
را ﮐﻤﺘﺮ از اﯾﻦ ﮐﻨﺪ .ﺗﺎﺑﻊ ) E( y|xﮐﻤﺘﺮﯾﻦ mseرا در ﻣﯿﺎن ﺗﻤﺎم ﺗﻮاﺑﻊ ﻣﯽداد( .ﭘﺲ دارﯾﻢ:
) mse = E ( y − (a + bx ) ) = E( y 2 ) + a 2 + b2 E( x 2 ) − 2aE( y ) − 2bE( xy ) + 2abE( x
2
σ
∂mse a = η + r y η
= 0 ⇒ 2a − 2E( y ) + 2bE( x ) = 0 y x
∂a σx
⇒
∂mse σ
= 0 ⇒ 2bE( x 2 ) − 2E( xy ) + 2aE( x ) = 0 b = r y
∂b σx
σy
⇒ yˆ lls = ηy + r ) ( x − ηx
σx
y σy
σy rاﺳﺖ. ﯾﻌﻨﯽ ﺧﻄﯽ ﮐﻪ از ﻧﻘﻄﮥ ) (η x ,η yﻣﯽﮔﺬرد و ﺷﯿﺐ آن
r σx
ηy σx
x
ηx
51
اﯾﻦ ﻫﻤﺎن ﭼﯿﺰی اﺳﺖ ﮐﻪ ﺑﺮای ﺗﺨﻤﯿﻦ ) lsﺑﺪون اﻟﺰام ﺑﻪ ﺧﻄﯽ ﺑﻮدن( در ﻣﻮرد ﻓﺮآﯾﻨﺪ ﻧﺮﻣﺎل ﯾﺎﻓﺘﯿﻢ .ﯾﻌﻨﯽ اﮔﺮ ﻓﺮآﯾﻨﺪ ﻧﺮﻣﺎل ﺑﺎﺷﺪ
) xو yﻣﺸﺘﺮﮐﺎً ﻧﺮﻣﺎل ﺑﺎﺷﻨﺪ( ،ﺗﺨﻤﯿﻦ llsﺑﻬﯿﻨﻪ اﺳﺖ )ﻫﻤﺎن ﺗﺨﻤﯿﻦ lsاﺳﺖ(.
اﺛﺒﺎت:
σy σy
E( yˆ lls x ) = E η y x + r ( x − η x )x = η yη x + r
σx σx
( )
E( x 2 ) − ηx2 = σ x2η yη x + rσ x σ y
µ
2
σx xy
) = η yη x + E( xy ) − E( x )E( y ) = E( xy
⇒ E ( y − yˆ lls )x = 0
ﺗﻮﺟﻪ ﮐﻨﯿﺪ ﮐﻪ در ﺗﺨﻤﯿﻦ lsﺧﻄﺎ ﺑﺮ ﻫﺮ ﺗﺎﺑﻌﯽ از دادهﻫﺎ ﻋﻤﻮد ﺑﻮد ،وﻟﯽ در اﯾﻨﺠﺎ ﻓﻘﻂ ﺑﺮ ﺧﻮد xﻋﻤﻮد اﺳﺖ.
52
. ﻧﺎارﯾﺐ اﺳﺖlls ﺗﺨﻤﯿﻦ:ﻗﻀﯿﻪ
:زﯾﺮا
σy
E( yˆ lls ) = η y + r E( x − η x ) = E( y )
σx
: دارﯾﻢlls در ﺗﺨﻤﯿﻦ:ﻗﻀﯿﻪ
mse = σ y2 (1 − r 2 )
:اﺛﺒﺎت
σ y
2
E ( y − yˆ lls ) = E y − η y − r ( x − ηx )
2
σx
2
σ y yσ
= E ( y − η y )2 + r 2 E ( x − η x )2 − 2r
2
E ( x − η x )( y − η y )
σx σx
σy
= σ y2 + r 2 σ y2 − 2r ⋅ rσ xσ y = σ y2 − r 2σ y2 = σ y2 (1 − r 2 )
σx
(.( ﮐﻤﺘﺮ اﺳﺖσ y2 ) ﻧﺴﺒﺖ ﺑﻪ ﺧﻄﺎی ﺗﺨﻤﯿﻦ ﺑﺪون ﻣﺸﺎﻫﺪهmse )در اﯾﻨﺠﺎ ﻫﻢ ﻣﻼﺣﻈﻪ ﻣﯽﮐﻨﯿﺪ ﮐﻪ
53