Download as pdf or txt
Download as pdf or txt
You are on page 1of 55

§2 连续随机变量 1

(continuous r.v.)
回顾
r.v X 的(累积)分布函数
( x ) P{ X ≤ x } , − ∞ < x < ∞
F=

F ( x )是单调不减函数
0 ≤ F ( x) ≤ 1 且
F ( −∞ )
= lim
= , F ( +∞ )
F ( x ) 0= lim
= F ( x) 1
x →−∞ x →+∞
F ( x )右连续函数即
F ( x=
+ 0) lim+ =
F (t ) F ( x)
t→ x
回顾 怎样利用分布函数计算概率
P{a < X ≤ b } ( a < b )

P{a < X ≤
= b} F ( b ) − F ( a )

怎样计算概率 P{ X = c } ( c为常数)
P { X = c } = F ( c ) − F ( c − 0)
§2 连续随机变量 4

随机变量的统计规律可用分布函数刻画.
离散型随机变量有更方便的刻画——频率函数.
对于取值不可列的随机变量如何?
例(污染问题)得到对应PM2.5值 X,其分布函数可
表为 0 x≤a
x−a 经空气质量指数标

F ( x) 
= a< x≤b 准测试:
b − a 一般a=0.0, b=120.4
1 x>b
 1
如果令  a< x≤b x
f ( x) =  b − a
则有 F ( x) = ∫ f (t )dt
0 其他 -∞
§2 连续随机变量 5

若 r.v 的分布函数能够表为
X
x
= F ( x ) ∫−∞ f ( t )dt , − ∞ < x < ∞
其中 f ( t ) ≥则称
0, 为X 连续型r.v,非负可积函数 称为 f (t )
概率密度函数 (简称为 密度函数、密度,pdf ).
设 r.v 的分布函数为
X
 −x
F ( x) = 1


− e θ , x > 0


 0 , x≤0
求 X的密度函数.
X 的密度函数为

 1 e − θx , x > 0
f ( x) = θ

 = F ′( x )


 0 , x≤0
x
即有 F ( x ) ∫−∞ f ( t )dt , − ∞ < x < ∞
=
§2 连续随机变量 6

若 r.v 的分布函数能够表为
X
x
= F ( x ) ∫−∞ f ( t )dt , − ∞ < x < ∞
其中 f ( t ) ≥则称
0, 为X 连续型r.v,非负可积函数 称为 f (t )
概率密度函数 (简称为 密度函数、密度 ).
X 是否是连续函数?
NO!
§2 连续随机变量 7

f (t ) ≥ 0

∫−∞ f ( t )dt = 1
∀ x1 < x2 有
x2
P { x1 < X ≤ x=
2} F ( x2 ) − F ( x=
1) ∫ x1 f ( x )dx
在 f ( x的连续点处有
)
f ( x ) = F ′( x )
是密度函数的本质特征 ,几何意义如下

图形在 x 轴上方, y
f ( x)
下方图形面积为1

x
O
§2 连续随机变量 8

f (t ) ≥ 0

∫−∞ f ( t )dt = 1
∀ x1 < x2 有
x2
P { x1 < X ≤ x=
2} F ( x2 ) − F ( x=
1) ∫ x1 f ( x )dx
在 f ( x的连续点处有
)
f ( x ) = F ′( x )
的几何意义
P { x1 < X ≤ x2 }
y 等于曲边梯形面积

f ( x)

O x1 x2 x
§2 连续随机变量 9

f (t ) ≥ 0

∫−∞ f ( t )dt = 1
∀ x1 < x2 有
x2
P { x1 < X ≤ x=2} F ( x2 ) − F ( x=
1) ∫ x1 f ( x )dx
在 f ( x的连续点处有
)
f ( x ) = F ′( x )
P { x < X ≤ x + ∆x }
设 是 的连续点,
x f ( x )
近似于小矩形面积
F ( x + ∆x ) − F ( x )
f ( x ) = lim+ y
∆x → 0 ∆x
P { x < X ≤ x + ∆x } f ( x)
= lim+
∆x → 0 ∆x
则当 ∆x充分小时,有 x x +∆x
x
O
P { x < X ≤ x + ∆x } ≈ f ( x ) ∆x
§2 连续随机变量 10

设 r.v X的密度函数为
 xk2 , x > 100

f ( x) = 
 0 , x ≤ 100

确定常数 k,并求 的分布函数 X F. ( x )
计算概率 P{50 < X .≤ 1000}
 1 = ∫−∞ f ( x )dx = ∫100 2 dx = k ∴ k =
∞ ∞ k
100
x 100
X 的分布函数是
x 100
x

 ∫100 2 dt , x > 100  1 − 100 , x > 100
F ( x ) = ∫−∞ f ( t )dt =  t = x

 0 , x ≤ 100   0 , x ≤ 100
1000 1000 100
P {50 < X ≤ 1000} = ∫ 50 f ( x )dx = ∫100 x 2 dx
= 100( 1 − 1 )= 9
100 1000 10
§2 连续随机变量 11

设 X 为连续型 r .v , c 为任意常数,问
P { X= c=
}
∀ ∆x > 0 有
{ X= c } ⊂ { c − ∆x < X ≤ c }
∴ 0 ≤ P { X= c } ≤ P { c − ∆x < X ≤ c }
= F ( c ) − F ( c − ∆x ) → 0 ( ∆x → 0)
∴ P{ X = c} = 0
注意分布函数
对于连续型r.v 有 一定连续
P { a < X ≤ b }= P { a ≤ X ≤ b }
= P { a ≤ X < b}
= P { a < X < b}
§2 连续随机变量 12

设 X 为连续型r .v , c 为任意常数,则 P{ X= c=
} 0,
那么{ X = c }是否是不可能事件
f (x)

x
o c
要注意的是,密度函数 f (x) 在某点处 c 的高度,
并不反映 X 取值的概率. 但是,这个高度越大,则
X 取 c 附近的值的概率就越大.
也可以说,在某点密度曲线的高度反映了概率集
中在该点附近的程度.
§2 连续随机变量 13

p−
设 X ~ f ( x ), 若 ∀ 0 < p < 1, 存在常数 x p 满足
xp
P{ X =
≤ xp} ∫ −∞
x )dx p 也即 F ( x p ) = p .
f (=
则称 x p 为分布密度 f ( x ) 的 p 分位数(quantile).

y y
y = F( x)
y = f ( x)

x x
O xp O xp
特殊地, 取p=1/2: xp 为F的中位数(median).
取p=1/4 和3/4: xp 为F的下、上四分之一分位数.
§2 连续随机变量 14

如果 r.v的密度函数为
X
 1 ,a < x < b

f ( x) =  b − a
 0 , 其它

则称 X服从区间 ( a上的 , b) 记为
均匀分布, X ~ U ( a, b ).
∞ b dx
 f ( x ) ≥ 0 , ∫−∞ f ( x )dx = ∫a =1
b−a
故 f ( x的确是密度函数.
)
f ( x ) 的图形 y

1
b−a

x
O a b
§2 连续随机变量 15

如果 r.v的密度函数为
X
 1 ,a < x < b

f ( x) =  b − a
 0 , 其它

则称 X服从区间 ( a上的
, b) 记为
均匀分布, X ~ U ( a, b ).
∀ ( c , c + L) ∈ ( a, b )有

= c + L dx
=L  kL ( k 1 )
P { c < X ≤ c + L} =∫c b − a b − a b−a
即 X 落在 ( c , c + L)中的概率只与区间长度有关,而与位置
无关,这反映了某种“等可能性”,即 r.v X 在区间 ( a, b )上
“等可能取值”.
} 0
若 X ~ U ( a, b ) , c为常数,则 P{ X= c=
§2 连续随机变量 16

将长度为 2l 的木棒任意截为两段, 求这两段木棒与另


一长度为 l 的木棒能构成三角形的概率.
设截下的两段木棒长度分别 X , 2l − X

X 2l − X
则 X ~ U (0, 2l ) X

三段木棒能构成 ∆ { X + l > 2l − X
l + 2l − X > X
l
2l − X

l / 2 < X < 3l / 2
故三段木棒能构成△的概率为
3l / 21 dx = 1
P { l / 2 < X < 3l / 2 } =
∫l / 2 2l 2
§2 连续随机变量 17

在用计算机进行数值运算时,由于字长的限制,数据都
只保留到一定位数,而最后一位数字按四舍五入处理.通
常舍入误差服从均匀分布.
假定在运算中,数据只保留到小数点后第五位,而小
数点第五位以后的数字按四舍五入处理.记 表示真值, x
记 表示舍入后的值,则误差

ε =x − xˆ ~ U ( −0.5 × 10 −5 , 0.5 × 10 −5 )
在实际应用中,如果我们只知某随机变量取值于(a,b),
而没有进一步的关于它的分布的信息,那么我们就认为
它服从区间(a,b)上均匀分布,这种假定,我们称之为
“同等无知原则”.
§2 连续随机变量 18

设随机变量 X 在(2, 5)上服从均匀分布,现对 X 进


行三次独立观测,求至少有两次观测值大于3的概率.
因为随机变量 X 在(2, 5)上服从均匀分布,所以
X 的概率密度为  1
f ( x) =  3 , 2 < x < 5
 0, 其它
1 2 5
事件{对X的观测值大于3}的概率为 P{ X=
> 3} ∫= dx .
3
3 3
设 Y 表示三次独立观测中观测值大于3的次数,则
 2
Y ~ b  3,  ,于是
 3
2 2 2 1 3 2 3 =
20
P{Y=≥ 2} C3 ( ) ⋅ +C3 ( ) .
3 3 3 27
§2 连续随机变量 19

如果 r.v的密度函数为
X

λ e − λ x , x > 0
f ( x) = 
 0 , x≤0
则称 X服从参数为 λ 的 > 0 指数分布 记为 , X ~ EXP ( λ ).
∞ ∞ ∞
 f ( x ) ≥ 0 , ∫−∞ f ( x )dx = ∫0 λ e − λ x dx = ∫0 e − t dt = 1
故 f ( x的确是密度函数.
)
f ( x ) 的图形
f ( x)
λ
λ 越小曲线越平
下方面积为1
x
O
§2 连续随机变量 20

指数分布密度函数
2
λ=1
1.8 λ=1/2
λ=2
1.6

1.4

1.2

f(x)
1

注意: 0.8

一些软件包中的 0.6

0.4

定义(如Matlab) 0.2

0
0 2 4 6 8 10
x
§2 连续随机变量 21

如果 r.v的密度函数为
X

λ e − λ x , x > 0
f ( x) = 
 0 , x≤0
则称 X服从参数为 λ 的 > 0 指数分布 记为 , X ~ EXP ( λ ).
X 的分布函数为
x
F ( x ) = ∫−∞ f ( t )dt F( x)
1
x

 ∫0 λ e − λ t dt , x > 0
=

 0 , x≤0

1 − e − λ x , x > 0 O x
=
 0 , x≤0
§2 连续随机变量 22

在泊松流中,记时间间隔 (0,中出现的质点数为
t] X
Y
]
O t
则 X ~ P ( λ t ), 即有
(λ t )k − λ t
P { X= k= } e , k= 0,1, 2, ⋅ ⋅ ⋅
k!
其中参数 λ > 称为0, 泊松强度.
记 Y表示第一个质点出现的时间,则
} P { X= 0} = e − λ t
P {Y > t=
即 Y的分布函数为
F ( t ) =P {Y ≤ t } =1 − e − λ t ( t > 0)
∴ Y ~ EXP ( λ )
§2 连续随机变量 23

指数分布密度函数
λ e − λ x , x > 0
f ( x) = 
 0 , x≤0
中参数 λ称为失效率 , λ −1表示平均寿命.

电子元件的寿命; 指数分布广泛
电话的通话时间; 应用于可靠性
机器的修理时间; 理论和排队论
营业员为顾客提供的服务时间; ······

为什么各种“寿命”服从指数分布
§2 连续随机变量 24

设 X ~ EXP ( λ ), ∀ s > 0, t > 0 考虑概率


P { X > s + t | X > s} = P { X > s + t , X > s}
P { X > s}
P{ X > s + t }
=
P { X > s}
−λ ( s+t )
= e = e −λt
e −λ s
=1 − (1 − e − λ t ) = 1 − F ( t )
= P{ X > t }
§2 连续随机变量 25

假定自动取款机对每位顾客的服务时间(单位:
分钟)服从 λ=1/3 的指数分布.如果有一顾客恰好
在你前头走到空闲的取款机,求:
(1) 你至少等候3分钟的概率;
(2) 你等候时间在3分钟至6分钟之间的概率.

以 X 表示你前面这位顾客所用服务时间,
F(x) 为 X 的分布函数,则所求概率
(1) P{ X ≥ 3}= 1 − F (3) =1 − (1 − e −3λ=
) e=
−1
0.368

6} F (6) − F (3)= (1 − e −6 λ ) −(1 − e −3λ )


(2) P{3 ≤ X ≤=

= e −1 − e −2 = 0.233
§2 连续随机变量 26

假定自动取款机对每位顾客的服务时间(单位:
分钟)服从 λ=1/3 的指数分布.如果有一顾客恰好
在你前头走到空闲的取款机,求:
(1) 你至少等候3分钟的概率;
(2) 你等候时间在3分钟至6分钟之间的概率.

如果你到达时取款机正在为一名顾客服务,同
时没有其他人在排队等候,问题的答案又如何?
由指数分布的无记忆性,取款机还需要花在你
前面顾客身上的服务时间,与他刚到取款机相同,
从而问题的答案不变.
§2 连续随机变量 27

在泊松流中,记时间间隔 (0,中出现的质点数为
t] Z
Y
]
O t

记 Y 表示第一个质点出现的时间,则 Y ~ EXP ( λ ),
其中参数 λ > 称为
0, 泊松强度.
有这样一种元件,它能经受住外界的若干次冲击,
但第 r 次冲击来到时,元件失效。
假 如 在 (0,t] 内 元 件 受 到 的 冲 击 次 数 Nt 是 一 个
Poisson 流。
当 r=1 时,这种元件的寿命服从指数分布。
§2 连续随机变量 28

指数分布的推广:Γ分布
在泊松流中,记时间间隔 (0,中出现的质点数为
t] Z
Y
]
O t

当 r 是任意自然数时,元件寿命就是第 r 次冲击
来到的时间,记为 X,则 X 是 r.v,它的可靠度函数:
R
= ( t ) P{ X > t }
= P{在(0, t]内出现冲击次数不超过r-1}
r −1
= ∑
= P{ N t i}
i =0

(
r −1 λ t ) i
= e −λt ∑
i =0 i!
§2 连续随机变量 29

X的密度函数为
( λ t ) r −1
f (t ) = λ e −λt
− R '( t ) =
( r − 1)!

 λ r
f ( t ) =  ( r − 1)! e , t > 0
r −1 − λ t
t
 0, t≤0

Γ(r)
替代
§2 连续随机变量 30

一般地,设 X 为连续型 r.v,概率密度为

 λ r r −1 − λ x
f ( x ) =  Γ( r ) x e , x > 0
 0, x≤0
其中 r>0,λ>0 为常数,则称 X 服从参数为(r, λ)的 Γ 分布,
记为 X~Γ(r, λ)。这里

=Γ( r ) ∫0 x r −1e − x dx ( r > 0) 是Γ函数。

当r =1时,Γ(1, λ)
当 r 为自然数时, Γ ( r ) =( r − 1)!
就是指数分布
§2 连续随机变量 31

λ=1 λ=1
2.5 0.2
r=1 r = 10
r = 0.5 0.18 r=5

2 0.16

0.14

1.5 0.12

0.1

1 0.08

0.06

0.5 0.04

0.02

0 0
0 0.5 1 1.5 2 0 5 10 15 20

r :形状参数

λ:尺度参数
§2 连续随机变量 32

例(地震的概率模型)

指数模型的解释:

即使知道上 t 个时间
单位内没有发生地震,
也无法预知下 s 个时间
单位内发生地震的概率

伽马模型的解释:对于任意一次地震,下一次地震紧跟其
后的可能性非常大,并且这种可能性随时间单调下降
§2 连续随机变量 33

如果 r.v的密度函数为
X
( x − µ )2

f ( x) 1 e 2σ 2
, −∞ < x < ∞
2π σ
其中参数 −∞ < µ < ∞则称
, σ > 0,服从参数为 X 的 (µ , σ 2 )
正态分布,记为 X ~ N ( µ , σ 2 )

f ( x) > 0
( x − µ )2

f ( x )dx =
∞ 1 e −
dx
∫−∞ ∫−∞ 2π σ
2σ 2

( x − µ )2
= 1 ∞
e

2σ 2 d (
x−µ)
2π ∫−∞ σ
1
2
=

e −t
2 dt 1 2π 1
2π ∫
=−∞
=

故 f ( x确是密度函数.
)
§2 连续随机变量 34

( x − µ )2
f ( x) = 1 −
e 2σ 2
2π σ
f ( µ + x )= f ( µ − x ),即 y = f关于 ( x) 对称
x=µ
当 x <时 µ , f ′( x ) > 0 , f ( x ) ↑
当 x >时 µ , f ′( x ) < 0, f ( x ) ↓
∴ f ( x )在 x =处取极大值
µ f (µ ) = 1
2π σ
lim
= f ( x) lim
= f ( x) 0
x →−∞ x →+∞
( x ) 轴为渐近线
即曲线 y = f以 Ox
f ( x)
1
2π σ

O µ x
§2 连续随机变量 35

( x − µ )2
f ( x) = 1 e

2σ 2
2π σ σ = 0.5
f ( x) σ =1
1
2π σ σ = 1.5

µ x
O µ
µ : 小 → 大 ,图形向右平移,形状不变
µ : 大 → 小 ,图形向左平移,形状不变
σ : 小 → 大 ,图形变平坦
σ : 大 → 小 ,图形变尖锐
µ : 位置参数 σ : 刻度参数
§2 连续随机变量 36

成年人的各种生理指标:身高、体重、血压、视
力、智商等
一个班的某门课程的考试成绩
海浪的高度
一个地区的日耗电量
各种测量的误差
炮弹弹着点
一个地区的家庭年收入
§2 连续随机变量 37

例(风洞气流速度)
风洞中搜集的
气流速度数据的
正态分布拟合

任何一点的气流
速度受这点附近众
多的随机涡流影响
§2 连续随机变量 38

服从正态分布的指标有什么特点
一般说,若影响某一数量指标的随机因素很多,而每
个因素所起的作用都不太大,则这个指标服从正态分布.

为什么叫“正态”分布
正态分布密度呈现“中间高,两头低”的形态,它
描述了自然界大量存在的随机现象,所以正态分布是自
然界的一种“正常状态 ( normal )”的分布.
正态分布是德国数学家高斯在研究误差理论时得到的,
故正态分布也称为高斯分布.
人物介绍
高斯
§2 连续随机变量 39
§2 连续随机变量 40

例(海洋杂波)
海洋产生的声音记录有很多背景噪声,精确刻画这
些噪声的特征有利于探测感兴趣的声纳信号

噪声特征:高斯成分与偶尔大振幅爆裂的混合模型
§2 连续随机变量 41
§2 连续随机变量 42

特别当
= σ 2 1时,称为 标准正态分布,记为
µ 0,=
X ~ N (0,1)
其概率密度和分布函数分别为
2
1 1 e − t2 dt
2
−x x
=ϕ ( x) = e 2 , Φ ( x) ∫−∞
2π 2π
ϕ ( x)

Φ (− x) Φ ( x)

−x O x x

Φ ( − x ) =1 − Φ ( x )
可查附表 求 Φ( x )的值
§2 连续随机变量 43

t2
Φ( x )=
x 1 e −
dt= P{ X ≤ x }
∫−∞ 2π
2

x 0 1 2 3 4 5 6 7 8 9
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224

2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
§2 连续随机变量 44

X ~ N ( µ , σ 2 ) , X ~ N (0,1) 之间的关系
若 X ~ N ( µ , σ 2 ), 则 Z = X σ− µ ~ N (0,1)
Z 的分布函数为
P { Z ≤ z } P { X σ− µ ≤ z }
(z) =
FZ=
= P{ X ≤ σ z + µ }
X ~ N (µ ,σ 2 ) ( t − µ )2
= 1 σ z+µ−
e
2π σ ∫ −∞
2σ 2dt

= 1 z
e − u2
2
t−µ,

2π −∞
du 令 u = σ
t : −∞ → σ z + µ
= Φ (z)
u : −∞ → z
∴ Z ~ N (0,1)
§2 连续随机变量 45

从某地乘车往火车站有两条路线可走,第一条路线穿
过市区,路程较短,但交通拥挤,所需时间 X ~ N (50,100);
第二条路线走环线,路程较远,但意外阻塞少,所需时间
⑴ 若有70分钟时间可用,问应走哪条路线?⑵ 若只
X ~ N (60,16).
有65分钟时间可用,问又应走哪条路线?
⑴ 在70分钟内,走路线 I 及时赶到的概率为
Φ ( 70 − 50 ) = Φ (2) = 0.9773
P { X ≤ 70} =
10
走路线 II 及时赶到的概率为
Φ ( 70 − 60 ) = Φ (2.5) = 0.9938
P { X ≤ 70} =
4
故在这种情况下应该走第二条路线.
 X ~ N (50,100)  X ~ N (60,16)
∴ X − 50 ~ N (0,1) ∴ X − 60 ~ N (0,1)
10 4
§2 连续随机变量 46

从某地乘车往火车站有两条路线可走,第一条路线穿
过市区,路程较短,但交通拥挤,所需时间 X ~ N (50,100);
第二条路线走环线,路程较远,但意外阻塞少,所需时间
⑴ 若有70分钟时间可用,问应走哪条路线?⑵ 若只
X ~ N (60,16).
有65分钟时间可用,问又应走哪条路线?
⑵ 在65分钟内,走路线 I 及时赶到的概率为
Φ ( 65 − 50 ) = Φ (1.5) = 0.9332
P { X ≤ 65} =
10
走路线 II 及时赶到的概率为
Φ ( 65 − 60 )= Φ (1.25) = 0.8944
P { X ≤ 65} =
4
故在这种情况下应该走第一条路线.
§2 连续随机变量 47

设 X ~ N ( µ , σ 2 ), 求下列概率值:
P{ µ − σ < X ≤ µ + σ }
P { µ − 2σ < X ≤ µ + 2σ }
P { µ − 3σ < X ≤ µ + 3σ }
由引理知 ( X − µ ) / σ ~ N (0,1)
∴ P{µ − σ < X ≤ µ + σ }= P{−1 < X − µ ≤ 1}
σ
= Φ (1) − Φ ( −1)
=2Φ (1) − 1
= 0.6826
P{µ − 2σ < X ≤ µ + 2σ } = P{−2 < X σ− µ ≤ 2}
=Φ2 (2) − 1
= 0.9544
P{µ − 3σ < X ≤ µ + 3σ } = P{−3 < X σ− µ ≤ 3}
=2Φ (3) − 1
= 0.9974
§2 连续随机变量 48

设 X ~ N ( µ , σ 2 ), 求得下列概率值:
P { µ − σ < X ≤ µ + σ } = 0.6826
P { µ − 2σ < X ≤ µ + 2σ } = 0.9544
P { µ − 3σ < X ≤ µ + 3σ } = 0.9974

µ − 3σ µ − 2σ µ −σ µ µ +σ µ + 2σ µ + 3σ
68.26%
95.44%
99.74%

正态r.v的值几乎都落在( µ − 3σ , µ + 3σ )内
§2 连续随机变量 49

在某体育比赛中,设裁判给运动员的表演打的分数
位裁判给某一运动员的评分分别为
X ~ N ( µ , (0.2) 2 ). 4
6.8 , 6.7 , 7.1 , 8.6. 试问这些分数是否公正?
未知参数 是该运动员的真实成绩, µ 由参数 的 µ
意义知,可用 4个评分值的平均数作为估计值,即
µˆ = (6.8 + 6.7 + 7.1 + 8.6) / 4 = 7.33
然而
| 8.6 − µˆ | = | 8.6 − 7.33 | = 1.27 > 0.6 =

依据 3σ原则,这几乎是不可能的,故认为分数不公正.
在体育比赛中为了保证裁判评分的公正性,往
往去掉一个最低分、去掉一个最高分,取余
下分数的平均值作为运动员最后的得分.
应用:数据校验 数据具有“稳健性”
§2 连续随机变量 50

再看一个应用正态分布的例子:
练习 公共汽车车门的高度是按男子与车门顶头碰
头 机 会 在 0.01 以 下 来 设 计 的 。 设 男 子 身 高 X ~
N(170,62)(单位:cm),问车门高度应如何确定?
解 设车门高度为h cm,按设计要求

P{X ≥ h} ≤ 0.01

或 P{X < h} ≥ 0.99,

下面我们来求满足上式的最小的h .
§2 连续随机变量 51

求满足 P{X < h } ≥ 0.99 的最小的 h .

因为 X~N(170,62), X − 170
所以 ~ N (0,1) .
6
 X − 170 h − 170 
故 P{X< h}=P  < 
 6 6 
 h − 170 
= Φ 
 6 
查表得 Φ (2.33)=0.9901>0.99
设计车门高度为
h − 170 184厘米时,可使
因而 = 2.33,
6 男子与车门碰头
机会不超过0.01.
即 h=170+13.98 ≈ 184
§2 连续随机变量 52

贝塔密度用来刻画 [0,1] 区间上的随机变量:


Γ ( a + b ) a −1
f ( u) u (1 − u) b −1 , 0≤ u≤1
Γ ( a )Γ ( b )
2 3

1.5
2
1
1
0.5

0
0 0.2 0.4 0.6 0.8 1
0
0 0.2 0.4 0.6 0.8 1
特别地, a = b = 1
3
a=2, b=2

5
a=6, b=6
时即为均匀分布.
4
2
3

1
2 贝塔密度在Bayes
1

0
0 0.2 0.4 0.6 0.8 1
0
0 0.2 0.4 0.6 0.8 1
统计中非常重要.
a=6, b=2 a=0.5, b=4
§2 连续随机变量 53

设离散型 r.v 的频率函数为


X
P {= k}
X x= pk ,=
k 1, 2, ⋅ ⋅ ⋅
改写为
p( x )  P
= { X x=
}, x x1 , x2 , ⋅ ⋅ ⋅
设连续型 r.v 的密度函数为
X f ( x ) ,则有
f ( x )dx ≈ P { x < X ≤ x + dx }, − ∞ < x < ∞
) f ( x )dx的地位相当 ,例如
则 p( x与
∞ ∞

=
x
p( x ) ∑
= p( xk ) 1 , ∫−∞ =
f ( x )dx 1
k =1

f ( x )dx p( x )
∫ ∑
则公式仍然成立
§2 连续随机变量 54


对离散型 r.v 表示频率函数,即
X
( x)
f= { X x=
P= }, x x1 , x2 , ⋅ ⋅ ⋅
f ( x)
对连续型 r.v 表示密度函数,即有
X

f ( x ) ≥ 0, ∫−∞ f ( x )dx =
1

称 f ( x为
) 的X
r.v 概率函数
§2 连续随机变量 55

•Step1 确定它是离散型或是连续型

•Step2 根据随机变量的来源确定它的分布形式
• 正态分布
• 均匀分布 进一步检验某随机变量的分布,
• 指数分布 并且给出分布参数:
• 泊松分布 “分布检验”与“参数估计”
• 二项分布
• …… END

You might also like