第10次课

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 6

抽样调查:方法论与方法(10) 2008年12月5日

概述
• 分层的目的
第十次课 分层抽样 • 标注
• 精度及分层样本
• 样本的层际分配
• 分层抽样的有关问题
– 1.层数
– 2.事后分层
– 3.抽样的步骤
2

1、分层的目的 1、分层的目的-SRS
• 比如想要估计区域内商务大楼的平均能源耗费情 • 客观的随机选择
况 • 每个元素都具有相等的抽中概率
• 准备从5,318栋商务大楼中抽取样本 • 即使是最差的样本也是等概率的
• 前提条件是:需要控制大楼的规模 – 最坏的样本:未遵循随机原则抽取的样本
• 从而可以比SRS提高精度。 • 而且,其他样本设计在相同费用的条件下,可以取
得更小的抽样误差
– 或者是在相同抽样误差的情况下,费用更低

3 4

1、分层的目的-分层样本 2、标注
• 我们是否可以避免,或者是消除“坏样本” • 此处首先考虑分层的元素样本
呢? • 稍后再考虑分层的群元素
• 分层可以用其他信息,而不是标签(如:
• 对于分层样本的标注与SRS基本相同,只是
i=1,2,…,N)
– 用辅助信息来建立分层
用一个下标来标注层
– 按不漏不重的原则将所有元素归入到H个层中 • 对于一个有H层、N个元素的总体,第h个层
(Mutually exclusive and exhaustive groups) 中有Nh个元素:
– 从各层中抽取样本
– 对每一层进行估计,然后再综合 Yh1 , Yh 2 ,......, YhNh
5 6

北京大学社会学系周皓 1
抽样调查:方法论与方法(10) 2008年12月5日

2、标注-总和、均值和元素方差 2、标注-样本分配
Nh H
nh n
• 对于每一层: Yh = ∑ Yhi • 考虑到: ∑n
i =1
h = n, fh =
Nh
, f =
N
i =1
Nh
1
Yh = Yh N h =
Nh
∑Y hi
• 当每层的fh=f时,epsem等概率抽样的结果是
i =1 – 样本分配是成比例的
1 Nh – 具有代表性的抽样
S =
2
h ∑ (Yhi − Yh )2
N h − 1 i =1 • 其他分配,比如nh=n/H
Yh = Ph – 各层样本量相等
– 最小的(均值的)抽样方差,或者是最小的均值差异
Nh
Sh2 = Ph (1 − Ph )
Nh −1 7 8

2、标注-样本 3、分层估计
• 样本元素: yh1 , yh 2 , yh 3 ,......, yhnh • 从总体的角度: H Nh H Nh
Nh
∑∑ Y hi ∑∑ ( N
h =1 i =1
)Yhi
Y = h =1 i =1
= h

yh = yh nh N N
• 各层的结果: H

1 Nh
∑ N hYh
sh2 = ∑ ( yhi − yh )2
H
= h =1
= ∑ WhYh
nh − 1 i =1 N h =1

1 − fh 2
var( yh ) =
H

nh
sh • 各层的结果: yw = ∑ Wh yh
h =1

se( yh ) = var( yh )
9 10

3、元素级的权重 3、抽样方差
H H
N 1 N
• 层级权重可以被表 yw = ∑ h yh = ∑ h yh • 抽样方差是各层抽样方差的组合:
h =1 N N h =1 nh
示成元素级的权重: ⎡H ⎤
var( yw ) = var ⎢ ∑ Wh yh ⎥
H n H nh
1 Nh 1
∑∑ n ∑∑ w
h

= yhi = yhi
N h =1 i =1 h N h =1 i =1
hi
⎣ h =1 ⎦
H nh = var(W1 y1 + W2 y2 + ... + WH yH )
∑∑ whi yhi = var(W1 y1 ) + var(W2 y2 ) + ... + var(WH yH )
= h =1 i =1
H nh
= W12 var( y1 ) + W22 var( y2 ) + ... + WH2 var( yH )
∑∑ w hi
h =1 i =1
H H
1 − fh 2
= ∑ Wh2 var( yh ) = ∑ Wh2 ( ) sh
• 其中: H nh H nh
Nh N H H h =1 h =1 nh
∑∑ w
h =1 i =1
hi = ∑∑
h =1 i =1
= ∑ nh ( h ) = ∑ N h = N
nh h =1 nh h =1 11 12

北京大学社会学系周皓 2
抽样调查:方法论与方法(10) 2008年12月5日

3、抽样方差-层内SRS 4、方差分析
1 − fh 2
• 加入层的下标: var( yh ) = ( ) sh • 将总方差扩展:
nh
H Nh H Nh

• 再将各层的组合起来:var( yw ) = ∑
H
1 − fh 2 ∑∑ (Y
h =1 i =1
hi − Y ) 2 = ∑∑ (Yhi − Yh + Yh − Y ) 2
h =1 i =1
Wh2 ( ) sh
h =1 nh H Nh
= ∑∑ [(Yhi − Yh ) + (Yh − Y )]2
h =1 i =1
• 对于比例而言:
H
1 − fh
var( p) = ∑ WH2 ( ) ph (1 − ph ) H Nh H Nh
h =1 nh − 1 = ∑∑ (Yhi − Yh )2 + ∑∑ (Yh − Y )2
h =1 i =1 h =1 i =1
H Nh
+2∑∑ (Yhi − Yh )(Yh − Y )
h =1 i =1
13 14

4、方差分析-方差成分 5、分层抽样的设计
• 更进一步的简化: • 均值的抽样方差主要根据组内方差得到
H
⎛ Nh −1 ⎞
Nh H – 组间方差可以忽略?? (注意为什么可以忽略?)
∑∑ ⎜
h =1 i =1 ⎝ −
⎟ (Yhi − Yh ) + ∑ N h (Yh − Y )
2 2
• 通过使层内具有相似性(同质性),而组间差异
N h 1 ⎠ h =1
H H 更大,则抽样方差肯定会减少。
= ∑ ( N h − 1) S h2 + ∑ N h (Yh − Y ) 2
h =1 h =1
• 尽管Y是未知的,但可以利用与Y相关的辅助信
请注意:比较这一
H
( N h − 1) 2 H N h 息X来进行分层
S2 = ∑ Sh + ∑ (Yh − Y ) 2 公式与第12页公式
h =1 N − 1 h =1 N − 1 的区别与联系 • 是否能够有所收获(即方差下降)并不一定:
H H – 取决于每一层中抽取的样本规模nh
≈ ∑ Wh S + ∑ Wh (Yh − Y )
2
h
2

h =1 h =1

= 组内方差+组间方差 15 16

6、例:设计效果
6、例-商务大楼能量消耗情况
h GROUP Nh Yh S h2 • 其中:W1=1182/5318=0.222, …, 因此:
H
1 <50 1182 72.7 11783.6 Y =∑ WhYh = (0.222)(72.7) + ... = 2538.4
h =1

2 50-250 1846 336.1 205657.8


• 利用设计效果deff来判断是否获得更大的精度:
3 250-4000 1395 1690.2 3568970.7
H
⎛ 1 − fh ⎞ 2
4 >=4000 895 11659.0 183039437.2 ∑ Wh2 ⎜ ⎟ sh
• deff<1? 或deff>1? 或deff=1 deff =
var( yw )

h =1 ⎝ nh ⎠
varSRS ( y ) ⎛ 1− f ⎞ 2
Total 5318 2538.4 49012660.3 ⎜ ⎟s
⎝ n ⎠

17 18

北京大学社会学系周皓 3
抽样调查:方法论与方法(10) 2008年12月5日

7、样本分配 7、样本分配-设计效果
• 等概率(epsem)或成比例的样本分布: nh N h
= • deff就可以改写成:
n n n N ⎛ 1− f ⎞ 2
– 因此: fh = h = f =
Nh N var( yw ) ⎜⎝ n ⎟ sw s 2
⎠ = w
– 且:nh=nWh deff = =
y varSRS ( y ) ⎛ 1 − f ⎞ 2 s2
• 对于均值,就无需加权 yw = n ⎜
⎝ n
⎟s

• 且抽样方差也可以简化成: • 另一种静态式可以表明设计效果是如何提高的
H
1 − fh 2 1 − f H 1− f 2
var( yw ) = ∑ Wh2 ( )∑ Wh sh2 = (
H

h =1 nh
) sh = (
n h =1 n
) sw ∑W ( y h h − yw ) 2
deff = 1 − h =1

s2
19 20

7、估计:按比例分配样本
7、按比例分配样本n=500
• 抽样方差和deff:
层 GROUP Nh Yh S h2 Wh nh
⎛ 500 ⎞
⎞ 2 ⎜ 1−
⎛ 1− f 5318 ⎟ ×
1 <50 1182 72.7 11783.6 0.222 111 var( yw ) = ⎜ ⎟ sw =
⎝ n ⎠ ⎜ 500 ⎟
⎝ ⎠
2 50-250 1846 336.1 205657.8 0.347 174
⎣⎡(0.222)(108.6 ) + (0.347)(453.5 ) + ...⎦⎤ = 57647.6
2 2

3 250-4000 1395 1690.2 3568970.7 0.262 131 se( yw ) = 240.1


4 >=4000 895 11659.0 183039437.2 0.168 84
57647.6 57647.6
deff = = = 0.64912
Total 5318 2538.4 49012660.3 1.000 500 (1 − 500 )(49012660.3) 500 88808.95
5318
21 22

7、样本分配-等规模分配
n H
7、按等规模分配样本n=500
nh =
n fh =
• 令: 则: H Nh
层 GROUP Nh Yh S h2 nh
• 除非各层的规模相等,否则将是不等概率epsem
1 <50 1182 72.7 11783.6 125
• 估计需要完整的权重
2 50-250 1846 336.1 205657.8 125
• Deff可能会大于1
• 为什么要用呢? 3 250-4000 1395 1690.2 3568970.7 125

• 假设不同的两个层具有相同的总体方差 4 >=4000 895 11659.0 183039437.2 125


• 等规模分配可以使抽样方差 var( yh − yh ' ) 最小。 Total 5318 2538.4 49012660.3 500

23 24

北京大学社会学系周皓 4
抽样调查:方法论与方法(10) 2008年12月5日

7、估计:按比例分配样本 8、适宜规模(optimum)
H

• 抽样方差和deff: • 在固定经费的条件下:J = ∑
h =1
nh J h

H
1 − fh 2
var( yw ) = ∑ Wh2 ( ) sh nh =
kWh Sh
h =1 nh • 样本分配: Jh
(0.222)2 (108.6)2
= (1 − 125 ) + ...
1182 125
= 37659.8 • 各层之间仍然是成比例的,比例为:Wh Sh J h
se( yw ) = 194.1 • 纽曼(Neyman)分配是在各层的费用都相等时的
deff =
37659.8
= 0.42405 一种特殊情况。
88808.95
25 26

8、适宜规模-估计
8、适宜规模:总费用为15万
• 抽样方差和deff :
层 Wh S h2 Jh Wh S h Jh nh
H
1 − fh 2
1 0.222 108.6 100 2.4 7 var( yw ) = ∑ Wh2 ( ) sh
h =1 nh
2 0.347 453.5 100 15.7 43 (0.222) 2 (108.6) 2
= (1 − 7 ) + ...
1182 7
3 0.262 1889.2 200 35.0 97
= 13719.0
4 0.168 13529.2 400 113.8 314 se( yw ) = 117.1
13719.0
Total 1.000 167.0 461 deff = = 0.154478
88808.95
27 28

9、分层抽样的有关问题-1.层数 9、分层抽样的有关问题-2.事后分层

• 分层需要用分类变量 • 事后分层:用于建立层级的变量在抽样时未知
– 用于分层的变量尽量是分类的 • 利用调查过程中已经收集到的变量来进行分层
– 连续变量可以分成几个类别 • 方差估计作适当的改进,就可能获得更好的精度
• 合适的层数,以获得更大的效益 • 总体控制调整
– 一般来说,3-6层就足够了
• 事后分层要求:
– 当层数在2层及以上时,尽量用更好的分层变量,而不要根
据多个变量粗略地分层 – 每个元素所属的事后层级都已知
– 最多的分层方式就是每层2个元素。即:H=n/2 – 每个事后层级的权重Wg都已知
– 更多的则是每层只有一个元素。

29 30

北京大学社会学系周皓 5
抽样调查:方法论与方法(10) 2008年12月5日

9、分层抽样的有关问题-2.事后分层 9、分层抽样的有关问题-2.事后分层
• 将样本元素按顺序分别放入事后层级中 • 从N=20,000座图书馆中随机抽取n=2000座
• 计算事后分层的均值 • 事后分层:
G
• g=1:去年和前些年已经订阅了杂志的
y ps = ∑ Wg y g
• 抽样方差: g =1
• g=2:去年才刚开始订的
1− f ⎡G G S2 ⎤ • g=3:没有订阅的 g Wg ng ng n yg s 2g
var( y ps ) = ( ) ⎢ ∑ Wg S g2 + ∑ Wg (1 − Wg ) g ⎥
n ⎣⎢ g =1 g =1 N g ⎦⎥ 1 0.20 410 0.205 1250 3.2*106
2 0.25 493 0.247 750 3.0*106
3 0.55 1097 0.548 140 1.5*106
2 6
31
2000 1.000 s =1.5*10
32

9、分层抽样-2.事后分层的估计 9、分层抽样-2.事后分层的精度
• 均值和方差: • 设计效果:
y ps = (0.2)(1250) + (0.25)(750) + (0.55)(140) = 514.5
var( y ps ) var( y )
deff1 = = 0.9575 deff1 = = 0.9563
⎛ 1 − 0.1 ⎞ ⎡ 6 ⎡ 1 − 0.2 ⎤ ⎤
var( y ps ) = ⎜ ⎟ ⎢ (0.2)(3.2*10 ) ⎢1 + + ...⎥ = 998.0 varSRS ( y ) varSRS ( y )
⎝ 2000 ⎠ ⎣ ⎣ 410 ⎦⎥ ⎦
• Wg可能 估计的,并不准确
⎛ 1− f ⎞ G
• Wg的运用及事后的估计可以降低偏差
var( y ) = ⎜ ⎟ ∑ Wg sg = 996.8
2

⎝ n ⎠ g =1 • 多目的的事后分层限制了对Wg的选择。

⎛1− f ⎞ 2
SRS : varSRS ( y ) = ⎜ ⎟ s = 1086.4
⎝ n ⎠
33 34

9、分层抽样-3.分层抽样的步骤
• 分层抽样的步骤如下: – 根据n=nSRS*deff,计算
– 辨别与被测量的变量相关 得到样本
– 决定样本在各层中的分配
的用于分层的变量
• 成比例
– 选择分层变量的分界定 • Neyman或最优分开
– 将总体按层分开 • 等规模
– 如果Sh,deff,S2已知,或 – 根据预计的deff和样本分配,
调整SRS的样本规模
至少估计大概,且层内的
– 抽样,并计算分层后的估计
抽样比可以忽略 值
– 计算按SRS所需要的样本 • 均值与方差
规模
35

北京大学社会学系周皓 6

You might also like