1 导论

统计学：导论
陈全润
对外经济贸易大学统计学院
qchen@uibe.edu.cn
Coffee
✓ 咖啡是目前世界上最受欢迎的饮料之一
✓ 许多人喜爱咖啡，另一些人则认为咖啡具有成瘾性，对健
康有害
真相？
Coffee
• 瑞典国王古斯塔夫相信咖啡是一种毒药，他的实验
✓ 找到两个被判死刑的男性双胞胎
✓ 判决改为终身监禁，但有两个条件：
一个每天喝三壶咖啡，另一个每天喝三壶茶
✓ 朝廷任命了一位医生对其进行监督，需在双胞胎去世时告
知国王
✓ 国王认为喝咖啡的兄弟的命运与死刑没有任何差别，他的
死将彻底证明咖啡是一种毒药！！
Coffee
• 古斯塔夫实验的优点与缺点？
✓ 优点：
选择了两个完全相同的男性双胞胎，可消除性别、年龄和
基因的混杂效应
✓ 缺点：
样本太小，不具备统计说服力
Coffee
• 古斯塔夫的实验结果
✓ 医生和古斯塔夫都死在了两个双胞胎的前面
✓ 喝茶的兄弟活了83岁，在喝茶兄弟去世时，喝咖啡的兄弟
仍然很健康！！
Coffee
• 有关咖啡的最新研究结论
✓ 扣除吸烟、喝酒和锻炼的混杂效应，与不喝咖啡的人相比，
每天喝一杯咖啡的人在各个年龄段去世的概率都会下降5
到6个百分点
✓ 对于每天喝2-3杯咖啡的人来说，男性死亡的风险可以降
低10%，女性可以降低13%
为何选择统计学？
“我一直坚信，未来10年真正性感的职业是统计学家”
——谷歌首席经济学家哈尔.范里安
“了解统计学的人，运气都不会太差”
“让数据说实话，是现代社会的基本生存技能”
世界上的顶尖团队里面都会有一位统计学家！
课程简介
• 课程目标
✓ 培养学生统计思维、激发学生统计兴趣
✓ 不过多强调公式的证明与推导、注重学生实际应用能力的培养
✓ 理解统计学的语言，拓展学生的数据处理能力，以及统计结果
的分析能力
教材及参考书
教材：贾俊平等《统计参考书：Anderson等《商参考书：Iversen & Gergen

学》中国人民大学出版社务与经济统计》机械工业 “Statistics: the Conceptual
出版社 Approach”, Springer
统计学简介
•日常生活中，我们会遇到很多统计案例
某健康报告中提到“去年，由于**疾病，平均1000人中死亡人
数为3.2人。”
如何理解“死亡人数为3.2人”？
统计学简介
某股票连续四年的收益率分别为：
5%，20%，60%，-85%。该股票在4年内的平均收益率？
统计学简介
• 机票超售问题（卖出的票比实际座位多）
是航空公司管理出错了吗？
统计学简介
• 指数：如CPI指数
挖掘机指数？
榨菜指数？
口红指数？
统计学简介
• 人类发展指数 Human Development Index (HDI)

统计学简介
• 全概率公式与贝叶斯公式
P(N1)=0.2
P(L1)=0.5
P(N2)=0.4
P(L2)=0.3
P(N3)=0.7
P(L3)=0.2
从家到公司不迟到的概率？
到达公司未迟到，选择第1条路的概率？
统计学简介
• “假阳性”问题
一位体检者的化验单显示某种罕见病的化验结果为阳性（+），
这位体检者实际健康的概率有多大？
统计学简介
✓一些统计术语：
“…在统计意义上显著”
“…抽样误差为±5%”
“…有很强的相关性”
正确理解统计对于每个人都是必要的！！
统计学简介
• 什么是统计学(Statistics)？
1. 统计学是收集、分析、表述和解释数据的科学（不列颠百科
全书）
2. 统计是一门收集、分析、解释和提供数据的科学（韦伯斯特
国际辞典第3版）
3. 统计指的是一组方法，用来设计实验、获得数据，然后在这
些数据的基础上组织、概括、演示、分析、解释和得出结论
（Mario F. Triola,《初级统计学》）
统计学简介
统计学
是收集、处理、分析、解释数据并从数据中得出结论的科学
✓ 收集数据：取得数据
✓ 处理数据：数据的整理与数据的图表展示
✓ 分析数据：利用统计方法分析数据
✓ 数据解释：结果的说明
✓ 得到结论：从数据分析中得出客观结论
在统计学的帮助下，可以将数据中的信息转化为知识!!
数据很宝贵，从数据中提取出的知识更宝贵!!
统计学简介
• 统计方法
➢ 描述统计(Descriptive Statistics)
➢ 推断统计(Inferential Statistics)
✓ 参数估计
✓ 假设检验
统计学简介
• 描述统计
✓ 研究数据收集、处理、汇总、图表描述、概括与分析等
的统计方法
✓ 内容
– 搜集数据
– 整理数据
– 展示数据
– 描述性分析（如均值、方差、相关性等）
统计学简介
• 描述统计
✓ 目的
– 描述数据特征
– 找出数据的基本规律
✓ 随机性与规律性的关系(Randomness and Regularity)

二者是好朋友！
– 将若干随机事件放到一起，将产生很漂亮的规律性
抛硬币一次，结果不可预测；但抛多次（如100次），大约有50次正面朝上
（规律性）
– 规律也带有随机性
今天抛100次可能52次朝上，明天抛100次可能48次朝上
统计学简介
• 推断统计
很多情况下，不可能对每个个体都进行考察（成本很高，有破
坏性）
✓ 研究如何利用样本数据来推断总体特征的统计方法
总
体样
本
统计学简介
• 推断统计
✓ 内容
▪ 参数估计
收入增长1%平均会给生育率带来多大的影响？
▪ 假设检验
新药是否有效的提高了疾病的治愈率？
要求驾驶员系安全带是否减少了交通事故死亡人数？
✓ 目的
▪ 对总体特征作出推断
统计学简介
• 统计的应用领域
几乎所有的领域都要用到统计学！
社会、经济、管理、农业、工业、生物、医学、互联网……
✓ 充满不确定性的世界
✓ 高成本的数据采集过程（大数据时代这一成本正在下降）
✓ 风险与破坏性
统计学简介
• 课程内容
第1章导论
第2章数据的搜集
第3章数据的图表展示
第4章数据的概括性度量
第5章概率与概率分布（**）
第6章统计量及其抽样分布
第7章参数估计
第8章假设检验
第9章分类数据分析（**）
第10章方差分析
第11章一元线性回归
第12章多元线性回归
第13章时间序列分析和预测
第14章指数
统计学简介
• 统计数据的类型
区分数据类型非常重要，不同的数据类型需要采用不同的统计
方法进行处理
✓ 按计量尺度(Scale)分
分类数据、顺序数据、数值型数据
✓ 按数据的收集方法分
观测数据、实验数据
✓ 按时间状况分
截面数据、时间序列数据
统计学简介
按计量尺度分
1. 分类数据(categorical data)
– 只能归于某一类别的非数字型数据
– 对事物进行分类的结果，数据表现为类别，用文字来表
述
– 例如，人口按性别分为男、女两类
2. 顺序数据(rank data)
– 只能归于某一有序类别的非数字型数据
– 对事物类别顺序的测度，数据表现为类别，用文字来表
述
– 例如，产品分为一等品、二等品、三等品、次品等
统计学简介
按计量尺度分
3. 数值型数据(metric data)
– 按数字尺度测量的观察值
– 结果表现为具体的数值，对事物的精确测度
– 例如：身高为175cm、168cm、183cm
定性数据（qualitative data分类数据与顺序数据）
定量数据（quantitative data 数值型数据）
统计学简介
按收集方法分
1. 观测数据(observational data)
– 通过调查或观测而收集到的数据
– 在没有对事物人为控制的条件下而得到的
– 有关社会经济现象的统计数据几乎都是观测数据
2. 实验数据(experimental data)
– 在实验中控制实验对象而收集到的数据
– 比如，对一种新药疗效的实验，对一种新的农作物品种
的实验等
– 自然科学领域的数据大多数都为实验数据
统计学简介
• 按时间状况分
1. 截面数据(cross-sectional data)
– 在相同或近似相同的时间点上收集的数据
– 描述现象在某一时刻的情况
– 比如，2015年中国各地区的地区生产总值数据
2. 时间序列数据(time series data)
– 在不同时间上收集到的数据
– 描述现象随时间变化的情况
– 比如，2000-2015年国内生产总值数据
统计学简介
• 按时间状况分
3. 面板数据(panel data)
– 一段时间内跟踪同一组个体的数据
– 更多的个体动态信息，更大的样本量
– 比如，2000-2015年中国各地区的地区生产总值数据
统计学简介
• 统计学中的几个基本概念
✓ 总体(population)
所研究的全部个体的集合
分为有限总体和无限总体:
➢ 有限总体的范围能够明确确定，且元素的数目是有限的
➢ 无限总体所包括的元素是无限的，不可数的
企业生产的一批特定灯泡的寿命 vs. 企业生产的灯泡的寿命
搜集总体全部数据的调查过程称为普查(census)
统计学简介
• 统计学中的几个基本概念
✓ 样本 (sample)
– 从总体中抽取的一部分元素的集合，总体的子集
– 构成样本的元素的数目称为样本容量或样本量
(sample size)
搜集样本数据的调查过程称为抽样调查(sample survey)
统计学简介
✓ 参数(parameter)
– 描述总体特征的概括性数字度量，是研究者想要了解的
总体的某种特征的值
– 所关心的参数主要有总体均值()、标准差()、总体比例
()等。总体参数通常用希腊字母表示
✓ 统计量(statistic)
– 用来描述样本特征的概括性数字度量，它是根据样本数
据计算出来的一些量，是样本的函数
– 所关心的样本统计量有样本均值(x)、样本标准差(s)、样
本比例(p)等。样本统计量通常用小写英文字母来表示
统计学简介
总体
样本
☺ ☺ ☺ ☺ ☺
☺ ☺
☺ ☺ ☺ ☺
参数统计量
 平均数 x
 标准差 s
 比例 p
统计学简介
✓ 变量
说明现象某种特征的概念，两次观察结果会呈现出变化
– 如商品销售额、受教育程度、产品的质量等级等
– 变量的具体表现称为变量值，即数据
变量可以分为
– 分类变量(categorical variable) ：说明事物类别
– 顺序变量(rank variable)：说明事物有序类别
– 数值型变量(metric variable) ：说明事物数字特征
• 离散变量：取有限个值（如年龄）
• 连续变量：可以取无穷多个值
统计学简介
• 变量的其他分类
✓ 随机变量和非随机变量
大部分变量为随机变量（不能准确预测其结果的变量）
非随机变量的例子：年龄
✓ 经验变量 (empirical variables) 和理论变量 (theoretical

variables)
– 经验变量所描述的是我们周围可以观察到的事物
– 理论变量则是由统计学家用数学方法所构造出来的一些
变量，比如，z 统计量、t 统计量、2统计量、F 统计量
等

1 导论

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

1 导论

Uploaded by

Copyright:

Available Formats

统计学：导论

教材：贾俊平等《统计参考书：Anderson等《商参考书：Iversen & Gergen

• 人类发展指数 Human Development Index (HDI)

✓ 随机性与规律性的关系(Randomness and Regularity)

企业生产的一批特定灯泡的寿命 vs. 企业生产的灯泡的寿命

✓ 经验变量 (empirical variables) 和理论变量 (theoretical

You might also like

1 导论

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

1 导论

Uploaded by

Copyright:

Available Formats

统计学：导论

教材：贾俊平等 《统计 参考书：Anderson等 《商 参考书：Iversen & Gergen

• 人类发展指数 Human Development Index (HDI)

✓ 随机性与规律性的关系(Randomness and Regularity)

企业生产的一批特定灯泡的寿命 vs. 企业生产的灯泡的寿命

✓ 经 验 变 量 (empirical variables) 和 理 论 变 量 (theoretical

You might also like

教材：贾俊平等《统计参考书：Anderson等《商参考书：Iversen & Gergen

✓ 经验变量 (empirical variables) 和理论变量 (theoretical