Download as pdf or txt
Download as pdf or txt
You are on page 1of 40

统计学:导论

陈全润
对外经济贸易大学统计学院
qchen@uibe.edu.cn
Coffee

✓ 咖啡是目前世界上最受欢迎的饮料之一
✓ 许多人喜爱咖啡,另一些人则认为咖啡具有成瘾性,对健
康有害
真相?
Coffee

• 瑞典国王古斯塔夫相信咖啡是一种毒药,他的实验
✓ 找到两个被判死刑的男性双胞胎
✓ 判决改为终身监禁,但有两个条件:
一个每天喝三壶咖啡,另一个每天喝三壶茶
✓ 朝廷任命了一位医生对其进行监督,需在双胞胎去世时告
知国王
✓ 国王认为喝咖啡的兄弟的命运与死刑没有任何差别,他的
死将彻底证明咖啡是一种毒药!!
Coffee

• 古斯塔夫实验的优点与缺点?
✓ 优点:
选择了两个完全相同的男性双胞胎,可消除性别、年龄和
基因的混杂效应
✓ 缺点:
样本太小,不具备统计说服力
Coffee

• 古斯塔夫的实验结果
✓ 医生和古斯塔夫都死在了两个双胞胎的前面
✓ 喝茶的兄弟活了83岁,在喝茶兄弟去世时,喝咖啡的兄弟
仍然很健康!!
Coffee

• 有关咖啡的最新研究结论
✓ 扣除吸烟、喝酒和锻炼的混杂效应,与不喝咖啡的人相比,
每天喝一杯咖啡的人在各个年龄段去世的概率都会下降5
到6个百分点
✓ 对于每天喝2-3杯咖啡的人来说,男性死亡的风险可以降
低10%,女性可以降低13%
为何选择统计学?

“我一直坚信,未来10年真正性感的职业是统计学家”
——谷歌首席经济学家哈尔.范里安

“了解统计学的人,运气都不会太差”

“让数据说实话,是现代社会的基本生存技能”

世界上的顶尖团队里面都会有一位统计学家!
课程简介

• 课程目标
✓ 培养学生统计思维、激发学生统计兴趣

✓ 不过多强调公式的证明与推导、注重学生实际应用能力的培养

✓ 理解统计学的语言,拓展学生的数据处理能力,以及统计结果
的分析能力
教材及参考书

教材:贾俊平等 《统计 参考书:Anderson等 《商 参考书:Iversen & Gergen


学》中国人民大学出版社 务与经济统计》机械工业 “Statistics: the Conceptual
出版社 Approach”, Springer
统计学简介

•日常生活中,我们会遇到很多统计案例

某健康报告中提到“去年,由于**疾病,平均1000人中死亡人
数为3.2人。”

如何理解“死亡人数为3.2人”?
统计学简介

某股票连续四年的收益率分别为:
5%,20%,60%,-85%。该股票在4年内的平均收益率?
统计学简介

• 机票超售问题(卖出的票比实际座位多)

是航空公司管理出错了吗?
统计学简介

• 指数:如CPI指数

挖掘机指数?

榨菜指数?

口红指数?
统计学简介

• 人类发展指数 Human Development Index (HDI)


统计学简介

• 全概率公式与贝叶斯公式

P(N1)=0.2
P(L1)=0.5
P(N2)=0.4
P(L2)=0.3
P(N3)=0.7
P(L3)=0.2

从家到公司不迟到的概率?

到达公司未迟到,选择第1条路的概率?
统计学简介

• “假阳性”问题
一位体检者的化验单显示某种罕见病的化验结果为阳性(+),
这位体检者实际健康的概率有多大?
统计学简介

✓一些统计术语:
“…在统计意义上显著”

“…抽样误差为±5%”

“…有很强的相关性”

正确理解统计对于每个人都是必要的!!
统计学简介

• 什么是统计学(Statistics)?
1. 统计学是收集、分析、表述和解释数据的科学(不列颠百科
全书)
2. 统计是一门收集、分析、解释和提供数据的科学(韦伯斯特
国际辞典第3版)
3. 统计指的是一组方法,用来设计实验、获得数据,然后在这
些数据的基础上组织、概括、演示、分析、解释和得出结论
(Mario F. Triola,《初级统计学》)
统计学简介

统计学
是收集、处理、分析、解释数据并从数据中得出结论的科学

✓ 收集数据:取得数据
✓ 处理数据:数据的整理与数据的图表展示
✓ 分析数据:利用统计方法分析数据
✓ 数据解释:结果的说明
✓ 得到结论:从数据分析中得出客观结论
在统计学的帮助下,可以将数据中的信息转化为知识!!
数据很宝贵,从数据中提取出的知识更宝贵!!
统计学简介

• 统计方法
➢ 描述统计(Descriptive Statistics)

➢ 推断统计(Inferential Statistics)

✓ 参数估计

✓ 假设检验
统计学简介

• 描述统计
✓ 研究数据收集、处理、汇总、图表描述、概括与分析等
的统计方法
✓ 内容
– 搜集数据
– 整理数据
– 展示数据
– 描述性分析(如均值、方差、相关性等)
统计学简介

• 描述统计
✓ 目的
– 描述数据特征
– 找出数据的基本规律

✓ 随机性与规律性的关系(Randomness and Regularity)


二者是好朋友!
– 将若干随机事件放到一起,将产生很漂亮的规律性
抛硬币一次,结果不可预测;但抛多次(如100次),大约有50次正面朝上
(规律性)
– 规律也带有随机性
今天抛100次可能52次朝上,明天抛100次可能48次朝上
统计学简介

• 推断统计
很多情况下,不可能对每个个体都进行考察(成本很高,有破
坏性)
✓ 研究如何利用样本数据来推断总体特征的统计方法


体 样

统计学简介

• 推断统计
✓ 内容
▪ 参数估计
收入增长1%平均会给生育率带来多大的影响?
▪ 假设检验
新药是否有效的提高了疾病的治愈率?
要求驾驶员系安全带是否减少了交通事故死亡人数?

✓ 目的
▪ 对总体特征作出推断
统计学简介

• 统计的应用领域

几乎所有的领域都要用到统计学!
社会、经济、管理、农业、工业、生物、医学、互联网……
✓ 充满不确定性的世界
✓ 高成本的数据采集过程(大数据时代这一成本正在下降)
✓ 风险与破坏性
统计学简介
• 课程内容
第1章导论
第2章数据的搜集
第3章数据的图表展示
第4章数据的概括性度量
第5章概率与概率分布(**)
第6章统计量及其抽样分布
第7章参数估计
第8章假设检验
第9章分类数据分析(**)
第10章方差分析
第11章一元线性回归
第12章多元线性回归
第13章时间序列分析和预测
第14章指数
统计学简介

• 统计数据的类型
区分数据类型非常重要,不同的数据类型需要采用不同的统计
方法进行处理

✓ 按计量尺度(Scale)分
分类数据、顺序数据、数值型数据
✓ 按数据的收集方法分
观测数据、实验数据
✓ 按时间状况分
截面数据、时间序列数据
统计学简介

按计量尺度分
1. 分类数据(categorical data)
– 只能归于某一类别的非数字型数据
– 对事物进行分类的结果,数据表现为类别,用文字来表

– 例如,人口按性别分为男、女两类
2. 顺序数据(rank data)
– 只能归于某一有序类别的非数字型数据
– 对事物类别顺序的测度,数据表现为类别,用文字来表

– 例如,产品分为一等品、二等品、三等品、次品等
统计学简介

按计量尺度分
3. 数值型数据(metric data)
– 按数字尺度测量的观察值

– 结果表现为具体的数值,对事物的精确测度

– 例如:身高为175cm、168cm、183cm

定性数据(qualitative data分类数据与顺序数据)
定量数据(quantitative data 数值型数据)
统计学简介

按收集方法分
1. 观测数据(observational data)
– 通过调查或观测而收集到的数据
– 在没有对事物人为控制的条件下而得到的
– 有关社会经济现象的统计数据几乎都是观测数据
2. 实验数据(experimental data)
– 在实验中控制实验对象而收集到的数据
– 比如,对一种新药疗效的实验,对一种新的农作物品种
的实验等
– 自然科学领域的数据大多数都为实验数据
统计学简介

• 按时间状况分
1. 截面数据(cross-sectional data)
– 在相同或近似相同的时间点上收集的数据
– 描述现象在某一时刻的情况
– 比如,2015年中国各地区的地区生产总值数据
2. 时间序列数据(time series data)
– 在不同时间上收集到的数据
– 描述现象随时间变化的情况
– 比如,2000-2015年国内生产总值数据
统计学简介

• 按时间状况分
3. 面板数据(panel data)
– 一段时间内跟踪同一组个体的数据

– 更多的个体动态信息,更大的样本量

– 比如,2000-2015年中国各地区的地区生产总值数据
统计学简介

• 统计学中的几个基本概念
✓ 总体(population)
所研究的全部个体的集合
分为有限总体和无限总体:
➢ 有限总体的范围能够明确确定,且元素的数目是有限的

➢ 无限总体所包括的元素是无限的,不可数的

企业生产的一批特定灯泡的寿命 vs. 企业生产的灯泡的寿命

搜集总体全部数据的调查过程称为普查(census)
统计学简介

• 统计学中的几个基本概念
✓ 样本 (sample)
– 从总体中抽取的一部分元素的集合,总体的子集
– 构成样本的元素的数目称为样本容量或样本量
(sample size)

搜集样本数据的调查过程称为抽样调查(sample survey)
统计学简介

✓ 参数(parameter)
– 描述总体特征的概括性数字度量,是研究者想要了解的
总体的某种特征的值
– 所关心的参数主要有总体均值()、标准差()、总体比例
()等。总体参数通常用希腊字母表示
✓ 统计量(statistic)
– 用来描述样本特征的概括性数字度量,它是根据样本数
据计算出来的一些量,是样本的函数
– 所关心的样本统计量有样本均值(x)、样本标准差(s)、样
本比例(p)等。样本统计量通常用小写英文字母来表示
统计学简介

总体
样本

☺ ☺ ☺ ☺ ☺
☺ ☺
☺ ☺ ☺ ☺

参数 统计量

 平均数 x
 标准差 s
 比 例 p
统计学简介

✓ 变量
说明现象某种特征的概念,两次观察结果会呈现出变化
– 如商品销售额、受教育程度、产品的质量等级等
– 变量的具体表现称为变量值,即数据

变量可以分为
– 分类变量(categorical variable) :说明事物类别
– 顺序变量(rank variable):说明事物有序类别
– 数值型变量(metric variable) :说明事物数字特征
• 离散变量:取有限个值 (如年龄)
• 连续变量:可以取无穷多个值
统计学简介

• 变量的其他分类
✓ 随机变量和非随机变量
大部分变量为随机变量(不能准确预测其结果的变量)
非随机变量的例子:年龄

✓ 经 验 变 量 (empirical variables) 和 理 论 变 量 (theoretical


variables)
– 经验变量所描述的是我们周围可以观察到的事物
– 理论变量则是由统计学家用数学方法所构造出来的一些
变量,比如,z 统计量、t 统计量、2统计量、F 统计量

You might also like