Professional Documents
Culture Documents
1 导论
1 导论
陈全润
对外经济贸易大学统计学院
qchen@uibe.edu.cn
Coffee
✓ 咖啡是目前世界上最受欢迎的饮料之一
✓ 许多人喜爱咖啡,另一些人则认为咖啡具有成瘾性,对健
康有害
真相?
Coffee
• 瑞典国王古斯塔夫相信咖啡是一种毒药,他的实验
✓ 找到两个被判死刑的男性双胞胎
✓ 判决改为终身监禁,但有两个条件:
一个每天喝三壶咖啡,另一个每天喝三壶茶
✓ 朝廷任命了一位医生对其进行监督,需在双胞胎去世时告
知国王
✓ 国王认为喝咖啡的兄弟的命运与死刑没有任何差别,他的
死将彻底证明咖啡是一种毒药!!
Coffee
• 古斯塔夫实验的优点与缺点?
✓ 优点:
选择了两个完全相同的男性双胞胎,可消除性别、年龄和
基因的混杂效应
✓ 缺点:
样本太小,不具备统计说服力
Coffee
• 古斯塔夫的实验结果
✓ 医生和古斯塔夫都死在了两个双胞胎的前面
✓ 喝茶的兄弟活了83岁,在喝茶兄弟去世时,喝咖啡的兄弟
仍然很健康!!
Coffee
• 有关咖啡的最新研究结论
✓ 扣除吸烟、喝酒和锻炼的混杂效应,与不喝咖啡的人相比,
每天喝一杯咖啡的人在各个年龄段去世的概率都会下降5
到6个百分点
✓ 对于每天喝2-3杯咖啡的人来说,男性死亡的风险可以降
低10%,女性可以降低13%
为何选择统计学?
“我一直坚信,未来10年真正性感的职业是统计学家”
——谷歌首席经济学家哈尔.范里安
“了解统计学的人,运气都不会太差”
“让数据说实话,是现代社会的基本生存技能”
世界上的顶尖团队里面都会有一位统计学家!
课程简介
• 课程目标
✓ 培养学生统计思维、激发学生统计兴趣
✓ 不过多强调公式的证明与推导、注重学生实际应用能力的培养
✓ 理解统计学的语言,拓展学生的数据处理能力,以及统计结果
的分析能力
教材及参考书
•日常生活中,我们会遇到很多统计案例
某健康报告中提到“去年,由于**疾病,平均1000人中死亡人
数为3.2人。”
如何理解“死亡人数为3.2人”?
统计学简介
某股票连续四年的收益率分别为:
5%,20%,60%,-85%。该股票在4年内的平均收益率?
统计学简介
• 机票超售问题(卖出的票比实际座位多)
是航空公司管理出错了吗?
统计学简介
• 指数:如CPI指数
挖掘机指数?
榨菜指数?
口红指数?
统计学简介
• 全概率公式与贝叶斯公式
P(N1)=0.2
P(L1)=0.5
P(N2)=0.4
P(L2)=0.3
P(N3)=0.7
P(L3)=0.2
从家到公司不迟到的概率?
到达公司未迟到,选择第1条路的概率?
统计学简介
• “假阳性”问题
一位体检者的化验单显示某种罕见病的化验结果为阳性(+),
这位体检者实际健康的概率有多大?
统计学简介
✓一些统计术语:
“…在统计意义上显著”
“…抽样误差为±5%”
“…有很强的相关性”
正确理解统计对于每个人都是必要的!!
统计学简介
• 什么是统计学(Statistics)?
1. 统计学是收集、分析、表述和解释数据的科学(不列颠百科
全书)
2. 统计是一门收集、分析、解释和提供数据的科学(韦伯斯特
国际辞典第3版)
3. 统计指的是一组方法,用来设计实验、获得数据,然后在这
些数据的基础上组织、概括、演示、分析、解释和得出结论
(Mario F. Triola,《初级统计学》)
统计学简介
统计学
是收集、处理、分析、解释数据并从数据中得出结论的科学
✓ 收集数据:取得数据
✓ 处理数据:数据的整理与数据的图表展示
✓ 分析数据:利用统计方法分析数据
✓ 数据解释:结果的说明
✓ 得到结论:从数据分析中得出客观结论
在统计学的帮助下,可以将数据中的信息转化为知识!!
数据很宝贵,从数据中提取出的知识更宝贵!!
统计学简介
• 统计方法
➢ 描述统计(Descriptive Statistics)
➢ 推断统计(Inferential Statistics)
✓ 参数估计
✓ 假设检验
统计学简介
• 描述统计
✓ 研究数据收集、处理、汇总、图表描述、概括与分析等
的统计方法
✓ 内容
– 搜集数据
– 整理数据
– 展示数据
– 描述性分析(如均值、方差、相关性等)
统计学简介
• 描述统计
✓ 目的
– 描述数据特征
– 找出数据的基本规律
• 推断统计
很多情况下,不可能对每个个体都进行考察(成本很高,有破
坏性)
✓ 研究如何利用样本数据来推断总体特征的统计方法
总
体 样
本
统计学简介
• 推断统计
✓ 内容
▪ 参数估计
收入增长1%平均会给生育率带来多大的影响?
▪ 假设检验
新药是否有效的提高了疾病的治愈率?
要求驾驶员系安全带是否减少了交通事故死亡人数?
✓ 目的
▪ 对总体特征作出推断
统计学简介
• 统计的应用领域
几乎所有的领域都要用到统计学!
社会、经济、管理、农业、工业、生物、医学、互联网……
✓ 充满不确定性的世界
✓ 高成本的数据采集过程(大数据时代这一成本正在下降)
✓ 风险与破坏性
统计学简介
• 课程内容
第1章导论
第2章数据的搜集
第3章数据的图表展示
第4章数据的概括性度量
第5章概率与概率分布(**)
第6章统计量及其抽样分布
第7章参数估计
第8章假设检验
第9章分类数据分析(**)
第10章方差分析
第11章一元线性回归
第12章多元线性回归
第13章时间序列分析和预测
第14章指数
统计学简介
• 统计数据的类型
区分数据类型非常重要,不同的数据类型需要采用不同的统计
方法进行处理
✓ 按计量尺度(Scale)分
分类数据、顺序数据、数值型数据
✓ 按数据的收集方法分
观测数据、实验数据
✓ 按时间状况分
截面数据、时间序列数据
统计学简介
按计量尺度分
1. 分类数据(categorical data)
– 只能归于某一类别的非数字型数据
– 对事物进行分类的结果,数据表现为类别,用文字来表
述
– 例如,人口按性别分为男、女两类
2. 顺序数据(rank data)
– 只能归于某一有序类别的非数字型数据
– 对事物类别顺序的测度,数据表现为类别,用文字来表
述
– 例如,产品分为一等品、二等品、三等品、次品等
统计学简介
按计量尺度分
3. 数值型数据(metric data)
– 按数字尺度测量的观察值
– 结果表现为具体的数值,对事物的精确测度
– 例如:身高为175cm、168cm、183cm
定性数据(qualitative data分类数据与顺序数据)
定量数据(quantitative data 数值型数据)
统计学简介
按收集方法分
1. 观测数据(observational data)
– 通过调查或观测而收集到的数据
– 在没有对事物人为控制的条件下而得到的
– 有关社会经济现象的统计数据几乎都是观测数据
2. 实验数据(experimental data)
– 在实验中控制实验对象而收集到的数据
– 比如,对一种新药疗效的实验,对一种新的农作物品种
的实验等
– 自然科学领域的数据大多数都为实验数据
统计学简介
• 按时间状况分
1. 截面数据(cross-sectional data)
– 在相同或近似相同的时间点上收集的数据
– 描述现象在某一时刻的情况
– 比如,2015年中国各地区的地区生产总值数据
2. 时间序列数据(time series data)
– 在不同时间上收集到的数据
– 描述现象随时间变化的情况
– 比如,2000-2015年国内生产总值数据
统计学简介
• 按时间状况分
3. 面板数据(panel data)
– 一段时间内跟踪同一组个体的数据
– 更多的个体动态信息,更大的样本量
– 比如,2000-2015年中国各地区的地区生产总值数据
统计学简介
• 统计学中的几个基本概念
✓ 总体(population)
所研究的全部个体的集合
分为有限总体和无限总体:
➢ 有限总体的范围能够明确确定,且元素的数目是有限的
➢ 无限总体所包括的元素是无限的,不可数的
搜集总体全部数据的调查过程称为普查(census)
统计学简介
• 统计学中的几个基本概念
✓ 样本 (sample)
– 从总体中抽取的一部分元素的集合,总体的子集
– 构成样本的元素的数目称为样本容量或样本量
(sample size)
搜集样本数据的调查过程称为抽样调查(sample survey)
统计学简介
✓ 参数(parameter)
– 描述总体特征的概括性数字度量,是研究者想要了解的
总体的某种特征的值
– 所关心的参数主要有总体均值()、标准差()、总体比例
()等。总体参数通常用希腊字母表示
✓ 统计量(statistic)
– 用来描述样本特征的概括性数字度量,它是根据样本数
据计算出来的一些量,是样本的函数
– 所关心的样本统计量有样本均值(x)、样本标准差(s)、样
本比例(p)等。样本统计量通常用小写英文字母来表示
统计学简介
总体
样本
☺ ☺ ☺ ☺ ☺
☺ ☺
☺ ☺ ☺ ☺
参数 统计量
平均数 x
标准差 s
比 例 p
统计学简介
✓ 变量
说明现象某种特征的概念,两次观察结果会呈现出变化
– 如商品销售额、受教育程度、产品的质量等级等
– 变量的具体表现称为变量值,即数据
变量可以分为
– 分类变量(categorical variable) :说明事物类别
– 顺序变量(rank variable):说明事物有序类别
– 数值型变量(metric variable) :说明事物数字特征
• 离散变量:取有限个值 (如年龄)
• 连续变量:可以取无穷多个值
统计学简介
• 变量的其他分类
✓ 随机变量和非随机变量
大部分变量为随机变量(不能准确预测其结果的变量)
非随机变量的例子:年龄