Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 23

统计学原理报告

姓名:邓明

班级:市场营销-留学生

学号:2022030045

第一次实验作业
(一)频率分析

1.
备注:1:青年
2:中年
3:老年
1.1.描述性统计分析

从图表中的描述性统计分析可以看出:

- 样本总数为 283。

- 平均值为 1.98,接近 2。

- 中位数为 2,与众数(1)有一定差距,表明数据可能存在一些偏斜。

- 标准偏差为 0.861,显示数据的离散程度适中。

- 偏度为 0.034,接近 0,意味着数据分布接近对称。

- 峰度为-1.652,表明数据分布比正态分布更平坦。

1.2.年龄分组次数分布表

根据年龄分组的统计分析:

- 青年(小于 40 岁):样本数:107;占比:37.8%

- 中年(40-50 岁):样本数:74;占比:26.1%

- 老年(50 岁以上):样本数:102;占比:36.0%

1.3. 年龄分组的直方图分析

从直方图可以看出:

- 青年组的样本数最多,占总样本的 37.8%。
- 中年组的样本数最少,占总样本的 26.1%。

- 老年组的样本数接近青年组,占总样本的 36.0%

分析结果:青年和老年的比例相近,而中年的比例相对较少。尽管数据分布较
为对称,但整体呈现较为平坦的趋势。在进一步分析时,应该特别关注青年和
老年群体的特征,因为这两个群体在样本中占据了较大的比例。这些发现为后
续研究和分析奠定了基础,有助于理解不同年龄段在各项指标上的表现和差异。
2.收入分组:

备注:1:300 以下
2:300-800
3:800-1300
4:1300-1800
5:1800 以上
2.1.描述性统计分析
从上图的描述性统计分析表中可以看出:
- 总样本数为 282(有 1 个缺失)。
- 平均值为 1.9326,接近 2。
- 中位数为 2.00,与众数(2.00)一致,表示数据主要集中在 2。
- 标准偏差为 0.93131,表示数据的离散程度适中。
- 偏度为 1.146,表示数据分布偏向右侧。
- 峰度为 1.356,表示数据分布比正态分布更加陡峭。
2.2.收入分组次数分布表
根据收入分组的统计分析:
- 组 1(1.00):样本数为 100,占 35.3%。
- 组 2(2.00):样本数为 127,占 45.0%。
- 组 3(3.00):样本数为 35,占 12.4%。
- 组 4(4.00):样本数为 14,占 5.0%。
- 组 5(5.00):样本数为 6,占 2.1%。
2.3.收入分组的直方图分析
从直方图中可以观察到:
- 样本主要集中在收入分组 1 和 2,分别占总样本的 35.3%和 45.0%,这两个组的
累积百分比达到了 80.5%。
- 收入分组 3、4 和 5 的样本数逐渐减少,分别占总样本的 12.4%、5.0%和
2.1%。

分析结果:
-收入分布特征:样本的收入主要集中在收入分组 1 和 2,分别占 35.3%和
45.0%,总共占到 80.5%。这表明样本中大多数人的收入处于较低的范围。
-数据偏斜情况:描述性统计中的偏度为 1.146,显示数据分布明显右偏,意味着
大多数样本收入较低,但有少数样本收入较高。峰度为 1.356,表明数据分布比
正态分布更陡峭,说明数据主要集中在低收入组。
-样本群体特征:从直方图可以看出,收入分布呈现右偏特征。大部分样本集中在
低收入组,而高收入组的样本较少。这表明研究对象中低收入群体占比较大,
高收入群体较少。
- 样本中大多数人的收入集中在较低范围,收入分组 1 和 2 占总样本的 80.5%。
- 数据分布有明显的右偏,少数样本收入较高。
- 数据集中度较高,主要集中在低收入组。

(二)描述分析
3:家月收入
以下是根据家庭类型对“家月收入”的分析说明:
3.1. 夫妻家庭
-样本大小: 4
-最小值: 500
-最大值: 1600
-平均值: 825.00
-标准差: 525.198
-偏度: 1.817(标准误差 1.014)
-峰度: 3.293(标准误差 2.619)
分析结果:
-集中趋势: 平均值为 825 元,表明夫妻家庭的月收入较低。
-离散趋势: 标准差较高(525.198),说明收入差异较大。
-分布形态: 偏度为 1.817,说明分布右偏(长尾在右侧);峰度为 3.293,说明
分布比正态分布更尖。
3.2. 核心家庭
-样本大小: 175
-最小值: 317
-最大值: 5400
-平均值: 1101.26
-标准差: 559.073
-偏度: 4.099(标准误差 0.184)
-峰度: 26.693(标准误差 0.365)
分析结果:
-集中趋势: 平均值为 1101.26 元,接近于总体的假设值。
-离散趋势: 标准差为 559.073,说明收入分布较为分散。
-分布形态: 偏度为 4.099,强烈右偏;峰度为 26.693,极其尖峰,表明存在极端
高收入值。
3.3. 主干家庭
-样本大小: 31
-最小值: 345
-最大值: 4000
-平均值: 1421.61
-标准差: 788.054
-偏度: 1.381(标准误差 0.421)
-峰度: 2.687(标准误差 0.821)
分析:
-集中趋势: 平均值为 1421.61 元,较其他家庭类型更高。
-离散趋势: 标准差为 788.054,说明收入差异显著。
-分布形态: 偏度为 1.381,右偏;峰度为 2.687,分布较尖。
3.4. 单亲家庭
-样本大小: 13
-最小值: 336
-最大值: 900
-平均值: 584.31
-标准差: 183.960
-偏度: 0.243(标准误差 0.616)
-峰度: -1.068(标准误差 1.191)
分析结果:
-集中趋势: 平均值为 584.31 元,表明单亲家庭收入较低。
-离散趋势: 标准差为 183.960,收入差异相对较小。
-分布形态: 偏度为 0.243,接近对称;峰度为-1.068,分布较平坦。
3.5. 空巢家庭
-样本大小: 43
-最小值: 350
-最大值: 2300
-平均值: 879.95
-标准差: 406.587
-偏度: 1.523(标准误差 0.361)
-峰度: 3.147(标准误差 0.709)
分析结果:
-集中趋势: 平均值为 879.95 元,收入水平较低。
-离散趋势: 标准差为 406.587,说明收入差异较大。
-分布形态: 偏度为 1.523,右偏;峰度为 3.147,分布较尖。
3.6. 单身家庭
-样本大小: 2
-最小值: 380
-最大值: 700
-平均值: 540.00
-标准差: 226.274(只有两个样本,解释意义有限)
-偏度: -
-峰度: -
分析:
-集中趋势: 平均值为 540 元。
-离散趋势: 标准差为 226.274。
-分布形态: 样本量太小,无法得出偏度和峰度。
3.7. 其他家庭
-样本大小: 15
-最小值: 491
-最大值: 2400
-平均值: 1116.07
-标准差: 518.384
-偏度: 1.197(标准误差 0.580)
-峰度: 1.511(标准误差 1.121)
分析结果:
-集中趋势: 平均值为 1116.07 元。
-离散趋势: 标准差为 518.384,收入差异较大。
-分布形态: 偏度为 1.197,右偏;峰度为 1.511,分布比正态分布稍尖。
总结
通过分析不同家庭类型的家月收入数据,可以看出各类家庭在收入水平和分布
形态上的差异:
• 收入水平: 主干家庭的平均收入最高(1421.61 元),单身家庭和单亲
家庭的收入最低。
• 收入差异: 夫妻家庭和核心家庭的收入差异较大,标准差较高。
• 分布形态: 大多数家庭类型的收入分布右偏(偏度大于 0),尤其是核
心家庭,偏度和峰度都较高,说明存在极端高收入值。

(三)探索分析

4.
家月收入探索分析
在这次分析中,我们以性别为分类变量,对家月收入进行了详细探索,利用了
茎叶图和箱型图来描述两类变量的集中趋势和离散趋势。以下是分析结果和结
论。
数据概述
从数据表可以看到,共有 143 名男性和 140 名女性的家月收入数据,均无缺失。
集中趋势分析
男性
平均值: 1114.41
中位数: 1000.00
众数: 1000
5% Trimmed Mean: 1072.60
中位数和平均值非常接近,表明数据较为对称。
女性
平均值: 1067.48
中位数: 1000.00
众数: 1000
5% Trimmed Mean: 1028.72
中位数和平均值也很接近,同样表明数据分布较为对称。
离散趋势分析
男性
标准差: 692.69
方差: 479823.16
四分位距(IQR): 770.00
范围: 5400 (最大值 5600,最小值 200)
标准误: 57.926
女性
标准差: 430.87
方差: 185651.07
四分位距(IQR): 595.00
范围: 2689 (最大值 3000,最小值 311)
标准误: 36.415
可以看出,男性家月收入的标准差和方差明显高于女性,这表明男性的家月收
入分布较女性更为分散。
茎叶图分析
茎叶图显示了男性和女性家月收入的具体分布情况:
男性的茎叶图显示了收入的分布较为均匀,但在低收入和高收入部分存在较多
极端值(离群点)。
女性的茎叶图显示收入主要集中在中低收入段,极端高收入者较少。
箱型图分析
箱型图进一步验证了茎叶图的观察:
男性的箱型图中,收入的中位数和两个四分位数的间距显示收入较为分散。多
个高于 3000 的异常值(离群点)说明有少部分男性收入特别高。
女性的箱型图中,中位数和四分位距较为集中,显示女性收入集中在较低的范
围内,但同样存在少量高收入的异常值。
结论
集中趋势:
男性和女性的家月收入中位数均为 1000 元,平均收入也较为接近(男性
1114.41 元,女性 1067.48 元)。
离散趋势:
男性的家月收入比女性更为分散,标准差和方差明显高于女性,说明男性的收
入差距较大。
茎叶图和箱型图均表明,男性中存在更多的极端高收入者。
总体而言,虽然男性和女性的平均收入和中位数较为接近,但男性收入的波动
性和极端值更多,显示了较大的收入差异。女性的收入则较为集中,分布更为
稳定。

第二次实验作业
第一题:
分析结果:
参数估计
单样本统计
样本数量 (N): 283
平均值 (Mean): 1071.89
标准偏差 (Std. Deviation): 578.770
标准误差 (Std. Error Mean): 34.404
这部分统计信息显示,我们对 283 个家庭的月收入进行了抽样,得到了样本平
均值为 1071.89,标准偏差为 578.770,标准误差为 34.404。

假设检验
单样本 t 检验
检验值 (Test Value): 1100
t 值 (t): -0.817
自由度 (df): 282
显著性 (Sig. (2-tailed)): 0.415
平均值差值 (Mean Difference): -28.106
95%置信区间 (95% Confidence Interval of the Difference): [-95.83, 39.62]
假设
原假设 (H0): 家庭月收入的平均值等于 1100。
备择假设 (H1): 家庭月收入的平均值不等于 1100。
检验结果
t 值 (t): -0.817
自由度 (df): 282
显著性 (Sig. (2-tailed)): 0.415
在 5%的显著性水平下(α = 0.05),我们需要比较 p 值与 α 值。
p 值 (Sig. (2-tailed)): 0.415
由于 p 值 0.415 大于显著性水平 0.05,我们不能拒绝原假设。
置信区间
95%置信区间: [-95.83, 39.62]
置信区间包括 0,这意味着检验值 1100 与样本平均值 1071.89 之间的差异在统
计上不显著。
结论
基于以上分析,在 5%的显著性水平下,我们没有足够的证据拒绝原假设,即我
们可以接受原假设,认为家庭月收入的平均值等于 1100。换句话说,样本数据
显示的家庭月收入平均值 1071.89 与检验值 1100 之间的差异不显著。

第二题:

答:

分析结果:
参数估计
组统计
男性
样本数量 (N): 143
平均值 (Mean): 1114.41
标准偏差 (Std. Deviation): 692.693
标准误差 (Std. Error Mean): 57.926
女性
样本数量 (N): 140
平均值 (Mean): 1028.47
标准偏差 (Std. Deviation): 430.872
标准误差 (Std. Error Mean): 36.415
从这些统计数据可以看出,男性样本的平均家月收入为 1114.41,标准偏差为
692.693,标准误差为 57.926;女性样本的平均家月收入为 1028.47,标准偏差
为 430.872,标准误差为 36.415。
假设检验
独立样本 t 检验
Levene 方差齐性检验
F 值: 3.414
显著性 (Sig.): 0.066
由于显著性值 0.066 大于 0.05,我们不能拒绝方差相等的假设,即可以假定两
组数据的方差相等。
t 检验
假定等方差
t 值: 1.250
自由度 (df): 281
显著性 (Sig. (2-tailed)): 0.212
平均值差值 (Mean Difference): 85.934
标准误差差值 (Std. Error Difference): 68.744
95%置信区间 (Confidence Interval of the Difference): [-49.384, 221.253]
不假定等方差
t 值: 1.256
自由度 (df): 238.381
显著性 (Sig. (2-tailed)): 0.210
平均值差值 (Mean Difference): 85.934
标准误差差值 (Std. Error Difference): 68.421
95%置信区间 (Confidence Interval of the Difference): [-48.854, 220.722]
假设
原假设 (H0): 男性和女性的家月收入平均值相等。
备择假设 (H1): 男性和女性的家月收入平均值不相等。
检验结果
在假定等方差的情况下:
t 值 (t): 1.250
显著性 (Sig. (2-tailed)): 0.212
在不假定等方差的情况下:
t 值 (t): 1.256
显著性 (Sig. (2-tailed)): 0.210
在两种情况下,显著性值均大于 0.05,这意味着我们没有足够的证据拒绝原假
设。
置信区间
假定等方差的 95%置信区间: [-49.384, 221.253]
不假定等方差的 95%置信区间: [-48.854, 220.722]
置信区间包括 0,这意味着男性和女性家月收入的平均值差异在统计上不显著。
结论
基于以上分析,我们在 5%的显著性水平下,没有足够的证据表明男性和女性的
家月收入平均值存在显著差异。换句话说,样本数据显示的男性和女性家月收
入的平均值之间的差异不显著。

第三次实验作业

从出口序列图看出,彩电的出口量在 1999 年之前稳定波动,1999 年后呈线性增长同时


伴随小浮动波动。出口额则基本没有变化。
分析说明:
一、 总体趋势分析
出口量和出口额的长期趋势(参考出口序列图):
-出口量:从图表可以看出,出口量在 1999 年前波动较小,但自 1999 年起呈现出明显
的线性增长趋势。特别是在 2001 年和 2002 年,增长速度显著加快。
-出口额:与出口量相比,出口额在整个时间段内相对稳定,没有明显的线性增长或下
降趋势。这表明虽然出口量增加,但单位产品的价格或总价值变化不大。
二、季节性因素分析
季节性因素(季节因子表格):
表格列出了每个月的季节性因素(百分比),反映了每个月的出口量和出口额相对于
全年平均水平的变化。
-出口量的季节性因素:
最高在 12 月(151.4%),最低在 2 月(76.1%)。
这表明每年年底出口量显著增加,而年初较低。
-出口额的季节性因素:
最高在 12 月(150.0%),最低在 2 月(76.0%)。
类似出口量,出口额在年底显著增加,而年初较低。
三、季节性分解图分析
1. 季节性分解结果(季节因子折线图):
图中展示了季节性分解的结果,每年的季节性波动非常明显且具有周期性特征。
周期性特征:
每年的第 12 个月季节性因素达到峰值,第 2 个月达到谷值。这种波动可能与消费市场
的节假日(如圣诞节、新年)和春节假期有关。
幅度变化:
随着年份的推移,季节性波动的幅度逐渐加大,这与出口量的总体增长趋势相吻合。
四、具体数据分析
月度分析:
12 月:出口量和出口额都达到全年最高点(151.4%和 150.0%)。可能由于节假日需求
高峰,企业需要在这一时期增加生产和库存。
2 月:出口量和出口额都达到全年最低点(76.1%和 76.0%)。这可能与春节假期有关,
生产和物流活动减少。
五、对策和建议
生产和库存管理:

高峰期准备:在 12 月之前,企业应提前增加生产和库存,以满足高峰期的需求,避免
库存不足。
低谷期调整:在 2 月期间,企业可以安排设备维护、员工培训或休假,以平衡生产负
荷,降低运营成本。
市场推广策略:

高峰期促销:在 12 月,企业应加强市场推广和销售活动,充分利用需求高峰,提升销
售额。
低谷期刺激:在 2 月,可以通过促销活动或推出新产品,刺激市场需求,避免销量过
低。
资源配置优化:
人力资源管理:合理安排员工的工作时间和休假计划,确保在高峰期有足够的人力资
源支持生产和销售。
物流和供应链管理:在高峰期之前,确保供应链的稳定和高效,避免因物流问题导致
的生产和交付延误。
结论
通过上述分析,可以看出产品的出口量和出口额具有明显的季节性波动特征,企业
可以根据这些特征制定更加科学的生产计划和市场策略,以应对市场需求的变化,提
升企业的竞争力和市场表现。

第四次实验作业
(一)相关分析
结果分析:
1.1 散点矩阵图分析

-散点矩阵图观察:散点矩阵图向我们展示了各个变量之间的关系。通过观
察这些散点的分布,我们可以初步判断它们之间的相关性和趋势。

-变量之间的关系:当前工资与初始工资:呈现出明显的线性关系,表明两

者之间存在较高的正相关性。

-当前工资与工作经验(月):散点分布比较分散,相关性不强。

-当前工资与受教育年限(年):虽然散点较为分散,但呈现出一定。

-相关趋势。

当前工资与年龄:显示出一定的负相关性,随着年龄增加,当前工资有下降

趋势。

当前工资与工作时间:相关性不强,散点分布比较分散。

-相关性矩阵分析

当前工资的相关性分析:

初始工资:高度正相关,初始工资越高,当前工资也越高。

工作经验(月):负相关但相关性较弱,工作经验越多,当前工资略有

降的趋势。

受教育年限(年):中等正相关,受教育年限越长,当前工资越高。

年龄:负相关但相关性较弱,年龄越大,当前工资略有下降的趋势。

工作时间:相关性不显著,工作时间对当前工资影响不大。

-其他变量的相关性分析:

初始工资与受教育年限:中等正相关,初始工资高的人,受教育年限也相对

较长。

工作经验(月)与受教育年限:负相关但相关性较弱,工作经验越多,受教

育年限相对较少。

年龄与受教育年限:负相关但相关性较弱,年龄越大,受教育年限相对较少。

年龄与工作经验(月):高度正相关,年龄越大,工作经验越丰富。

-结论:

当前工资的决定因素:初始工资和受教育年限是主要决定因素,二者越高,
当前工资也越高。年龄和工作经验对当前工资的影响较弱,而工作时间对其

影响不大。

教育和工作经验的平衡:受教育年限长的人初始工资和当前工资较高,但工

作经验可能相对较少;而年龄大的人工作经验丰富,但受教育年限相对较短,

导致当前工资较低。
分析结果:

R 值: 0.901,显示自变量与因变量之间存在着强烈的线性关系。

R 平方: 0.812,表示模型能够解释 82.1%的因变量的变异。

调整后的 R 平方: 0.810,表明即使经过调整,模型仍然具有很好的解释能

力。

标准估算误差: $7,444.353,这表明预测的当前工资与实际工资之间的平

均差异。

方差分析(ANOVA)归模型的 F 值: 404.327,显著性水平为 0.000。这说明

整体回归模型是显著的,自变量对因变量的解释能力较强。

系数表:系数表提供了各自变量的回归系数及其显著性:

常量:

B 值: -12189.036

t 值: -3.239

显著性: 0.001

解释: 常量项在模型中是显著的。

初始工资:

B 值: 1.771

t 值: 30.229

显著性: 0.000

解释: 初始工资对当前工资有着显著的正向影响,且影响程度非常大。
工作经验(月):

B 值: -8.557

t 值: -1.540

显著性: 0.124

解释: 工作经验对当前工资的影响并不显著。

受教育年限(年):

B 值: 631.806

t 值: -3.793

显著性: 0.000

解释: 受教育年限对当前工资有着显著的正向影响。

年龄:

B 值: -100.504

t 值: -2.033

显著性: 0.042

解释: 年龄对当前工资有着显著的负向影响。

工作时间:

B 值: 166.606

t 值: 4.843

显著性: 0.000

解释: 工作时间对当前工资有着显著的正向影响。

详细分析说明

模型拟合优度: 模型的 R 值为 0.901,R 平方为 0.812,调整后的 R 平方为

0.810,表明模型具有很好的解释能力。

方差分析(ANOVA): 回归模型整体显著,说明自变量对因变量的解释能力

较强。

自变量对因变量的影响:

初始工资和受教育年限对当前工资的影响显著且呈正向关系。
年龄对当前工资呈负向影响,工作经验对当前工资的影响不显著。

结论

回归分析显示,初始工资、受教育年限、年龄和工作时间对当前工资具有显

著影响。其中,初始工资和受教育年限对当前工资的正向影响较大,而年龄

对当前工资有负向影响。模型整体拟合优度较高,能够很好地解释因变量的

变异。

You might also like