Professional Documents
Culture Documents
统计报告
统计报告
姓名:邓明
班级:市场营销-留学生
学号:2022030045
第一次实验作业
(一)频率分析
1.
备注:1:青年
2:中年
3:老年
1.1.描述性统计分析
从图表中的描述性统计分析可以看出:
- 样本总数为 283。
- 平均值为 1.98,接近 2。
- 中位数为 2,与众数(1)有一定差距,表明数据可能存在一些偏斜。
- 标准偏差为 0.861,显示数据的离散程度适中。
- 峰度为-1.652,表明数据分布比正态分布更平坦。
1.2.年龄分组次数分布表
根据年龄分组的统计分析:
- 青年(小于 40 岁):样本数:107;占比:37.8%
- 中年(40-50 岁):样本数:74;占比:26.1%
- 老年(50 岁以上):样本数:102;占比:36.0%
1.3. 年龄分组的直方图分析
从直方图可以看出:
- 青年组的样本数最多,占总样本的 37.8%。
- 中年组的样本数最少,占总样本的 26.1%。
- 老年组的样本数接近青年组,占总样本的 36.0%
分析结果:青年和老年的比例相近,而中年的比例相对较少。尽管数据分布较
为对称,但整体呈现较为平坦的趋势。在进一步分析时,应该特别关注青年和
老年群体的特征,因为这两个群体在样本中占据了较大的比例。这些发现为后
续研究和分析奠定了基础,有助于理解不同年龄段在各项指标上的表现和差异。
2.收入分组:
备注:1:300 以下
2:300-800
3:800-1300
4:1300-1800
5:1800 以上
2.1.描述性统计分析
从上图的描述性统计分析表中可以看出:
- 总样本数为 282(有 1 个缺失)。
- 平均值为 1.9326,接近 2。
- 中位数为 2.00,与众数(2.00)一致,表示数据主要集中在 2。
- 标准偏差为 0.93131,表示数据的离散程度适中。
- 偏度为 1.146,表示数据分布偏向右侧。
- 峰度为 1.356,表示数据分布比正态分布更加陡峭。
2.2.收入分组次数分布表
根据收入分组的统计分析:
- 组 1(1.00):样本数为 100,占 35.3%。
- 组 2(2.00):样本数为 127,占 45.0%。
- 组 3(3.00):样本数为 35,占 12.4%。
- 组 4(4.00):样本数为 14,占 5.0%。
- 组 5(5.00):样本数为 6,占 2.1%。
2.3.收入分组的直方图分析
从直方图中可以观察到:
- 样本主要集中在收入分组 1 和 2,分别占总样本的 35.3%和 45.0%,这两个组的
累积百分比达到了 80.5%。
- 收入分组 3、4 和 5 的样本数逐渐减少,分别占总样本的 12.4%、5.0%和
2.1%。
分析结果:
-收入分布特征:样本的收入主要集中在收入分组 1 和 2,分别占 35.3%和
45.0%,总共占到 80.5%。这表明样本中大多数人的收入处于较低的范围。
-数据偏斜情况:描述性统计中的偏度为 1.146,显示数据分布明显右偏,意味着
大多数样本收入较低,但有少数样本收入较高。峰度为 1.356,表明数据分布比
正态分布更陡峭,说明数据主要集中在低收入组。
-样本群体特征:从直方图可以看出,收入分布呈现右偏特征。大部分样本集中在
低收入组,而高收入组的样本较少。这表明研究对象中低收入群体占比较大,
高收入群体较少。
- 样本中大多数人的收入集中在较低范围,收入分组 1 和 2 占总样本的 80.5%。
- 数据分布有明显的右偏,少数样本收入较高。
- 数据集中度较高,主要集中在低收入组。
(二)描述分析
3:家月收入
以下是根据家庭类型对“家月收入”的分析说明:
3.1. 夫妻家庭
-样本大小: 4
-最小值: 500
-最大值: 1600
-平均值: 825.00
-标准差: 525.198
-偏度: 1.817(标准误差 1.014)
-峰度: 3.293(标准误差 2.619)
分析结果:
-集中趋势: 平均值为 825 元,表明夫妻家庭的月收入较低。
-离散趋势: 标准差较高(525.198),说明收入差异较大。
-分布形态: 偏度为 1.817,说明分布右偏(长尾在右侧);峰度为 3.293,说明
分布比正态分布更尖。
3.2. 核心家庭
-样本大小: 175
-最小值: 317
-最大值: 5400
-平均值: 1101.26
-标准差: 559.073
-偏度: 4.099(标准误差 0.184)
-峰度: 26.693(标准误差 0.365)
分析结果:
-集中趋势: 平均值为 1101.26 元,接近于总体的假设值。
-离散趋势: 标准差为 559.073,说明收入分布较为分散。
-分布形态: 偏度为 4.099,强烈右偏;峰度为 26.693,极其尖峰,表明存在极端
高收入值。
3.3. 主干家庭
-样本大小: 31
-最小值: 345
-最大值: 4000
-平均值: 1421.61
-标准差: 788.054
-偏度: 1.381(标准误差 0.421)
-峰度: 2.687(标准误差 0.821)
分析:
-集中趋势: 平均值为 1421.61 元,较其他家庭类型更高。
-离散趋势: 标准差为 788.054,说明收入差异显著。
-分布形态: 偏度为 1.381,右偏;峰度为 2.687,分布较尖。
3.4. 单亲家庭
-样本大小: 13
-最小值: 336
-最大值: 900
-平均值: 584.31
-标准差: 183.960
-偏度: 0.243(标准误差 0.616)
-峰度: -1.068(标准误差 1.191)
分析结果:
-集中趋势: 平均值为 584.31 元,表明单亲家庭收入较低。
-离散趋势: 标准差为 183.960,收入差异相对较小。
-分布形态: 偏度为 0.243,接近对称;峰度为-1.068,分布较平坦。
3.5. 空巢家庭
-样本大小: 43
-最小值: 350
-最大值: 2300
-平均值: 879.95
-标准差: 406.587
-偏度: 1.523(标准误差 0.361)
-峰度: 3.147(标准误差 0.709)
分析结果:
-集中趋势: 平均值为 879.95 元,收入水平较低。
-离散趋势: 标准差为 406.587,说明收入差异较大。
-分布形态: 偏度为 1.523,右偏;峰度为 3.147,分布较尖。
3.6. 单身家庭
-样本大小: 2
-最小值: 380
-最大值: 700
-平均值: 540.00
-标准差: 226.274(只有两个样本,解释意义有限)
-偏度: -
-峰度: -
分析:
-集中趋势: 平均值为 540 元。
-离散趋势: 标准差为 226.274。
-分布形态: 样本量太小,无法得出偏度和峰度。
3.7. 其他家庭
-样本大小: 15
-最小值: 491
-最大值: 2400
-平均值: 1116.07
-标准差: 518.384
-偏度: 1.197(标准误差 0.580)
-峰度: 1.511(标准误差 1.121)
分析结果:
-集中趋势: 平均值为 1116.07 元。
-离散趋势: 标准差为 518.384,收入差异较大。
-分布形态: 偏度为 1.197,右偏;峰度为 1.511,分布比正态分布稍尖。
总结
通过分析不同家庭类型的家月收入数据,可以看出各类家庭在收入水平和分布
形态上的差异:
• 收入水平: 主干家庭的平均收入最高(1421.61 元),单身家庭和单亲
家庭的收入最低。
• 收入差异: 夫妻家庭和核心家庭的收入差异较大,标准差较高。
• 分布形态: 大多数家庭类型的收入分布右偏(偏度大于 0),尤其是核
心家庭,偏度和峰度都较高,说明存在极端高收入值。
(三)探索分析
4.
家月收入探索分析
在这次分析中,我们以性别为分类变量,对家月收入进行了详细探索,利用了
茎叶图和箱型图来描述两类变量的集中趋势和离散趋势。以下是分析结果和结
论。
数据概述
从数据表可以看到,共有 143 名男性和 140 名女性的家月收入数据,均无缺失。
集中趋势分析
男性
平均值: 1114.41
中位数: 1000.00
众数: 1000
5% Trimmed Mean: 1072.60
中位数和平均值非常接近,表明数据较为对称。
女性
平均值: 1067.48
中位数: 1000.00
众数: 1000
5% Trimmed Mean: 1028.72
中位数和平均值也很接近,同样表明数据分布较为对称。
离散趋势分析
男性
标准差: 692.69
方差: 479823.16
四分位距(IQR): 770.00
范围: 5400 (最大值 5600,最小值 200)
标准误: 57.926
女性
标准差: 430.87
方差: 185651.07
四分位距(IQR): 595.00
范围: 2689 (最大值 3000,最小值 311)
标准误: 36.415
可以看出,男性家月收入的标准差和方差明显高于女性,这表明男性的家月收
入分布较女性更为分散。
茎叶图分析
茎叶图显示了男性和女性家月收入的具体分布情况:
男性的茎叶图显示了收入的分布较为均匀,但在低收入和高收入部分存在较多
极端值(离群点)。
女性的茎叶图显示收入主要集中在中低收入段,极端高收入者较少。
箱型图分析
箱型图进一步验证了茎叶图的观察:
男性的箱型图中,收入的中位数和两个四分位数的间距显示收入较为分散。多
个高于 3000 的异常值(离群点)说明有少部分男性收入特别高。
女性的箱型图中,中位数和四分位距较为集中,显示女性收入集中在较低的范
围内,但同样存在少量高收入的异常值。
结论
集中趋势:
男性和女性的家月收入中位数均为 1000 元,平均收入也较为接近(男性
1114.41 元,女性 1067.48 元)。
离散趋势:
男性的家月收入比女性更为分散,标准差和方差明显高于女性,说明男性的收
入差距较大。
茎叶图和箱型图均表明,男性中存在更多的极端高收入者。
总体而言,虽然男性和女性的平均收入和中位数较为接近,但男性收入的波动
性和极端值更多,显示了较大的收入差异。女性的收入则较为集中,分布更为
稳定。
第二次实验作业
第一题:
分析结果:
参数估计
单样本统计
样本数量 (N): 283
平均值 (Mean): 1071.89
标准偏差 (Std. Deviation): 578.770
标准误差 (Std. Error Mean): 34.404
这部分统计信息显示,我们对 283 个家庭的月收入进行了抽样,得到了样本平
均值为 1071.89,标准偏差为 578.770,标准误差为 34.404。
假设检验
单样本 t 检验
检验值 (Test Value): 1100
t 值 (t): -0.817
自由度 (df): 282
显著性 (Sig. (2-tailed)): 0.415
平均值差值 (Mean Difference): -28.106
95%置信区间 (95% Confidence Interval of the Difference): [-95.83, 39.62]
假设
原假设 (H0): 家庭月收入的平均值等于 1100。
备择假设 (H1): 家庭月收入的平均值不等于 1100。
检验结果
t 值 (t): -0.817
自由度 (df): 282
显著性 (Sig. (2-tailed)): 0.415
在 5%的显著性水平下(α = 0.05),我们需要比较 p 值与 α 值。
p 值 (Sig. (2-tailed)): 0.415
由于 p 值 0.415 大于显著性水平 0.05,我们不能拒绝原假设。
置信区间
95%置信区间: [-95.83, 39.62]
置信区间包括 0,这意味着检验值 1100 与样本平均值 1071.89 之间的差异在统
计上不显著。
结论
基于以上分析,在 5%的显著性水平下,我们没有足够的证据拒绝原假设,即我
们可以接受原假设,认为家庭月收入的平均值等于 1100。换句话说,样本数据
显示的家庭月收入平均值 1071.89 与检验值 1100 之间的差异不显著。
第二题:
答:
分析结果:
参数估计
组统计
男性
样本数量 (N): 143
平均值 (Mean): 1114.41
标准偏差 (Std. Deviation): 692.693
标准误差 (Std. Error Mean): 57.926
女性
样本数量 (N): 140
平均值 (Mean): 1028.47
标准偏差 (Std. Deviation): 430.872
标准误差 (Std. Error Mean): 36.415
从这些统计数据可以看出,男性样本的平均家月收入为 1114.41,标准偏差为
692.693,标准误差为 57.926;女性样本的平均家月收入为 1028.47,标准偏差
为 430.872,标准误差为 36.415。
假设检验
独立样本 t 检验
Levene 方差齐性检验
F 值: 3.414
显著性 (Sig.): 0.066
由于显著性值 0.066 大于 0.05,我们不能拒绝方差相等的假设,即可以假定两
组数据的方差相等。
t 检验
假定等方差
t 值: 1.250
自由度 (df): 281
显著性 (Sig. (2-tailed)): 0.212
平均值差值 (Mean Difference): 85.934
标准误差差值 (Std. Error Difference): 68.744
95%置信区间 (Confidence Interval of the Difference): [-49.384, 221.253]
不假定等方差
t 值: 1.256
自由度 (df): 238.381
显著性 (Sig. (2-tailed)): 0.210
平均值差值 (Mean Difference): 85.934
标准误差差值 (Std. Error Difference): 68.421
95%置信区间 (Confidence Interval of the Difference): [-48.854, 220.722]
假设
原假设 (H0): 男性和女性的家月收入平均值相等。
备择假设 (H1): 男性和女性的家月收入平均值不相等。
检验结果
在假定等方差的情况下:
t 值 (t): 1.250
显著性 (Sig. (2-tailed)): 0.212
在不假定等方差的情况下:
t 值 (t): 1.256
显著性 (Sig. (2-tailed)): 0.210
在两种情况下,显著性值均大于 0.05,这意味着我们没有足够的证据拒绝原假
设。
置信区间
假定等方差的 95%置信区间: [-49.384, 221.253]
不假定等方差的 95%置信区间: [-48.854, 220.722]
置信区间包括 0,这意味着男性和女性家月收入的平均值差异在统计上不显著。
结论
基于以上分析,我们在 5%的显著性水平下,没有足够的证据表明男性和女性的
家月收入平均值存在显著差异。换句话说,样本数据显示的男性和女性家月收
入的平均值之间的差异不显著。
第三次实验作业
高峰期准备:在 12 月之前,企业应提前增加生产和库存,以满足高峰期的需求,避免
库存不足。
低谷期调整:在 2 月期间,企业可以安排设备维护、员工培训或休假,以平衡生产负
荷,降低运营成本。
市场推广策略:
高峰期促销:在 12 月,企业应加强市场推广和销售活动,充分利用需求高峰,提升销
售额。
低谷期刺激:在 2 月,可以通过促销活动或推出新产品,刺激市场需求,避免销量过
低。
资源配置优化:
人力资源管理:合理安排员工的工作时间和休假计划,确保在高峰期有足够的人力资
源支持生产和销售。
物流和供应链管理:在高峰期之前,确保供应链的稳定和高效,避免因物流问题导致
的生产和交付延误。
结论
通过上述分析,可以看出产品的出口量和出口额具有明显的季节性波动特征,企业
可以根据这些特征制定更加科学的生产计划和市场策略,以应对市场需求的变化,提
升企业的竞争力和市场表现。
第四次实验作业
(一)相关分析
结果分析:
1.1 散点矩阵图分析
-散点矩阵图观察:散点矩阵图向我们展示了各个变量之间的关系。通过观
察这些散点的分布,我们可以初步判断它们之间的相关性和趋势。
-变量之间的关系:当前工资与初始工资:呈现出明显的线性关系,表明两
者之间存在较高的正相关性。
-当前工资与工作经验(月):散点分布比较分散,相关性不强。
-当前工资与受教育年限(年):虽然散点较为分散,但呈现出一定。
-相关趋势。
当前工资与年龄:显示出一定的负相关性,随着年龄增加,当前工资有下降
趋势。
当前工资与工作时间:相关性不强,散点分布比较分散。
-相关性矩阵分析
当前工资的相关性分析:
初始工资:高度正相关,初始工资越高,当前工资也越高。
工作经验(月):负相关但相关性较弱,工作经验越多,当前工资略有
降的趋势。
受教育年限(年):中等正相关,受教育年限越长,当前工资越高。
年龄:负相关但相关性较弱,年龄越大,当前工资略有下降的趋势。
工作时间:相关性不显著,工作时间对当前工资影响不大。
-其他变量的相关性分析:
初始工资与受教育年限:中等正相关,初始工资高的人,受教育年限也相对
较长。
工作经验(月)与受教育年限:负相关但相关性较弱,工作经验越多,受教
育年限相对较少。
年龄与受教育年限:负相关但相关性较弱,年龄越大,受教育年限相对较少。
年龄与工作经验(月):高度正相关,年龄越大,工作经验越丰富。
-结论:
当前工资的决定因素:初始工资和受教育年限是主要决定因素,二者越高,
当前工资也越高。年龄和工作经验对当前工资的影响较弱,而工作时间对其
影响不大。
教育和工作经验的平衡:受教育年限长的人初始工资和当前工资较高,但工
作经验可能相对较少;而年龄大的人工作经验丰富,但受教育年限相对较短,
导致当前工资较低。
分析结果:
R 值: 0.901,显示自变量与因变量之间存在着强烈的线性关系。
力。
标准估算误差: $7,444.353,这表明预测的当前工资与实际工资之间的平
均差异。
整体回归模型是显著的,自变量对因变量的解释能力较强。
系数表:系数表提供了各自变量的回归系数及其显著性:
常量:
B 值: -12189.036
t 值: -3.239
显著性: 0.001
解释: 常量项在模型中是显著的。
初始工资:
B 值: 1.771
t 值: 30.229
显著性: 0.000
解释: 初始工资对当前工资有着显著的正向影响,且影响程度非常大。
工作经验(月):
B 值: -8.557
t 值: -1.540
显著性: 0.124
解释: 工作经验对当前工资的影响并不显著。
受教育年限(年):
B 值: 631.806
t 值: -3.793
显著性: 0.000
解释: 受教育年限对当前工资有着显著的正向影响。
年龄:
B 值: -100.504
t 值: -2.033
显著性: 0.042
解释: 年龄对当前工资有着显著的负向影响。
工作时间:
B 值: 166.606
t 值: 4.843
显著性: 0.000
解释: 工作时间对当前工资有着显著的正向影响。
详细分析说明
0.810,表明模型具有很好的解释能力。
方差分析(ANOVA): 回归模型整体显著,说明自变量对因变量的解释能力
较强。
自变量对因变量的影响:
初始工资和受教育年限对当前工资的影响显著且呈正向关系。
年龄对当前工资呈负向影响,工作经验对当前工资的影响不显著。
结论
回归分析显示,初始工资、受教育年限、年龄和工作时间对当前工资具有显
著影响。其中,初始工资和受教育年限对当前工资的正向影响较大,而年龄
对当前工资有负向影响。模型整体拟合优度较高,能够很好地解释因变量的
变异。