2022 C题

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 7

2022 年高教社杯全国大学生数学建模竞赛题目

(请先阅读“全国大学生数学建模竞赛论文格式规范”)

C题 古代玻璃制品的成分分析与鉴别
古代玻璃极易受埋藏环境的影响而风化。
现有一批我国古代玻璃制品的相关数据,考古工作者依据这些文物样品的化学成分和其他
检测手段已将其分为高钾玻璃和铅钡玻璃两种类型。附件表单 1 给出了这些文物的分类信息,
附件表单 2 给出了相应的主要成分所占比例(空白处表示未检测到该成分) 。这些数据的特
点 是成分性,即各成分比例的累加和应为 100%,但因检测手段等原因可能导致其成分比例
的累 加和非 100%的情况。本题中将成分比例累加和介于 85%~105%之间的数据视为有效数
据。
请你们团队依据附件中的相关数据进行分析建模, 解决以下问题: 先考察三种因素对风化影响
问题 1 对这些玻璃文物的表面风化与其玻璃类型、纹饰和颜色的关系进行分析; 结合
玻 璃的类型,分析文物样品表面有无风化化学成分含量的统计规律,并根据风化点检测数据,
预 测其风化前的化学成分含量。 再倒推化学成分
问题 2 依据附件数据分析高钾玻璃、铅钡玻璃的分类规律;对于每个类别选择合适的
化 学成分对其进行亚类划分,给出具体的划分方法及划分结果,并对分类结果的合理性和敏
感性 进行分析。 自行确定分类标准 定义“敏感性”
问题 3 对附件表单 3 中未知类别玻璃文物的化学成分进行分析, 鉴别其所属类型,并对
应用问题 2
分类结果的敏感性进行分析。
问题 4 针对不同类别的玻璃文物样品, 分析其化学成分之间的关联关系,并比较不同
类 别之间的化学成分关联关系的差异性。

附件
表单 1 玻璃文物的基本信息
表单 2 已分类玻璃文物的化学成分比例,其中
(1) 文物采样点为该编号文物表面某部位的随机采样,其风化属性与附件表单 1 中相应
文 物一致。 怎么处理这个随机性?
(2) 部位 1 和部位 2 是文物造型上不同的两个部位, 其成分与含量可能存在差异。
(3) 未风化点是风化文物表面未风化区域内的点。
(4) 严重风化点取自风化层。
表单 3 未分类玻璃文物的化学成分比例

本题基本上都是分类问题
C155
1. 摘要简单的列举了使用的方法和一些细节,问题重述几乎是原问题。
2. 对模型提出了一些假设,即假定一些因素(比如文物的形状)不会产生任何影响,事
实上这些也没法研究。

3. 符号说明:将 excel 中每个样本一行的数据转换成矩阵的表现形式,方便数学处理。

4. 问题分析:对摘要的扩充
5. 数据预处理:先剔除明确不符合题目要求的数据

对于在这个区间内的直接用本成分比例/总成分比例进行微调。
中心对数变换,他给出的理由是“单形空间”的约束,大意就是这些数据都是百分之多少,
他们的总和会是 1,处于“单形空间”但是我们平常用的统计方法所处理的数据不一定是
1,位于更广的“欧式空间”,所以这样处理。

量化处理,就是简单的给特征赋值,比如说绿色就是 2,黑色是 0。
对于颜色空缺,在分析相关问题时直接忽略(因为只有 4 组,占总占比不大,且因为采集
仅为 1 点数据,因此不能人为补全),其它的补 0
6.第一题第一问:Pearson 卡方检验,分析分类变量间相关性(高中学过)
再 Yates 校正卡方检验(适用于小样本,2*2)
结论:风化与玻璃类型有关,与温氏,颜色无关
6. 第一题第二问:分四类分别讨论统计规律,引入变异系数、偏度系数、峰度系数进行
描述,将结果形成表格,进行描述性解读;箱线图可视化
7. 第一题第三问:先对玻璃类型聚类(Q 型),再分别对这两类进行 K-Means 聚类
(K=2,即风不风化)

建立时序关系,认为风化越严重时间也早,并由此对每种化学成分建立回归方程(二次函
数,时间分四个阶段,为自变量),并由此进行回溯。
8. 第二题第一问:风不风化分类讨论,决策树,70%训 30%测,检验精确性、召回等指标
9. 第二题第二问:分成 2*2 类(两种玻璃,风不风化)先对 14 种化学成分进行 R 型聚类,
分成 3 类,再 Q 型聚类(有剪枝)(主成分也可?),用相关系数矩阵可视化。
10. 第二题第三问:合理性,用文字 justify;敏感性:对 3 个特征量进行扰动处理,影响
不大。
11. 第三题第一问:用前面的决策树进行分类(只分了玻璃类型),再聚类检验下
12. 第三题第二问:与决策树的分点比较,差得多论证敏感性
13. 第四题第一问:灰色关联分析

C065
1. 缺失数据统一用 0.04 填充,认为是太小了仪器检测不出来,也方便后续计算
2. 讲了一堆 CLR 的理论支撑(介绍,性质,优点)
3. 问题一前面采用 Fisher 精确检验,没啥大区别;在最后一问认为无法回归,直接用前
后均值差值去减
4. 问题二用支持向量机(SVM);层次聚类(差不多)

5. 问题三套用问题二的 SVM
6. 问题四:主成分分析,画协方差双标图,引入了化学原理解释

C229
1. 颜色找相似的文物补,近似零值进行插补。
2. 第一题引入 spearman 系数,差不多;回溯时引入 Dirichlet 分布。
3. 第二题引入偏最小二乘判别分析(考虑到 14 种成分
4. 偏最小二乘回归,算值,看靠近 0 还是 1,相关热力图可视化

5. 敏感性体现在最优参数

启发:
1. 不同问之间有关联,注意承前启后。
2. 本题主要烦点在于处理不规范的数据,注意中心对数比变换方法的运用(适用于比
例)。

You might also like