2023美赛思路 | 2023美赛C题Matlab代码
基本介绍
(1)问:
本文分两个小问,第一个小问是一维数据的预测,但同时要得出一个区间,这里就用多元线性回归来做,输入数据集用历史一段时间的数据以每第i:i+k-1个数据依次排列,构成空间结构数据作为自变量,当前的数据作为因变量,拟合关系式并预测2023年3月1日的两个报告结果数指标;第二小问,分析单词属性对7个百分比数据的影响,属性例如:字母种类数、字符重复次数、字符平均间隔、ASCII码平均值等,最后通过方差分析对属性和百分比指标的影响度进行分析,并说明哪些属性呈显著影响。
(2)问:
前面的单词与后面的百分比指标存在一定的关系,以百分比指标作为因变量,单词作为自变量,为了方便带入机器算法学习,需要对单词进行量化,基于第一问属性分析结果,从字母种类及频次角度出发,将单词字母转化为26个字母出现的频次序列(比如we这个单词,先生成26个0,在e和w位点统计各字母出现的频次数)作为训练输入,通过机器学习算法训练并对误差进行检验&