1. 需求分析:
目标:需要做到什么,才能满足客户的需求。
过程:来回、反复、沟通确认。
2. 数据探索:
确定目标变量:y
初步分析特征变量:X
分析 y 的分布:正态性分布、对数转换等。
分析 X 的相关性:
分析 y 与 X 呈什么关系:线性、非线性等。
对 X 进行分析,当 X 呈正太分布时(高斯分布),即均值为 0 方差为 1 的一组数据,数据归一化可采用 from sklearn.preprocessing import StandardScaler ;
当 X 呈非高斯分布时可以采用 from sklearn.preprocessing import MinMaxScaler() 处理;具体可参考:
https://blog.youkuaiyun.com/FrankieHello/article/details/79659111
3. 特征工程:
特征提取(特征较多时,提取主要特征)
特征扩充(特征较少时,增加特征)
特征处理:归一化、标准化、差分处理、特征变换等。
目标变量处理:取对数、使其正太化转换等。
4. 模型选择:
划分训练集和测试集(5:1)
交叉验证分时序数据和非时序数据
通过交叉验证选取算法
通过交叉验证选取最优参数
5. 模型优化:
特征工程(重要)
模型融合
通过交叉验证选取最优参数
保存模型
6. 打包 inference :
封装成 API (用 jemeter 测试性能,并发量)。
封装成 APP 用消息队列 RabbitMQ 作为数据通信工具。
数据预处理
加载模型
模型推理
保存推理结果