数据准备
数据不完美
- 数据残缺
- 语言
- 信息不对等
- 把握数据
是否有数据
有多少数据
是什么样的数据
标签
推荐书籍《非暴力沟通》《 高难度沟通》
准备数据
重要且费时
- 关系型数据库MySQL
- 大数据Hbase.HIVE
- 搜索引擎数据库ES
- 内存数据库Redis
- 图数据库NEO4j、Janus Graph
数据探索
分析、预处理、转换
- 数据变多
分词、统计、特殊信息 - 数据升维
数据清洗
- 缺失值的处理
- 异常值处理
- 数据偏差的处理
是否允许、确实原因、如何补充
过拟合:训练集√ 测试集× 验证集×
欠拟合:训练集× 测试集×
数据标准化
- 特征选择
维度越多,数据就会越稀疏,可解释性变差,可信度降低 - 构建训练集与测试集
方法
1.留出法
2.交叉验证法
3.自助法
模型训练
分类问题
二分类
多分类
多标签分类
聚类问题
聚类是把一个数据集划分为多个组的过程
互斥
相交
层次
模糊
回归问题
Regression回归
关联问题
模型集成
Bagging(装袋法)
Boosting(增强法)
Stacking(堆叠法)
模型评估
-
评估指标–混淆矩阵与准确率指标
矩阵数值:
真阳性
真阴性
假阳性
假阴性
准确率
精确率
召回率
F值
ROC曲线和AUC值
真正例率和假正例率 -
业务抽样评估
-
泛化能力评估
-
模型速度
-
鲁棒性
-
可解释性
评估数据的处理
随机抽样
随机多次抽样
交叉验证
自助法
模型应用
离线应用还是在线应用?
模型的监控
结果监控
人工定期复审
Case收集与样本积累