数据挖掘中的建模与预测
基础知识
- 统计学习分类
- 监督学习
利用一组带标签的数据, 学习从输入到输出的映射, 然后将新数据用这种映射关系可以得到映射结果, 达到分类或者回归的目的。线性回归、决策树、SVD等 - 非监督学习
输入数据没有被标记,也没有确定的结果。K-means聚类、层次聚类等 - 半监督学习
在实际情况中,获取的数据大部分都是无标签的,人们企图加入一些人为标注的样本,使得无标签的数据通过训练自动获取标签,这相当于对无监督学习是一种改进。生成模型算法等 - 强化学习
用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。Q-Learning,隐马尔可夫模型
- 监督学习
- 常见的监督学习模型
- 线性模型(linear model)
- 决策树(DT)
- 神经网络(CNN;RNN)
- 支持向量机(SVM)
- 贝叶斯分类(BM)
- 集成学习模型(RandomForest, GBDT, XGBoost, LightGBM)
- 基本概念
- 1.模型、策略与算法
- 2.评价函数
- 3.目标函数
- 4.过拟合与欠拟合
- 5.正则化
- 6.交叉验证
- 7.泛化能力
- 训练及预测的一般流程
- 验证方法
- 训练集、线下验证集、线下测试集、线上测试集
- 无时序的数据集:简单划分、交叉验证划分等
- 有时序的数据集:需考虑时序,nested交叉验证划分等
- 模型选择
- 依据在验证集上的效果选择
- 除了关注效果的均值,还要关注稳健性
- 还需考虑线上效果;可将线上效果视为一折数据
- 参数调优
- 不建议将精力放在参数调优上;容易过拟合
- 大体的设置参数即可
- 应将精力重点放在特征工程;其次是模型融合
- 过拟合与欠拟合
考雅思口语的时候,有些人背了很多口语话题答案,结果考试的时候没考到他背的题,只得了5.5分。因为他非常复杂的记住了刻板的对话,而没有真正抽象出答题的方法。
- 目标函数
- 正则化
- 奥卡姆剃刀原理
Do not multiply entities beyond necessity, but also do not reduce them beyond necessity - 数学原理
- 奥卡姆剃刀原理
代码实战
之后再做添补