
机器学习实践
侠客儿青争ing
这个作者很懒,什么都没留下…
展开
-
ML_7项目实践
预测模型项目模板—可以分为 分类 与 回归理解数据的时候 数据可视化的时候 多问几个问题准备3~5个准确度足够的算法优化-调参 找最好模型序列化 ---- 是 同一个模型然后 有新数据的时候继续以此训练大致总结技巧快速执行一遍某些流程要循环尝试每一个步骤–: 在模板的每一个步骤尝试做点什么,虽然直接可能不能提高准确度啥的 但是蝴蝶效应,可能之后的步骤便会因此 曲折...原创 2020-07-22 16:29:54 · 104 阅读 · 0 评论 -
ML_6结果部署
持久化加载模型用 pickle序列化和反序列化机器学习模型用joblib生成模型考虑序列化和反序列化要相同的:python版本类库版本手动序列化原创 2020-01-12 10:39:58 · 94 阅读 · 0 评论 -
ML_5优化模型
:有时候尝试提升模型的准确度很难集成算法袋装(Bagging)算法:训练集分成多个子集,各个子集训练多个模型袋装决策树:组合投票的方式获得最优解不同医生 出现次数最多的药方 可能最有效袋装决策树 Bagged Decision Tree–适于有很大方差时-BaggingClassifier随机森林 Random Frost RandomforestClassfi...原创 2020-01-11 21:55:55 · 181 阅读 · 0 评论 -
ML_末_实践问题简记
正态化-scaler许多学习算法中目标函数的基础都是假设所有的特征都是零均值并且具有同一阶数上的方差。如果某个特征的方差比其他特征大几个数量级,那么它就会在学习算法中占据主导位置,正态化好处—提高收敛速度pipelines之所以引入管道机制pipeline 是因为参数集要重复使用,比如不同的算法比较的 重复过程。------把重复的东西流水化嘛引入pipelines–两部分 tra...原创 2020-01-14 21:31:58 · 106 阅读 · 0 评论 -
GridSearchCV
需要人工选择的参数 成为 超参。两个途径选择1:凭经验微调2:选择大小不同的参数 带入模型中 挑选最好的参数- 网格搜索gridSearchCV拆为两部分 网格搜索 交叉验证 --找到精度最高的参数。因为遍历所有组合 所以数据大的时候 很耗时。–穷举法适用于 三个 四个以下的超参数。...原创 2020-02-26 10:56:07 · 191 阅读 · 0 评论 -
ML-4选择模型
评估算法增大数据量评估数据集分离训练集和评估集–2:1大量数据 数据比较平均test_size=0.33**K折交叉验证分离 ** 3,5,10分成K组,某一个做模型,其余K-1组做验证;再取准确率的平均数–衡量分类器的性能指标。弃一交叉验证分离N个样本 然后N-1个训练 大似K折法重复随机分离评估数据集与训练数据集...原创 2020-01-11 19:45:26 · 185 阅读 · 0 评论 -
ML_3_数据准备
使用正确的特征来构建正确的模型,以完成既定的任务。数据预处理方法调整数据尺度sklearn—MixMaxScalertransformer= MinMaxScaler (feature range=(0 , 1))newX = transformer.fit_transform(X)set_printtions(precision=3)正态化数据-StandardSca...原创 2020-01-10 19:03:38 · 157 阅读 · 0 评论 -
ML_python:了解数据
查看 了解数据的方法数据维度-print(data.shape)查看头数据peek=data.head(10)查看属性与类型print(data.dtypes)描述性分析print(data.describe())数据分类print(data.groupby(‘class’).size())数据相关性-print(data.corr(method=‘...原创 2020-01-09 12:41:45 · 240 阅读 · 2 评论