
scikit-learn
scikit-learn库
一只干巴巴的海绵
这个作者很懒,什么都没留下…
展开
-
Python实现:Hold-Out、k折交叉验证、分层k折交叉验证、留一交叉验证
模型在统计中是极其重要的,可以通过模型来描述数据集的内在关系,了解数据的内在关系有助于对未来进行预测。一个模型可以通过设置不同的参数来描述不同的数据集,有的参数需要根据数据集估计,有的参数需要人为设定(超参数);一个数据集也可以通过多个多个模型进行描述,不能说哪个模型是最好的,其他模型都是不可取的。数据集可以看做变量的具体实现,描述数据集的内在关系,实则是描述变量之间关系,进而对我们感兴趣...原创 2020-03-03 23:05:43 · 5884 阅读 · 0 评论 -
Python-sklearn中的Pipeline
Python的`sklearn.pipeline.Pipeline()`函数将多个学习器组成流水线,所谓流水线即数据在前一个节点处理之后的结果,转到下一个节点处理。原创 2020-07-31 23:21:12 · 1962 阅读 · 0 评论 -
scikit-learn文本特征提取:CountVectorizer与TfidfVectorizer
文本特征提取函数CountVectorizer、TfidfVectorizer参数详细原创 2020-07-26 19:38:35 · 934 阅读 · 0 评论 -
超参数选择:网格搜索GridSearchCV
.Grid Search网格搜索,在所有候选的参数选择中,通过循环遍历,对每一种可能的参数在训练集上训练一个模型,在测试集上表现最好的参数就是最优的参数。模型最终的表现好坏与初始数据训练集和测试集的划分有很大的关系(测试集数据没有被训练,可能有偏差)。Grid Search 调参方法存在的共性弊端就是:耗时;参数越多,候选值越多,耗费时间越长!所以,一般情况下,先定一个大范围,然后再细化。.GridSearchCVgrid search with cross validation,将网格搜索原创 2020-07-27 21:53:58 · 4166 阅读 · 0 评论