
ML
文章平均质量分 57
_console_
这个作者很懒,什么都没留下…
展开
-
机器学习之回归
实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。y=1时,预测结果(横轴)越接近1,损失越小。y=0时,预测结果(横轴)越接近1,损失越大。,准确来说是解决二分类。带有交叉验证的岭回归。原创 2022-12-24 08:00:00 · 941 阅读 · 0 评论 -
机器学习之模型调优
需要对模型预设几种超参数组合,每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。将拿到的训练数据,分为训练和验证集。每次都更换不同的验证集,取平均值作为最终结果。通常情况下需要手动指定的参数(例如K-近邻算法中的K值)叫做。代码示例:使用交叉验证和网格搜索优化KNN算法中k值。原创 2022-12-23 14:45:59 · 560 阅读 · 0 评论 -
机器学习之分类-决策树&随机森林
使用随机森林和网格搜索预测鸢尾花。决策树的划分依据:信息增益。代码示例 : 鸢尾花预测。原创 2022-12-18 23:09:06 · 482 阅读 · 0 评论 -
机器学习之分类-K-近邻算法(KNN)
一个样本在特征空间中的k个最近的样本中的大多数属于某一个类别,则该样本也属于这个类别。代码示例: 鸢尾花种类预测。原创 2022-12-18 08:00:00 · 488 阅读 · 0 评论 -
机器学习之特征工程(3)特征降维
减少特征的个数,得到不相关的主成分特征。Embedding 嵌入式。原创 2022-12-17 08:00:00 · 135 阅读 · 0 评论 -
机器学习之特征工程(2)特征预处理
将特征数据转化为更加适合算法模型的特征数据的过程。将数据变换到均值为0,标准差为1的范围内。将数值映射到区间[0,1]原创 2022-12-16 08:00:00 · 449 阅读 · 0 评论 -
机器学习之特征工程(1)字典/文本特征提取方法
idf: inverse document frequency, 逆向文档频率,某个词出现的频率高,并且在其他文本中出现少,则认为该词具有很好的区分能力。CountVectorizer不能自动分词来处理中文,可以借助分词工具。ℹ️对于特征当中存在的类别信息会处理为one-hot编码。Tf: term frequency,词频。stop_words=[] 停用词参数。将任意数据转化为数字特征。原创 2022-12-15 13:03:30 · 464 阅读 · 0 评论 -
机器学习之获取数据集
load和fetch返回的数据类型是datasets.base.Bunch原创 2022-12-15 13:00:06 · 390 阅读 · 0 评论 -
机器学习概述
什么是机器学习机器学习的一般流程算法分类原创 2022-12-15 12:57:45 · 361 阅读 · 0 评论