- 博客(4)
- 收藏
- 关注
原创 初学机器学习
网格搜索是模型调参的工具,寻找最优的超参数,只需要将若干参数传递给网格搜索对象,它自动帮我们完成不同的超参数的组合、模型训练、模型评估,最终返回一组最优的超参数。交叉验证是一种数据集的分割方法,将数据集分为n份,拿一份做验证集(测试集)其他n-1做训练集。网格搜索+交叉验证(模型选择和调优)两个组合在一起形成一个模型参数调优的解决方案。交叉验证法是划分数据集的一种方法,目的就是为了得到更加准确可信的模型评分。
2024-04-25 21:46:55
239
1
原创 初学机器学习
在二维空间内,两个点之间的曼哈顿距离(Manhattan distance)为它们横坐标之差的绝对值与纵坐标之差的绝对值之和。在二维空间内,两个点之间的切比雪夫距离为它们横坐标之差的绝对值与纵坐标之差的绝对值的最大值。通过对原始数据进行标准化,转换为均值为0标准差为1的标准正态分布的数据。其中𝜇是样本数据的均值(mean),𝜎是样本数据的标准差(std)。其中max为样本数据的最大值,min为样本数据的最小值。feature_range 缩放区间。:对原始数据的线性变换,
2024-04-24 21:29:34
1397
原创 初学机器学习
KNN算法解决回归问题:计算未知样本到每一个样本距离-->升序排列-->取最近的K个样本-->计算其平均值(即未知样本的预测值)KNN算法解决分类问题:计算未知样本到每一个样本距离-->升序排列-->取最近的K个样本-->多数表决K的归属(出现次数最多)KNN算法的思想:在k个相似样本中的大多数属于某一个类别,该样本则也属于这个类别。过拟合产生的原因:模型过于复杂、数据不纯、训练数据太少。特征提取、特征预处理、特征降维、特征选择、特征组合。K值过小:过拟合 K值过大:欠拟合。过拟合、欠拟合、拟合。
2024-04-23 21:04:53
568
原创 初学机器学习
1.获取数据:获取经验数据、图像数据、文本数据2.数据基本处理:数据缺失值处理、异常值处理3.特征工程:特征提取、特征预处理、特征降维4.模型训练:线性回归、逻辑回归、决策数5.模型评估:回归评测指标、分类评测指标、聚类评测指标。
2024-04-22 17:14:27
729
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人