
机器学习新手自学
文章平均质量分 81
RsZHUBUXING
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习日记Day7
上一个学习了Lasso和Ridge,scikit-learn还提供了ElasticNet类,结合了Lasso和Ridge的惩罚项。在实践中,这种结合的效果最好,不过代价是要调节两个参数:一个用于L1正则化,一个用于L2正则化。 http://t.csdn.cn/j3MDyhttp://t.csdn.cn/j3MDy from sklearn.linear_model import ElasticNet el = ElasticNet(alpha=0.01).fit(X_train, y_train)原创 2022-05-14 23:34:47 · 573 阅读 · 0 评论 -
梯度下降,作业完成
实现梯度下降(批梯度下降,随机梯度下降,带动态步长) import numpy as np def gradient(x,y,w): m,n=np.shape(x) g=np.mat(np.zeros((n,1))) for i in range(m): err = y[i,0]-x[i, ]*w for j in range(n): g[j, ]-=err*x[i,j] return g def lossVa原创 2022-05-14 15:12:12 · 473 阅读 · 0 评论 -
机器学习日记Day6
昨天学习到训练集和测试集之间的性能差异是过拟合的明显标志,因此我们应该试图找到一个可以控制复杂度的模型。标准线性回归最常用的替代方法之一就是岭回归(ridgeregression),下面来看一下。 1、岭回归 岭回归也是一种用于回归的线性模型,因此它的预测公式与普通最小二乘法相同。 但在岭回归中,对系数(w)的选择不仅要在训练数据上得到好的预测结果,而且还要拟合附加约束。我们还希望系数尽量小。 换句话说,w的所有元素都应接近于0。 直观上来看,这意味着每个特征对输出的影响应尽可能小(即斜率很小),原创 2022-05-11 16:34:21 · 498 阅读 · 0 评论 -
机器学习日记Day5
1、k近邻算法在回归的应用 先从单一近邻开始,这次使用wave数据集。我们添加了3个测试数据点,在x轴上用绿色五角星表示。利用单一邻居的预测结果就是最近邻的目标值。 mglearn.plots.plot_knn_regression(n_neighbors=1) #利用单一邻居的预测结果就是最近邻的目标值,用蓝色五角星表示 单一近邻回归对wave数据集的预测结果 使用多个近邻进行回归: mglearn.plots.plot_knn_regression(n_neighbors=3)原创 2022-05-10 23:45:28 · 429 阅读 · 0 评论 -
机器学习日记Day4
监督学习 当我们想要根据给定输入预测某个结果,并且还有输入、输出对的示例时,都应该使用监督学习。 我们的目标是对从未见过的新数据作出准确预测。 监督机器学习问题主要有两种,分别叫作分类(classification)与回归(regression)。 分类问题的目标是预测类别标签(class label),这些标签来自预定义的可选列表。 回归任务的目标是预测一个连续值,编程术语叫作浮点数(floating-pointnumber),数学术语叫作实数(real number) 两个任务的区别就是输出原创 2022-05-09 23:02:10 · 836 阅读 · 0 评论 -
机器学习日记Day3
k近邻算法 即距离我们选中中心点距离最近的k个点 scikit-learn中所有的机器学习模型都在各自的类中实现,这些类被称为Estimator类。k近邻分类算法是在neighbors模块的KNeighborsClassifier类中实现的。我们需要将这个类实例化为一个对象,然后才能使用这个模型。 1、这时我们需要设置模型的参数。KNeighborsClassifier最重要的参数就是邻居的数目,这里我们设为1 from sklearn.neighbors import KNeighborsCla原创 2022-05-08 15:52:43 · 921 阅读 · 0 评论 -
机器学习日记Day1
一、关于稀疏矩阵的学习 稀疏矩阵是指矩阵中的元素大部分是0的矩阵,事实上,实际问题中大规模矩阵基本上都是稀疏矩阵,很多稀疏度在90%甚至99%以上。因此我们需要有高效的稀疏矩阵存储格式。几种典型的格式:COO,CSR,DIA,ELL,HYB (1)COO 这是最简单的一种格式,每一个元素需要用一个三元组来表示,分别是(行号,列号,数值),对应上图右边的一列。这种方式简单,但是记录单信息多(行列),每个三元组自己可以定位,因此空间不是最优。 (2)CSR CSR是比较标准的一种,也需要三..原创 2022-05-07 18:13:02 · 189 阅读 · 0 评论