
机器学习
文章平均质量分 81
本专栏对机器学习的知识进行详细讲解,提供学习。
街 三 仔
一个热爱编程的小工科男·阿里云专家博主
展开
-
【机器学习 - 10】:PCA和梯度上升法
需要强调的是,不是简单地从n维特征中去除其余n- k维特征,而是重新构造出全新的k维正交特征,且新生成的k维数据尽可能多地包含原来n维数据的信息。实质是数据间的方差够大,通俗地说,就是能够使数据到了新的维度基变换下,坐标点足够分散,数据间各有区分。如下图所示,比如求y轴为它的第一主成分,那么把y轴的分量去掉,也就是去掉各点在第一主成分上的分量,即得到第二主成分。找到第一主成分之后,每一个样本都去掉第一主成分上的分量,对于这个结果,继续去求第一主成分,得到的就是第二主成分。,找一组新的特征来重新表示;原创 2023-05-04 14:17:04 · 698 阅读 · 1 评论 -
【机器学习 - 9】:关于梯度的调试
调试方法,即求theta的方法不同,对于每一个theta,在其左右两边各取一个极小的值,然后两个值相减,求导数。原创 2023-02-27 07:30:02 · 208 阅读 · 1 评论 -
【机器学习 - 8】:随机梯度下降法
为什么使用随机梯度下降法?如果当我们数据量和样本量非常大时,每一项都要参与到梯度下降,那么它的计算量时非常大的,所以我们可以采用随机梯度下降法。随机梯度下降法中的学习率必须是随着循环的次数增加而递减的。如果eta取一样的话有可能在非常接近我们的最优值时会跳过,所以随着迭代次数的增加,学习率eta要随之减小,我们可以用实现(如下图所示),t0和t1是一个常数,定值,其通常是根据经验取得一些值。原创 2023-02-27 07:03:23 · 517 阅读 · 0 评论 -
【机器学习 - 7】:梯度下降法(第二篇)
观察如上结果,出现nan的原因:在真实数据中我们的跨度太大了,使我们的步长很大,最终使得梯度下降法的过程是不收敛的。原创 2023-02-26 23:37:17 · 320 阅读 · 0 评论 -
【机器学习 - 6】:梯度下降法(第一篇)
梯度下降法不是一个机器学习算法,既不是在做监督学习,也不是在做非监督学习,是一种基于搜索的最优化方法。并不是所有的函数都有唯一的极值点,线性回归的损失函数具有唯一的最优解。以上主要是以一个维度进行讲解,当在多维时求损失函数,其求法如下。:最小化一个损失函数。:最大化一个损失函数。原创 2023-01-31 14:23:16 · 584 阅读 · 0 评论 -
【机器学习 - 5】:多元线性回归
注意观察上图,上图中第一个特征值为负数,说明该特征与房价为负相关,即该特增大时,房价降低,反之,特征值的系数为正,则为正相关。以下是多元线性回归的模型,我们需要求出theta,使得真实值和预测值的差值最小。通过对矩阵进行转换,加一个X0维度,可以求出两个矩阵点乘的最小值问题。西塔0(theta)代表截距,西塔除第一个以外的元素代表系数。正规方程解的缺点:时间复杂度高,是O(n^3)。正规方程解的优点:不需要对数据进行归一化处理。多元线性回归方程:特征值为两个或两个以上。原创 2023-01-18 21:25:38 · 1239 阅读 · 0 评论 -
【机器学习 - 4】:线性回归算法
举个例子,比如第一个团队有2个人,统计其工资的均方误差为800,第二个团队有100个人,工资的均方误差为1000,能说明第一个团队比较好吗?这是不行的,因为统计的个数不同,样本不同,导致量纲不一样,所以需要除以样本数量m,减少量纲的影响。我们希望找到一条最佳拟合的直线方程,y=ax+b,对于每一个样本点,在这个直线方程上都有一个预测值,预测值和真实值有一定的差距,我们希望这些样本到直线方程的差距之和最小。R^2(以下用R2表示)分类的准确度在0和1之间,R2为1时,模型最优,即没有出现任何错误。原创 2023-01-18 15:35:31 · 1238 阅读 · 0 评论 -
【机器学习 - 3】:数据归一化(最值归一化、均值方差归一化)
我们可发现纵坐标的数据远远大于横坐标的数据。这样在我们进行计算时,由于发现时间的影响远大于肿瘤大小的影响,所以预测相当于只采用了一个特征。:它是把所有数据归到均值为0,方差为1的分布中。即确保最终得到的数据均值为0,方差为1。举个例子,例如我们要使用KNN算法来预测肿瘤为良性肿瘤或恶性肿瘤。观察上图,并未发现任何问题。以上述例子为例:对发现时间的特征进行均值方差归一化。以上述例子为例:对发现时间的特征进行最值归一化。:把所有数据映射到0-1之间。根据以上数据,画出散点图。原创 2023-01-17 15:30:35 · 3149 阅读 · 1 评论 -
【机器学习 - 2】:数据集的处理
例如对于一个训练集,将其20%作为测试集,80%作为训练集,这20%的测试集是已经有目标值了的,将训练集进行拟合,获得模型,再通过测试集进行测试,获得最终结果,将最终结果和已知的目标值进行比对,可预测其训练模型的精确度。举个例子:在knn分类器中,即KNeighborsClassifier(n_neighbors=3),n_neighbors值的不同,会导致模型的准确率不同,我们需要不断调整参数,找到某个数更加拟合我们的数据,这就是。时,不考虑距离带来的权重问题。时,距离作为计算的权重。原创 2023-01-12 11:09:25 · 3386 阅读 · 3 评论 -
【机器学习 - 1】:knn算法
根据以上学习,我们可以总结出机器学习的算法实现过程如下图所示,先得到训练数据集,通过机器学习算法,使用fit方法对数据进行拟合,获取模型,最后通过输入样例(待预测数据),获得输出结果。原创 2023-01-10 11:17:05 · 803 阅读 · 0 评论