
吴恩达机器学习笔记
文章平均质量分 93
算法导航
这个作者很懒,什么都没留下…
展开
-
机器学习笔记--决策树
(4)决策树的生成。决策树的生成往往通过计算信息增益或其他指标,从根结点开始,递归地产生决策树。这相当于用信息增益或其他准则不断地选取局部最优的特征,或将训练集分割为能够基本正确分类的子集。由于生成的决策树存在过拟合问题,需要对它进行剪枝,以简化学到的决策树。决策树的剪枝,往往从已生成的树上剪掉一些叶结点或叶结点以上的子树,并将其父结点或根结点作为新的叶结点,从而简化生成的决策树。(3)特征选择的目的在于选取对训练数据能够分类的特征。规则的集合,也可以看作是定义在特征空间划分上的类的条件概率分布。原创 2023-08-13 10:29:02 · 94 阅读 · 1 评论 -
机器学习笔记--KNN算法
在数学中,切比雪夫距离(Chebyshev distance)或是L∞度量,是向量空间中的一种度量,二个点之间的距离定义是其各坐标数值差绝对值的最大值。他的平坦空间(即假设没有重力,曲率为零的空间)的概念以及表示为特殊距离量的几何学是与狭义相对论的要求相一致的。汉明距离是使用在数据传输差错控制编码里面的,汉明距离是一个概念,它表示两个(相同长度)字对应位不同的数量,我们以表示两个字,之间的汉明距离。在机器学习算法中,我们经常需要计算样本之间的相似度,通常的做法是计算样本之间的距离。值的选择和分类决策规则。原创 2023-08-12 21:29:03 · 523 阅读 · 1 评论 -
机器学习笔记--推荐系统
在之前的基于内容的推荐系统中,对于每一部电影,我们都掌握了可用的特征,使用这些特征训练出了每一个用户的参数。相反地,如果我们拥有用户的参数,我们可以学习得出电影的特征。在一个基于内容的推荐系统算法中,我们假设对于我们希望推荐的东西有一些数据,这些数据是有关这些东西的特征。但是如果我们既没有用户的参数,也没有电影的特征,这两种方法都不可行了。在我们的例子中,我们可以假设每部电影都有两个特征,如。表示我们只计算那些用户 j 评过分的电影。为用户 j 给电影 i 的评分.代表电影的浪漫程度,代表电影的动作程度。原创 2023-08-11 15:58:36 · 253 阅读 · 1 评论 -
机器学习笔记--朴素贝叶斯
这是一个较强的假设。由于这一假设,模型包含的条件概率的数量大为减少,朴素贝叶斯法的学习与预测大为简化。(3)联合概率:联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。1.朴素贝叶斯法是典型的生成学习方法。3.朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行分类预测。(2)后验概率:根据已经发生的事件来分析得到的概率。(1)先验概率:根据以往经验和分析得到的概率。后验概率最大等价于0-1损失函数时的期望风险最小化。数据的概率,因为它反映了在看到训练数据。2.朴素贝叶斯法的基本假设是。原创 2023-08-09 10:05:48 · 88 阅读 · 1 评论 -
机器学习笔记--异常检测
异常检测原创 2023-08-07 22:38:33 · 190 阅读 · 1 评论 -
机器学习笔记--降维
1、概述1.1 维数灾难维数灾难: 通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。有的时候,维度太大也会导致机器学习性能的下降,并不是特征维度越大越好,模型的性能会随着特征的增加先上升后下降。1.2 降维(1)降维是将训练数据中的样本从高维空间转换到低维空间,要注意,不存在完全无损的降维。(2)降维的主要作用:减少冗余特征,降低数据维度数据可视化(3)降维的优缺点降维的优点:通过减少特征的维数,数据集存储所需的空间也相应减少,减少原创 2021-11-10 11:13:57 · 2941 阅读 · 0 评论 -
机器学习笔记--支持向量机
1、支持向量机概述1.1 基本概念支持向量机(Support Vector Machine,SVM ) 是一类按监督学习方式对数据进行二元分类 的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面 。1.2 硬间隔、软间隔和非线性 SVM[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-utYTZqZv-1635427227229)(9DB38BE78A154A6E80349AC55066FCA1)]硬间隔指的就是完全分类准确,不能存在分类错误的情况。软间隔,就原创 2021-10-29 19:34:40 · 1929 阅读 · 0 评论 -
机器学习笔记 -- 聚类
1、基本概念1.1 监督学习与非监督学习监督学习: 训练集有标签,我们的目标是找到能够区分正样本和负样本的决策边界,需要据此拟合一个假设函数。非监督学习: 数据没有标签1.2 主要非监督学习方法聚类降维关联规则推荐系统2、K均值算法K-均值 是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类成不同的组。算法流程:1:随机选择K个点作为初始质心。2:将每个点指派到最近的质心,形成K个簇。3:对于上一部聚类的结果,进行平均计算,得出该簇的新的聚类中心。原创 2021-11-07 16:06:30 · 138 阅读 · 0 评论 -
机器学习笔记 -- 神经网络
1、什么是神经网络1.1 非线性假设无论是线性回归还是逻辑回归,都存在这样一个缺陷,那就是当特征过多时,计算量会非常大。这时,神经网络应运而生,极大地弥补了这方面的缺点。1.2 神经元与大脑每个神经元都可以看做一个处理单元,它有多个树突(输入),一个轴突(输出)。多个信息经过树突传递到神经元,处理后,再通过轴突输出。这便是神经网络的生物模型。基于此,我们设计出了类似的神经网络模型。x1x_1x1、x2x_2x2、x3x_3x3为输入层;a1(2)a_1^{(2)}a1(2)、a2(原创 2021-11-18 21:07:34 · 556 阅读 · 0 评论 -
机器学习笔记 -- 线性回归
1、定义线性回归是一种通过属性的线性组合来进行预测的线性模型,其目的是找到一条直线或一个平面或者更高维度的超平面,使得预测值与真实值的误差最小化。2、代价函数代价函数度量全部样本集的平均误差。越小则拟合效果越好。J(θ1,θ2,...,θn)=12m∑i=1m(hθ(x(i))−y(i))2J(\theta_1,\theta_2,...,\theta_n)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2J(θ1,θ2,...,θn原创 2021-11-22 17:31:18 · 740 阅读 · 0 评论