
机器学习
文章平均质量分 70
JYHZZ
这个作者很懒,什么都没留下…
展开
-
支持向量机(iris)
这行代码的返回值为去掉属性为class的那一列之后的数据集,即所有属性。axis=1:去掉某一行,加上参数axis就是去掉某一列。'class':去掉属性为class的一行或一列。即前4列为属性,第5列为类别。这行代码返回值为类别那一列。原创 2023-07-29 15:21:30 · 1244 阅读 · 0 评论 -
机器学习期末复习 集成学习
(1)产生一组个体学习器(2)用某些策略将个体学习器结合。原创 2023-06-22 10:25:07 · 711 阅读 · 0 评论 -
机器学习期末复习 线性模型
比较典型的是一些聚合新闻网站(比如说百度新闻、新浪新闻等),利用爬虫爬取新闻后对新闻进行分类的问题,将同样内容或者关键字的新闻聚集在一起。目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础,此类学习任务中研究最多、应用最广的是"聚类" (clustering),聚类目的在于把。的目的,也就具有了对未知数据进行预测和分类的能力。答: 不一定是,梯度下降只是‘局部最优下降’,梯度下降法并不是下降最快的方向,它只是目标函数在当前的点的高维切平面上下降最快的方向。原创 2023-05-26 09:45:35 · 1102 阅读 · 3 评论 -
机器学习期末复习 贝叶斯分类器
在先验概率的基础上加了一层“考虑”:结合我们已有的知识,将与待检验事件(即我们正在估计概率的随机事件)相关的因素也考虑进去后,我们对随机事件的概率的预估。对于某一个概率事件,我们都会有基于自己已有的知识,对于这个概率事件会分别以什么概率出现各种结果会有一个预先的估计,而这个估计并未考虑到任何相关因素。P(x)在计算P(c=好瓜 | X)和P(c=坏瓜 | X)都有,而且相同。因为这个公式最后求出来的是一个数,比如西瓜数据集,我们最后求出的是P(c=好瓜 | X)=0.4。公式中的P(x)可以忽略。原创 2023-05-24 22:11:54 · 884 阅读 · 0 评论 -
机器学习期末复习 1,2章
如果很难再获取到更多训练数据,那么可以对已有训练数据进行合理扩充,增加数据的多样性;过拟合是训练的模型在训练集上测试准确率很高,但是在测试集上准确率很低的情况;欠拟合是因为训练模型太简单或训练轮次过少导致的训练集和测试集准确率都低。早停策略:如果训练集准确率持续升高而测试集准确率持续降低,则停止。对于决策树来说有预剪枝和后剪枝来预防过拟合;增加训练集的数据,使特征更加全面;神经网络增加隐层个数或深度。形象理解:书上p24。原创 2023-05-17 20:42:53 · 468 阅读 · 0 评论 -
《机器学习》习题 第 4 章
假设不存在与训练集一致的决策树,那么训练集训练得到的决策树至少有一个节点上存在无法划分的多个数据(若节点上没有冲突数据,那么总是能够将数据分开的)。若以最小训练误差作为决策树划分的依据,由于训练集和真是情况总是会存在一定偏差,这使得这样得到的决策树会存在过拟合的情况,对于未知的数据的泛化能力较差。4.1的情况就是以最小训练误差作为决策树划分的依据,训练误差达到了0,但是现实情况中不是所有的西瓜都是这样的,这种做法导致了过拟合,对于未知的数据的泛化能力较差。这个不太好理解,意思是:西瓜A和西瓜B的。原创 2023-05-17 17:37:17 · 2150 阅读 · 0 评论 -
机器学习期末复习 决策树相关
信息增益准则其实是有一些问题的,它会更倾向于选择【取值数目较多的属性】,若有一个属性是“编号”,那么每个编号都是不同的,按编号来划分得到的每个子集只包含一个样本,划分后所有子集的信息熵的和为0,信息增益肯定最大,但是这样划分是没有意义的,若有一个属性是“编号”,那么每个编号都是不同的,按编号来划分得到的每个子集只包含一个样本,划分后所有子集的信息熵的和为0,信息增益肯定最大,但是这样划分是没有意义的。(记住这个结论,C4.5算法有用到)比如训练集4个好瓜,4个坏瓜,那么不划分的情况下,这个结点被赋予好瓜,原创 2023-05-15 23:10:05 · 836 阅读 · 0 评论 -
机器学习期末复习 决策树ID3的计算与构建
ID3构建的流程就是参考书上的那个伪代码。1) 开始:构建根节点,将所有训练数据都放在根节点,选择一个最优特征,按着这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类。2) 如果这些子集已经能够被基本正确分类,那么构建叶节点,并将这些子集分到所对应的叶节点去。3)如果还有子集不能够被正确的分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的节点,如果递归进行,直至所有训练数据子集被基本正确的分类,或者没有合适的特征为止。原创 2023-05-15 21:42:44 · 743 阅读 · 0 评论 -
机器学习期末复习 第5章 神经网络
每一个w[h][j]仅会影响与他相连的那唯一一个输出值y[j],其实上面那个公式中的Ek是对全部输出值y[j]来说的,但是我们求的偏导是关于w[h][j],w[h][j]只与y[j]有关系,这样其他的y[1],y[2]啥的无关项就是常数,求偏导就消去了。v[i][h]影响所有输出值y的原因是通过v[i][h]计算并激活(用到sitah)得到的b[h],这个b[h]参与到了所有的y的运算中,sitah同理。Y[j]是经过激活函数之后输出的值,即Y[j]=sigmod(m[j]-sitay)原创 2023-05-15 21:45:08 · 1084 阅读 · 0 评论 -
机器学习期末复习 K均值和混合高斯的异同点
混合高斯算法最后输出的结果不一定包含训练集的所有样本,可能会剩下若干个分不到任何一个簇的样本,这种样本就有可能是噪声点,所以混合高斯算法对噪声的容忍性较强。k-means和混合高斯都是聚类算法,他们都是原型聚类,即需要初始化参数,应用于无监督的样本。k-means算法最后输出的结果包含训练集的所有样本,所以k-means算法容易受噪声点干扰。k-means算法在初始化时需要初始化簇数,这在某些情况下是不好估计簇数的。混合高斯算法是在运算中自己得出一个一个的簇,不用事先指定。原创 2023-05-15 21:43:57 · 669 阅读 · 0 评论