
机器学习
蜗牛小红
这个作者很懒,什么都没留下…
展开
-
三种朴素贝叶斯的参数估计
之前学习西瓜书的时候,记录过朴素贝叶斯的学习笔记。由贝叶斯判定准则可知,我们可以使用最大后验估计来获取样本的类别。而贝叶斯分类器估计后验概率的问题可转换为估计类先验概率和类条件概率。对于朴素贝叶斯,假设属性条件性独立,因此核心就是估计类先验概率和各属性的类条件概率。尽管朴素贝叶斯分类器的假设过于简化,但是有些实际情况中(文本分类和垃圾邮件过滤)表现良好。不同的朴素贝叶斯分类器的区别在于对属性的类...原创 2020-10-10 16:31:00 · 2471 阅读 · 0 评论 -
感知机
感知机模型感知机的思想是在特征空间找到一个分离超平面,能将二元分类的数据完全的分隔开。使得超平面一侧的数据点分类为一类,另一侧的数据点分类为另一侧。当数据集线性可分时,感知机是收敛的,也就是说肯定能找到一个超平面将数据分隔开。数学模型表示如下:f(x)=sign(wTx+b)f(x)=sign(w^Tx+b)f(x)=sign(wTx+b)其中sign为符号函数,当自变量大于等于0时输出取1,...原创 2020-04-06 22:37:55 · 261 阅读 · 0 评论 -
信息熵、条件熵、信息增益
信息熵信息熵是度量离散随机变量的不确定性的指标。不确定性越大,信息熵的值越大。公式如下:H(X)=−∑i=1np(xi)log2p(xi)H(X)=-\sum_{i=1}^n p(x_i) \log_2 p(x_i)H(X)=−i=1∑np(xi)log2p(xi)其中:????(????????)代表随机事件????????的概率。单看公式太抽象,下面逐步介绍信息熵的来源:信息量信息量:是对信息的度量。对于...原创 2020-03-29 16:05:49 · 3241 阅读 · 0 评论 -
周志华《机器学习》系列笔记——神经网络(5)
5.1神经元模型本书采用目前使用得最广泛的一种对神经网络的定义,即“神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应”神经网络中最基本的成分是神经元模型,即上述定义中的简单单元。“M-P神经元模型”,神经元接收到来自其他n个神经元传递过来的信号,这些输入信号通过带权重的连接进行传递,神经元接收到的总输入值将与神经元的阈值进行比...原创 2020-02-07 14:54:34 · 2339 阅读 · 0 评论 -
周志华《机器学习》系列笔记——决策树(4)
4.1基本流程决策树基于树结构来进行决策,决策过程的最终结论对应了我们所希望的判定结果,决策过程的每个判定问题是对某个属性的测试。决策树是一种非参数的监督学习方法,它能从数据中学习出一系列规则,并用树结构呈现出来。一般来说,一棵决策树包含一个根节点、若干个内部节点和若干个叶节点。根节点对应样本全集,从根节点到叶节点的路径对应了一个判定测试序列。根节点和内部节点包含的样本集会根据测试结果划分到...原创 2020-02-05 14:55:10 · 768 阅读 · 0 评论 -
周志华《机器学习》系列笔记——线性模型(3)
3.1基本形式线性模型试图学得一个通过属性的线性组合来进行预测的函数。线性模型形式简单、易于建模,但却蕴含着机器学习重要的基本思想,许多功能更强大的非线性模型可在线性模型的基础上通过引入层级结构或高维映射而得。并且线性模型有很好的可解释性,属性的系数代表了属性的重要性。一般用向量形式写成:f(x)=wTx+b f(x) = w^Tx+bf(x)=wTx+b3.2线性回归3.2.1书本线性...原创 2020-02-04 10:28:27 · 919 阅读 · 0 评论 -
周志华《机器学习》系列笔记——模型评估与选择(2)
2.1经验误差与过拟合错误率error rate:分类错误的样本数占总样本数的比例精度:分类正确的样本数占总样本数的比例误差error:学习器的实际预测输出与真实输出之间的差异训练误差training error/经验误差empirical error:学习器在训练集上的误差泛化误差generalization error:学习器在新样本上的误差机器学习的目的,是得到泛化能力高的模型,...原创 2020-01-17 16:55:38 · 1433 阅读 · 0 评论