
机器学习
文章平均质量分 76
「已注销」
这个作者很懒,什么都没留下…
展开
-
协方差矩阵
方差(variance)方差是针对于一个随机变量X来说的,X是个标量而不是矢量方差用来衡量随机变量的离散程度和偏离程度的、Var(X)=E[(X−μ)2]Var(X)=E[(X-\mu)^2]其中μ是随机变量X的均值\mu 是随机变量X的均值,μ=EX\mu =EX协方差(covariance)协方差用于描述两个随机变量X和Y之间的相关关系的,这两个都是标量而不是矢量cov(X,Y)=E[(X−EX原创 2017-05-09 15:46:27 · 842 阅读 · 0 评论 -
判别模型、生成模型
判别模型(Discriminative model)生成模型(Generative model)设X是特征,Y是类别则判别模型就是求P(Y|X),这是条件概率而生成模型一般就是求P(Y)P(X|Y)也就是P(XY),这就是联合概率了所以使用生成模型时,有多少类就有多少个模型,然后用这些模型一个一个去试,然后找出最匹配的那一类使用判别模型就只有一个模型,直接用这个模型就可以判别出最合适的那一类原创 2017-05-22 15:57:33 · 477 阅读 · 0 评论 -
softmax函数
softmax函数是一个多维映射函数,将n维的向量映射到另一个n维的向量。比如,将[1, 2, 3, 4, 1, 2, 3]映射到[0.024, 0.064, 0.175, 0.475, 0.024, 0.064, 0.175],这几个数加起来等于1,可以把它当成概率可以用于多分类问题,每个数字就是某一类的概率公式设一个向量S为[S1,S2,...,SN][S_1,S_2,...,S_N]用soft原创 2017-06-04 22:47:54 · 2386 阅读 · 0 评论 -
主成分分析PCA
主成分分析PCA(principal component analysis)是一种降维方法将原来的数据乘以一个变换矩阵,得到降维后的矩阵。Y=WTXY=W^TXPCA是把高维数据投影到低维空间,使得数据的方差最大化,也就是投影之后数据尽可能地分散如图所示,PCA会把数据投影到椭圆的长轴方向,使得数据尽可能地分散开PCA的步骤求原数据的协方差矩阵求协方差矩阵的特征值和特征向量把特征向量依次排列起原创 2017-05-29 22:21:12 · 765 阅读 · 0 评论 -
Kappa系数
Kappa系数用于一致性检验也可以用于衡量分类精度kappa系数的计算是基于混淆矩阵的 kappa计算结果为-1~1,但通常kappa是落在 0~1 间,可分为五组来表示不同级别的一致性:0.0~0.20极低的一致性(slight)、0.21~0.40一般的一致性(fair)、0.41~0.60 中等的一致性(moderate)、0.61~0.80 高度的一致性(substantial)和0.8原创 2017-05-29 17:46:40 · 56594 阅读 · 8 评论 -
logistic回归
一般的线性回归,一般是用于回归学习上如何将线性回归思想应用在分类上面?最直接的就是在线性函数的输出加个阶跃函数,用于非线性映射设z=wTx+bz=w^Tx+b单位阶跃函数映射:y=⎧⎩⎨⎪⎪0, z≤00.5, z=01,z>0y=\left\{\begin{aligned} 0,\ \ z\leq 0 \\ 0.5, \ \ z=0 \\1,z>0\end{aligned}\right.然而单原创 2017-05-29 15:33:15 · 550 阅读 · 0 评论 -
随机森林 random forest
随机森林是一种集成学习方法(ensemble learning),用于对数据进行分类随机森林的分类结果由众多分类器的分类结果表决而得到随机森林的每个子分类器是决策树(decision tree)算法的步骤随机森林一般按以下几个步骤来构造:第一步,假设我们的高光谱数据包含N个样本,则我们随机地有放回地抽取N次样本,组成一个新的含有N个样本的数据集。第二步,假设数据包含M个特征,当我们在进行决策树的一个原创 2017-05-28 14:24:56 · 941 阅读 · 0 评论 -
线性判别分析LDA
线性判别分析是一种降维方法也是一种特征提取方法线性判别分析是一个线性变换,也就是将原始数据乘以一个变换矩阵WWY=WTXY=W^TX其中XX就是原始数据,YY是变换后的数据,也就是降维后的矩阵由上面的示意图就可以看出,实际上LDA就是致力于把数据投影到一个低维空间里面去,在这个低维空间里面,数据具有最大的可分性公式的推导设高维特征集 X=x1,x2,...,xnX={x_1,x_2,...,x_n}原创 2017-05-28 10:56:48 · 1169 阅读 · 0 评论 -
准确率、召回率、精度、错误率
概念准确率precision(查准率): 是针对预测为正的样本来说的,指的是,预测为正的样本中预测正确了的百分比。召回率recall(查全率):是针对真实为正的所有样本来说的,指的是,所有为正的样本中,被正确识别出来了的样本的比例。精度accuracy:指的是,预测正确了的样本占总样本的比例。错误率:1-精度TP:真正例 (预测为正,真实为正) TN: 真反例 (预测为反,真实为反) FP:假原创 2017-05-07 18:25:25 · 4643 阅读 · 1 评论 -
最小距离法
最小距离法是分类方法中最简单的方法之一当想要判断一个新的样本向量的类别的时候,就去计算它与各类别的代表向量的距离即可求每一类的代表向量设一个样本集有 pp 类样本 设第 i i 类有kk个样本,样本集合为{ωi1,ωi2,...,ωik}\{\omega_{i1},\omega_{i2},...,\omega_{ik}\} 其代表向量一般为这些样本的均值向量,即 ωim=1k(ωi1+ωi2原创 2017-05-08 10:51:07 · 7057 阅读 · 1 评论 -
卷积神经网络
卷积神经网络(Convolution Neural Network,CNN)一般用于图像识别步骤主要步骤是:卷积层 + 池化层 + 卷积层 + 池化层 + 全连接层卷积层一个卷积核就有是一个神经元一个卷积核就会得到一张卷积后的图像图中有两个卷积核:卷积核1、卷积核2图中只计算了卷积核1的卷积结果,就是右下角粉红色的矩阵池化层池化层(pooling)就是下采样subsampling就是把大图像变小常用转载 2017-05-16 11:53:56 · 593 阅读 · 0 评论 -
信息熵、条件熵、信息增益
信息增益描述了一个特征带来的信息量的多少,往往用于特征选择信息增益 = 信息熵 - 条件熵一个特征往往会使一个随机变量Y的信息量减少,减少的部分就是信息增益一个例子如图所示,目标值是:playtennis,也就是是否打球 有四个特征:天气、温度、湿度、风信息熵信息熵的公式: H(X)=−∑i=1np(xi)logp(xi)H(X)=-\sum\limits_{i=1} ^{n} p(x_i)\l原创 2017-05-07 12:32:30 · 6394 阅读 · 1 评论 -
朴素贝叶斯分类
朴素贝叶斯Naive Bayes其原理是根据最大后验概率来对数据进行分类也就是把数据分类到使得后验概率最大的那一类有点像极大似然估计公式贝叶斯公式: P(B|A)=P(A|B)P(B)P(A)P(B|A)=\dfrac {P(A|B)P(B)}{P(A)}具体到贝叶斯分类的应用就是:P(类别|特征)=P(特征|类别)P(类别)P(特征)P(类别|特征)=\dfrac{P(特征|类别)P(类别)}{原创 2017-05-15 12:00:31 · 731 阅读 · 0 评论 -
极大似然估计
极大似然估计法(Maximum likelihood estimation,MLE)是一种参数估计方法例子1两个猎人同时对同一只野兔开了一枪,野兔被打中,问是被谁打中的?这里的被谁打中就是一个参数,需要去估计极大似然估计就是根据最大概率的原则去估计这个参数也就是求出使得发生这件事的概率最大的那个参数值例子2假设一个袋子里面有90%的一种颜色的球,10%的另一种颜色的球有放回地摸了100次球,结果摸到原创 2017-05-14 20:11:24 · 583 阅读 · 0 评论 -
马氏距离
含义一马氏距离可以描述一个点P到一个分布D之间的距离设这个点P为x⃗ =(x1,x2,x3,...,xn)T\vec{x}=(x_1,x_2,x_3,...,x_n)^TD分布均值为μ⃗ =(μ1,μ2,μ3,...,μn)T\vec\mu=(\mu_1,\mu_2,\mu_3,...,\mu_n)^TD分布协方差矩阵为S则P点到D分布之间的马氏距离为:DM(x⃗ )=(x⃗ −μ⃗ )TS−1(x转载 2017-05-11 10:02:54 · 6499 阅读 · 0 评论 -
集成学习ensemble learning
集成学习(ensemble learning)是一种分类方法由众多分类器组成,如决策树、支持向量机、神经网络等等它的分类结果也是由众多分类器的分类结果表决得到,就像投票选举一样在一个集成学习器里面,可以全部是同一类分类器(如随机森林),也可以是不同一类的分类器集成学习的思想:由众多弱分类器组成一个强分类器,极大地减少了分类的失误率只要平均每个分类器的正确率高于50%,而且分类器足够多,就一定能得到正原创 2017-06-12 17:52:03 · 696 阅读 · 0 评论