
ML
qinglv1
如有问题,请发送给到邮箱:772152438@qq.com
展开
-
准确率和召回率,以及评价标准F1 score
一.准确率和召回率 T为相应的情况的个数 实际为真实际为假预测为真T1T3预测为假T2T4 则准确率的计算公式是: P=(T1)/(T1+T3) 召回率的计算公式是:R=(T1)/(T1+T2)二.评价模型好坏的标准: 这个就需要在准确率和召回率之间找一个权衡 尽量不要使用二者的平均什么的,因为如果 而是应该使用:2*(P*R)/(P+R)...原创 2018-05-25 13:25:39 · 1837 阅读 · 0 评论 -
决策树和随机森林
转载自:https://www.cnblogs.com/fionacai/p/5894142.html 首先,在了解树模型之前,自然想到树模型和线性模型有什么区别呢?其中最重要的是,树形模型是一个一个特征进行处理,之前线性模型是所有特征给予权重相加得到一个新的值。决策树与逻辑回归的分类区别也在于此,逻辑回归是将所有特征变换为概率后,通过大于某一概率阈值的划分为一类,小于某一概率阈值的为另一类;而决...转载 2018-07-11 12:14:40 · 320 阅读 · 0 评论 -
大规模机器学习(随机梯度下降,在线学习,减少映射(map reduce),数据并行化)
1.对于三类梯度下降的算法可以参考这个链接的解释https://blog.youkuaiyun.com/uestc_c2_403/article/details/749101072.大规模机器学习(在线学习机制) 试用这个情况的类型是:有连续的数据流(如果用户什么的很少的情况下,就不需要使用在线学习了);用户不太固定的情况(如果用户不太固定,那么对于他的推荐也是很不唯一的,需要临时变化,所以需要...原创 2018-06-19 17:37:58 · 974 阅读 · 0 评论 -
KNN与Kmeans的区别
KNN与K-Means的区别KNN(K-Nearest Neighbor)介绍Wikipedia上的 KNN词条 中有一个比较经典的图如下:KNN的算法过程是是这样的:从上图中我们可以看到,图中的数据集是良好的数据,即都打好了label,一类是蓝色的正方形,一类是红色的三角形,那个绿色的圆形是我们待分类的数据。如果K=3,那么离绿色点最近的有2个红色三角形和1个蓝色的正方形,这3个点投票,于是绿色...转载 2018-06-08 14:24:39 · 1827 阅读 · 0 评论 -
PCA聚类算法
1.可以参考文章: 自己去搜索相关的介绍,我只是写一些需要注意的地方2.PCA与线性回归的区别: 线性回归有一个拟合值,它的误差是红线代表线性回归的误差但是对于PCA算法来说:3.数据处理: 特征什么的进行归一化(或者叫做特征缩放)4.在数学上面的表示(奇异值分解)SVD 在matlab里面或者octave里面有一个现成的svd()函数:在这里的Sigma代表一个矩阵,对于s...原创 2018-06-08 12:11:40 · 6057 阅读 · 0 评论 -
k-means聚类算法
1.这个是非监督学习算法。大致的算法过程如下: 选择要分成的类别的个数:这个可以使用“肘部算法”(距离损失之和和选择聚类个数的曲线图,在有特别弯折的地方就是,要选取的聚类的个数,但是很多情况下这个并没有特别明显的弯折), 所以很多时候要根据具体的需要来进行确定要聚类的种类数。 选取好了聚类的个数,就随机初始化聚类的点,然后计算各个点到所有聚类中心点的距离,选取一个距离最近的中心点,作为...原创 2018-06-08 10:27:09 · 244 阅读 · 0 评论 -
SVM的损失函数
这个还要注意,他的正则化和普通的回归差不多,都是不考虑进去那个常数项svm的原理是依据逻辑回归来的,在他的基础上进行可一些修改和提炼(自己感觉的,不一定准确)是最开始的学的预测函数,里面含有常数项,也就是后来单独添加了一列全为1的数值,但是在正则化的时候,要把它先剔除出去。 神经网络的偏置b也有点类似的思想...原创 2018-06-01 10:09:18 · 5160 阅读 · 0 评论 -
BP(反向传播)
转载自链接:https://blog.youkuaiyun.com/baozi__/article/details/78307479计算过程现在我们有这样一个神经网络: 输入层有两个神经元i1和i2,隐藏层有两个神经元h1和h2,偏差都为b1,输出层有两个神经元o1和o2,偏差都为b2,权重为w 神经元的输入经过激活函数转变为输出,即带权输入net经过激活函数转变为输出激活值out,如图所示: 现在一步一步进...转载 2018-06-01 11:56:23 · 1170 阅读 · 0 评论 -
协同过滤案例
原创 2018-06-14 17:38:27 · 710 阅读 · 0 评论 -
低秩矩阵(矩阵填充)-图像修复、协同过滤
转载自: https://blog.youkuaiyun.com/manduner/article/details/80564414一、矩阵填补(Matrix Completion) 矩阵填补的应用很广泛,论文《Matrix completion by deep matrix factorization》就给出了矩阵填补的两个应用:图像修复(image inpainting)、协同过滤(Coll...转载 2018-06-14 16:39:28 · 13091 阅读 · 1 评论 -
将非高斯分布变为高斯(gauss)分布
比如使用取<1的某个数的次幂,或者取log等原创 2018-06-14 11:07:11 · 4939 阅读 · 1 评论 -
监督学习 VS 异常检测算法(含有多元高斯、协方差的概念)
数据集均为带有标签的数据集(y=1为异常数据,为正样本;y=0为正常的数据,为负样本)1.本例参考Andrew Ng的ML课件 (1)异常检测算的注意事项: 对于训练集里面都是负样本(也就是正常的样本),去用它来获得正态分布,对于验证集和测试集里面可以加入正样本,比如下面的分配比例: 对于算法的评估: 其中的是一个超参数,也就是出现什么的概率的一个阈值 2.通常...原创 2018-06-14 11:04:34 · 401 阅读 · 0 评论 -
样本划分的情况
一. 如果样本充足,那么就按标准的形式划分为:训练集、验证集、测试集,理论上的比例是6:2:2二. 如果样本没有那么充足,那么,有可能没有验证集了,否则到时候验证集和测试集的数量都很少,那么样本不具有代表性还不如将验证集和测试集都合并为测试集...原创 2018-06-06 16:37:24 · 1873 阅读 · 0 评论 -
解决过拟合的几个方法(不一定全包括)
一.解决过拟合的方法(部分) 正则化(包括dropout) 数据增广二.正则化1.对于传统方法的正则化(DL(深度学习)里面也会用,但是用的不是很多) 一般就是L1或者L2的正则化2.dropout的正则化(DL里面使用的最多的) 就是dropout的方法,也就是在每个迭代过程中,随机选择某些节点,并且删除前向和后向连接...原创 2018-05-26 22:57:08 · 2919 阅读 · 0 评论 -
SVM的推导(未加入核函数)
原创 2018-07-13 17:09:07 · 275 阅读 · 0 评论