
Machine Learning
joeland209
这个作者很懒,什么都没留下…
展开
-
转:浅析PageRank算法
注:本文出处http://blog.jobbole.com/23286本文由张洋(@敲代码的张洋)投稿于伯乐在线。很早就对Google的PageRank算法很感兴趣,但一直没有深究,只有个轮廓性的概念。前几天趁团队outing的机会,在动车上看了一些相关的资料(PS:在动车上看看书真是一种享受),趁热打铁,将所看的东西整理成此文。本文首先会讨论搜索引擎的核心难题,同时讨论早转载 2017-03-16 22:39:29 · 406 阅读 · 0 评论 -
Softmax激活函数与梯度方向
Softmax函数属于有监督学习的范畴,一般用于多分类问题,在神经网络中应用广泛,很多时候作为输出层的激活函数使用。它可以被理解成升级版的Sigmoid函数,本质上是逻辑回归常用Sigmoid函数一般化,将k维的任意实数映射成k维的向量,Softmax的数值只能从0到1,表示的是分到相对应类别o的概率,因此所有的Softmax值加起来总和等于1。通常我们会选取概率最大的类别作为分类的结果。Soft...原创 2018-09-11 18:04:07 · 2710 阅读 · 0 评论 -
时间序列分析笔记(待整理)
判断是否序列是否平稳:1. ADF-test,null:有单位根(不平稳),alternative:平稳2. KPSS-test,null:deterministic trend(可能是trend-stationary),alternative:有单位根(不平稳)判断是否白噪声:Ljung-Box test,null:是白噪声,alternative:不是白噪声原创 2017-02-15 17:29:25 · 63959 阅读 · 3 评论 -
Receiver Operating Characteristic(ROC) Curve and Area Under Curve(AUC)
AUC是一个用于评估分类好坏的方法,其与ROC是相关联的(就是代表ROC曲线下面的面积,如下图所示的阴影部分)。分类的效果越好,ROC曲线越靠上,AUC的值越大。AUC值一般是在0.5到1之间浮动,如果AUC小于0.5,代表模型的精准度甚至不如瞎猜(瞎猜是0.5),同理,如果AUC等于1,则表明分类精度达到100%。 假设AUC的值是0.8,我们可以解读为:随机选择一个数据,有80%的机原创 2017-03-14 23:01:13 · 5890 阅读 · 0 评论 -
K-Means的三种迭代算法
K-Means是机器学习算法中一个比较经典的聚类算法具体的实现方式主要有三种:Lloyd(Forgy),Hartigan-Wong和MacQueenLloyd算法Lloyd算法也可以称作Forgy或者Lloyd-Forgy,是最为经典简单的K-means迭代算法,其步骤如下:1. 随机选取K个点作为初始的中心点2. 计算每个点与K个中心点的K个距离(假如有N个点,就有N*...原创 2017-05-15 14:45:46 · 27108 阅读 · 4 评论 -
最优化方法(Optimization Method)
梯度下降法(GD)分为批量和随机Batch GD(BGD)包括攒通GD,用所有训练集(或者一部分)计算下降方向,随机(SGD)每次只包含一个训练点,计算下降速度。BGD收敛过慢,可找到全局最优解,SGD则一般会在最优解附近。LBFGS(拟牛顿法)收敛速度比GD快,传统牛顿法需要存储Hesse矩阵,很好内存容量,LBFGS用序列近似Hesse,大大减少空间,且原创 2017-03-30 14:16:31 · 2694 阅读 · 0 评论 -
笔记:聚类分析(待整理)
聚类分析优缺点:优点:1.聚类是自动的不必带有方向性 2.易于理解和实施缺点:1.有时候难以解读聚类的结果 2.聚类结果对距离计算方式的算则和特征之间的权重十分敏感 3.K-mean由K值主导 4.K-means对初始中心的选择十分敏感 5.异常值也会成为族群判断K值的两个方法:原创 2017-04-05 00:30:34 · 2021 阅读 · 0 评论 -
如何理解关联法则中的三个判断准则
关联法则中,我们最常用到的无外乎是三种判断的准则:support,confidence和lift。先给出三个判断标准的公式:1.support(A)= number of A/total items support(B)= number of B/total items support(A=>B)= support(B=>A)= number of A and B/tota原创 2017-04-04 22:09:16 · 8629 阅读 · 0 评论 -
Kohonen Self Organize Maps
Kohonen Self Organize Maps(SOM) 是其中一种神经网络的方法,用于聚类分析,它通过自相竞争(Self-competition)的方式实现聚类过程,对于每个维度赋予权重,通过多次迭代,最终达到收敛。SOM能够自动确定K值,因此不需要像K-means一样事先确定K。一般来说,SOM对维度高的数据集表现更好。 SOM映射高纬度的数据集到低纬度空间中,因此可以用于降低原创 2017-03-14 22:38:35 · 1433 阅读 · 0 评论 -
Backward Elimination, Forward Selection and Stepwise
Backward Elimination,Forward Selection和Stepwise这三种是特征选择中经常用到的方法。当有时候特征的数量太多的时候,我们除了可以用PCA等方法降维之外,还可以用特征选择的方法,筛选出几个对结果影响最大的特征(feature),从而在对结果影响不大的情况下,减少计算量。Backward Elimination的方法很简单:首先包含了所有的fe原创 2017-04-05 22:06:43 · 11407 阅读 · 0 评论 -
回归模型的一些判断方法
在回归模型中,我们需要判断模型是否很好地拟合实际数据,一般来讲会有以下方法: R平方:表示Y变量中的方差有百分之多少是可以预测的,R平方越高,Y中的方差就预测得越准确,模型的拟合程度也就越高。举个例子,R平方=10%,表示Y中有10%的方差是可以通过X预测出来的。 F检验(F - test):主要用以判断两个总体(Population)的平均值是否存在显著差异(Signific...原创 2017-04-05 23:04:42 · 19899 阅读 · 0 评论 -
混淆矩阵(Confusion Matrix)
混淆矩阵是除了ROC曲线和AUC之外的另一个判断分类好坏程度的方法。以下有几个概念需要先说明:TP(True Positive): 真实为0,预测也为0FN(False Negative): 真实为0,预测为1FP(False Positive): 真实为1,预测为0TN(True Negative): 真实为0,预测也为0:分类模型总体判断的准确率(包括了所有cl原创 2017-05-02 10:57:02 · 46118 阅读 · 8 评论 -
转:【NLP】彻底搞懂BERT
注:本文出处https://www.cnblogs.com/rucwxb/p/10277217.html自google在2018年10月底公布BERT在11项nlp任务中的卓越表现后,BERT(Bidirectional Encoder Representation from Transformers)就成为NLP领域大火、整个ML界略有耳闻的模型,网上相关介绍也很多,但很多技术内容太少,或是...转载 2019-09-01 23:46:47 · 559 阅读 · 0 评论