
机器学习
buptdavid
程序员小小一枚!
展开
-
何时使用MLP,CNN和RNN神经网络
什么神经网络适合你的预测建模问题?对于深层学习领域的初学者来说,知道使用哪种类型的网络可能是困难的。每天都有那么多类型的网络可供选择,并且有新的方法被公布和讨论。更糟糕的是,大多数神经网络足够灵活,即使用于错误的数据类型或预测问题,它们也能够工作(进行预测)。在这篇文章中,你将发现三种主要人工神经网络的建议用途。读完这篇文章,你会知道:...转载 2019-11-17 07:02:49 · 5848 阅读 · 1 评论 -
KS值和GINI系数
有效性指标中的区分能力指标:KS(Kolmogorov-Smirnov):KS用于模型风险区分能力进行评估, 指标衡量的是好坏样本累计分部之间的差值。 好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。KS的计算步骤如下: 1. 计算每个评分区间的好坏账户数。 2. 计算每个评分区间的累计好账户数占总好账户数比率(good%)和累计坏账户数占总坏账户数比率(bad%)...转载 2018-11-20 20:06:26 · 6161 阅读 · 0 评论 -
什么是迁移学习?迁移学习的场景与应用
作者:机器之心链接:https://www.zhihu.com/question/41979241/answer/208177153来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。Part 1:什么是迁移学习?迁移学习的场景与应用。深度 | 迁移学习全面概述:从基本概念到相关研究文章来源于http://sebastianruder.com,作...转载 2019-05-24 14:18:08 · 21704 阅读 · 2 评论 -
社区发现算法总结(一)
在做东西的时候用到了社区发现的算法,因此查找了好多人的文章,发现一个不错的总结,先转载过来原文出处http://blog.youkuaiyun.com/aspirinvagrant/article/details/45577033在社区发现算法中,几乎不可能先确定社区的数目,于是,必须有一种度量的方法,可以在计算的过程中衡量每一个结果是不是相对最佳的结果。模块度(Modularity)用来衡...转载 2019-07-02 15:30:59 · 17568 阅读 · 1 评论 -
Spark图计算GraphX介绍及实例
1、GraphX介绍1.1GraphX应用背景Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。众所周知·,社交网络中人与人之间有很多关系链,例如Twitter、Facebook、微博和微信等,这些都是大数据产生的地方都需要图计算,现在的图处理基本都是分布式的图处理,而并非单机处理。Sp...转载 2019-07-29 10:45:43 · 488 阅读 · 1 评论 -
Spark GraphX在淘宝的实践
原文链接:http://rec-sys.net/forum.php?mod=viewthread&tid=398由于Spark GraphX性能良好,又有丰富的功能和运算符,能在海量数据上自如运行复杂的图算法,淘宝尝试将它作为分布式图计算平台,进行各种算法尝试和生产应用。本文结合GraphX的原理和特点,分享其在淘宝的应用实践。早在0.5版本,Spark就带了一个小型的Bag...转载 2019-07-29 11:00:27 · 487 阅读 · 0 评论 -
标签传播算法(Label Propagation Algorithm)
1. 半监督学习(Semi-supervised Learning SSL)半监督学习是一种有监督学习和无监督学习想结合的一种方法,其主要思想是基于数据分布上的模型假设,利用少量的已标注数据进行指导并预测未标记数据的标记,并合并到标记数据集中去。2. 完全图在图论的数学领域,完全图是一个简单的无向图,其中每对不同的顶点之间都恰连有一条边相连。完整的有向图又是一个有向图,其中每对不同的顶点通...转载 2019-07-22 09:00:21 · 4437 阅读 · 0 评论 -
个性化PageRank在欺诈检测中的应用
论文:GOTCHA! Network-Based Fraud Detection for Social Security Fraud作者:Véronique Van Vlasselaer, Tina Eliassi-Rad,来源:Management Science 160.论文概况本文提出针对公司偷税逃税这一类社会保证欺诈问题的检测方法,全篇论文非常系统化接地气,值得一读:通过对...转载 2019-07-22 18:40:12 · 1718 阅读 · 0 评论 -
pagerank以及个性化的pagerank算法
pagerank最开始是Google提出来用来衡量网页重要度排行的算法。她的思想是基于网页之间互相的链接作为加权投票。假如网页a指向b,那么网页b的重要程度受网页a的影响,a越重要,则b就越重要。假如网页c也指向b,但是c跟a对比,c指向其他网页的数量(出度)较少,那么c对b的贡献程度要大于a对b。下面是网页i的重要程度的公式,其中d是一个概率,in(i)表示所有指向网...转载 2019-07-23 10:42:45 · 1302 阅读 · 0 评论 -
Graphx中pregel详解及具体应用分析(以PageRank为例)
Spark Pregel参数说明Pregel是个强大的基于图的迭代算法,也是Spark中的一个迭代应用aggregateMessage的典型案例,用它可以在图中方便的迭代计算,如最短路径、关键路径、n度关系等。然而对于之前对图计算接触不多的童鞋来说,这个api还算是一个比较重量组的接口,不太容易理解。 Spark中的Pregel定义如下:def pregel[A: ClassTag](...原创 2019-08-07 15:54:52 · 1186 阅读 · 0 评论 -
GraphX PageRank
原文出处:https://blog.youkuaiyun.com/lsshlsw/article/details/41176093一:算法介绍PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。一个页面的“得票数”由所有链向它的页面的重要性来决定,到一个页面的超链接相当于对该页投一票。一个页面的PageRank...转载 2019-08-28 11:52:52 · 840 阅读 · 0 评论 -
pregel 与 spark graphX 的 pregel api
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/u013468917/article/details/51199808简介在Hadoop兴起之后,google又发布了三篇研究论文,分别阐述了了Caffeine、Pregel、Dremel三种技术,这三种技术也被成为google的新“三...转载 2019-09-18 18:39:37 · 535 阅读 · 0 评论 -
快刀初试:Spark GraphX在淘宝的实践
(本文由团队中梧苇和我一起撰写,并由团队中的林岳,岩岫,世仪等多人Review,发表于程序员的8月刊,由于篇幅原因,略作删减,本文为完整版) 对于网络科学而言,世间万物都可以抽象成点,而事物之间的关系都可以抽象成边,并根据不同的应用场景,生成不同的网络,因此整个世界都可以用一个巨大的复杂网络来代表。有关复杂网络和图算法的研究,在最近的十几年取得了巨大的进展,并在多个领域有重要的应...转载 2019-10-08 10:58:57 · 791 阅读 · 0 评论 -
spark-------主成分分析(PCA)
主成分分析(PCA)1、概念介绍主成分分析(PCA) 是一种对数据进行旋转变换的统计学方法,其本质是在线性空间中进行一个基变换,使得变换后的数据投影在一组新的“坐标轴”上的方差最大化,随后,裁剪掉变换后方差很小的“坐标轴”,剩下的新“坐标轴”即被称为 主成分(Principal Component) ,它们可以在一个较低维度的子空间中尽可能地表示原有数据的性质。主成分分析被广泛应用在各种统...转载 2018-09-28 12:17:31 · 1578 阅读 · 0 评论 -
PCA算法详解
PCA(Principal Component Analysis,主成分分析)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。当然我并不打算把...转载 2018-09-28 12:14:02 · 2060 阅读 · 0 评论 -
浅析Logistic Regression
原文出处:https://chenrudan.github.io/blog/2016/01/09/logisticregression.html本文是受rickjin老师的启发,谈谈关于logistic regression的一些内容,虽然已经有珠玉在前,但还是做一下自己的总结。在查找资料的过程中,越看越觉得lr实在是博大精深,囊括的内容太多太多了,本文只能浅显的提到某些方面。文章的内容如下:1....转载 2018-05-17 17:56:27 · 2142 阅读 · 0 评论 -
Coursera台大机器学习基础课程学习笔记1 -- 机器学习定义及PLA算法
本章的思路在于揭示VC Dimension的意义,简单来说就是假设的自由度,或者假设包含的feature vector的个数(一般情况下),同时进一步说明了Dvc和,Eout,Ein以及Model Complexity Penalty的关系。一回顾 由函数B(N,k)的定义,可以得到比较松的不等式mh(N)小于等于N^(k-1)(取第一项)。这样就转载 2014-10-27 21:23:53 · 1895 阅读 · 0 评论 -
Coursera台大机器学习基础课程学习笔记2 -- 机器学习的分类
总体思路:各种类型的机器学习分类按照输出空间类型分Y按照数据标记类型分yn按照不同目标函数类型分f按照不同的输入空间类型分X按照输出空间类型Y,可以分为二元分类,多元分类,回归分析以及结构化学习等,这个好理解,离散的是分类,连续的是回归,到是结构化的学习接触的相对较少,以后有空可以关注下。按照数据标记分可以分为:监督;非监督;半监督;增强学习转载 2014-10-29 15:55:47 · 742 阅读 · 0 评论 -
Coursera台大机器学习课程笔记3 – 机器学习的可能性
提纲:机器学习为什么可能?引入计算橙球概率问题通过用Hoeffding's inequality解决上面的问题,并得出PAC的概念,证明采样数据学习到的h的错误率可以和全局一致是PAC的将得到的理论应用到机器学习,证明实际机器是可以学习 机器学习的大多数情况下是让机器通过现有的训练集(D)的学习以获得预测未知数据的能力,即选择一个最佳的h做为学习结果,那么这种转载 2014-11-05 14:30:49 · 977 阅读 · 0 评论 -
机器学习的最佳入门学习资源
原文出处:这是一篇很难写的文章,因为我希望这篇文章能对学习者有所启发。我在空白页前坐下,并且问自己了一个很难的问题:什么样的库、课程、论文和书籍对于机器学习的初学者来说是最好的。文章里到底写什么、不写什么,这个问题真的让我很烦恼。我必须把自己当做一个程序员和一个机器学习的初学者,站在这个角度去考虑最合适的资源。我找出了每个类型中最适合的资源。如果你是一个真正的初转载 2015-10-28 10:05:54 · 1246 阅读 · 0 评论 -
机器学习之特征工程
原文出处:http://blog.youkuaiyun.com/dream_angel_z/article/details/49388733版权声明:本文为博主原创文章,转载请注明来源。目录(?)[-]特征工程是什么特征工程的重要性特征工程子问题1 特征选择Feature Selection2 特征提取3 特征构建 Feature Construct转载 2015-11-23 15:59:37 · 17466 阅读 · 2 评论 -
机器学习个人资料整理
原文出处:http://blog.youkuaiyun.com/dream_angel_z/article/details/48525973学习Machine Learning也有很长一段时间了,前段时间在paper中应用了GTB(Gradient Tree Boosting)算法。在我的数据集上GTB的performance比Random Forest要稍微强一点,整个experimen转载 2015-11-23 16:58:49 · 2706 阅读 · 1 评论 -
特征工程的重构
因为历史原因,目前我们的机器学习所需要的各种特征数据是通过一个MR程序来进行数据抽取,特征转换,数据存储,数据监控等,一个MR任务承担了太多了功能,导致程序的可读性,扩展性非常差,每次增加一个数据的抽取,转换都需要修改很多代码,而且极易出错,当要适应一个新的模型所需要的新型特征转换的时候,目前的特征工程更是不能胜任。基于此,痛中思痛,下定决心重构特征工程。首先这个特征工程的架构不是一蹴而就的,原创 2016-02-15 11:32:11 · 2216 阅读 · 1 评论 -
再谈数据挖掘——时序预测初探
文章出处: http://data.qq.com/article?id=2784 1. 背景 先来看两个例子,下面两幅图展示了百度在趋势预测方面的应用案例,一个是世界杯期间的比赛输赢预测,另一个是北京各旅游景区的游客人数预测。 这两幅图代表了大数据环境下趋势预测的典型场景,即事件预测和时序预测,本文重点关注第二幅图中的场景,即与转载 2016-12-01 14:23:48 · 10339 阅读 · 0 评论 -
xgboost原理
转载地址:http://blog.youkuaiyun.com/a819825294版权声明:如需转载,请注明出处http://blog.youkuaiyun.com/a819825294目录(?)[-]序xgboost vs gbdt原理自定义损失函数指定gradhessXgboost调参工程实现优化代码走读pythonR对于xgboost的简单使用xgboost中比转载 2017-10-23 16:26:15 · 440 阅读 · 0 评论 -
测试数据
测试数据原创 2017-10-23 16:27:41 · 1114 阅读 · 0 评论 -
数据挖掘模型中的IV和WOE详解
文章来源:http://blog.youkuaiyun.com/kevin7658/article/details/507803911.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接转载 2017-11-16 18:15:25 · 883 阅读 · 0 评论 -
协同过滤推荐算法总结
原文出处:http://www.cnblogs.com/pinard/p/6349233.html 推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法,本文就对协同过滤类别的推荐算法做一个概括总结,后续也会对一些典型的协同过滤推荐算法做原理总结。1. 推荐算法概述 推转载 2017-12-28 16:28:25 · 1384 阅读 · 0 评论 -
协同过滤的ALS算法
原文地址:http://blog.youkuaiyun.com/antkillerfarm/article/details/53734658ALS算法原理http://www.cnblogs.com/luchen927/archive/2012/02/01/2325360.html上面的网页概括了ALS算法出现之前的协同过滤算法的概况。ALS算法是2008年以来,用的比转载 2018-01-04 14:50:36 · 3650 阅读 · 1 评论 -
Coursera台大机器学习课程笔记4 -- Training versus Testing
这节的主题感觉和training,testing关系不是很大,其根本线索在于铺垫并求解一个问题: 为什么算法PLA可以正确的work?因为前面的知识告诉我们,只有当假设的个数有限的时候,我们才能比较确认我们得到坏的数据集的概率比较低,也就是说算法得出的假设和最佳假设在全局表现相同(错误率相等),可是PLA的假设是平面上的直线,不是无数个么?为什么可以正常泛化? 为转载 2014-11-07 16:22:03 · 896 阅读 · 0 评论