
spark
文章平均质量分 67
蚂蚁大哥大
这里不需要签名
展开
-
Google核心技术之——PageRank算法scala实现
PageRank算法简述常言道,看一个人怎样,看他有什么朋友就知道了。也就是说,一个人有着越多牛X朋友的人,他是牛X的概率就越大。将这个知识迁移到网页上就是“被越多优质的网页所指的网页,它是优质的概率就越大”。PageRank是Google创始人提出来的,算法的发展也经历了很多次优化。至于原理这边就不累赘了,同学们可以自行谷歌~~工程化实现 1.输入数据2,12,43,23,54,15,原创 2016-08-04 17:10:16 · 4140 阅读 · 0 评论 -
基于spark-streaming实时推荐系统(三)
当博主在写 基于spark-streaming实时推荐系统(一), 基于spark-streaming实时推荐系统( 二)时,心里还曾暗自窃喜:“五年多推荐系统设计研发工作,再搭一套推荐系统还不是轻松的事么!”。只有真正做了之后才知道这其中的辛酸与血泪。 首先博主前期的推荐系统经验主要是基于传统电商网站,推荐的主体是用户,推荐的内容是商品。商品只要能够满足销售的基本要素便一直是众原创 2016-12-17 15:30:11 · 12003 阅读 · 3 评论 -
基于spark-streaming实时推荐系统( 二)
电子商务时代,商家急切的寻求着对用户展示商品达到千人千面的效果,并且实时根据用户行为去实时更新待推荐的商品集。正如百度大boos李彦宏同学在乌镇物联网大会上所说:"机器学习的时代即将到来。"博主从事推荐系统开发设计五年有余,深深的触摸到了机器学习时代的影子,从刚开始接触推荐,到先如今各大电子商务平台,甚而流媒体平台等都是搭建自己的推荐系统平台,让机器去学习用户的行为以便达到精准营销的目标。原创 2016-11-26 22:46:24 · 15179 阅读 · 1 评论 -
协同过滤itembase计算Spark实现(二)
博主前期有写过协同过滤协同过滤itembase增量计算Spark实现(一),其中已经较为基础的演示了基于欧拉距离求解相似度的过程,由于都是在一个JOB里,随着数据量的增长会出现计算耗时过长、OOM等现象,后期博主在推荐系统架构优化方面发现上述五个步骤在诸如看了还看,买了还买,相关搜索词,搜索最终购买等推荐模块存在着大量的相似,这些步骤的复用性太强,所以就开始考虑对算法模块按其计算步骤进行拆分,拆分之原创 2016-09-04 15:55:36 · 3413 阅读 · 2 评论 -
基于spark-streaming实时推荐系统(一)
前言 随着互联网的飞速发展,如何能够让用户在广袤的互联网中获取到他所想要的,这时候人们有了搜索引擎。搜索引擎好比一个仓库,它需要事先储藏大量的资源,你需要什么都可以从中获取得到。这种被动索取的方式无形之中也注定了搜索引擎在某个范围内只能一家独大。科技改变着人们的生活,随着大数据时代的到来,传统被动等候来获取的方式由于其需要的前期投入较大,准确性往往也不能满足用户的真正需求,在此背景之下,推荐引擎遍广原创 2016-11-03 20:48:37 · 13087 阅读 · 0 评论 -
协同过滤itembase计算Spark实现(三)
针对电商推荐系统之推荐算法模块工程化,博主前期已经利用spark对基于协同过滤推荐算法进行了实践性的整理,详情见 协同过滤itembase增量计算Spark实现(一) 协同过滤itembase计算Spark实现(二)随着系统工程化的逐步完善,便会开始考虑如何将系统产品化,面向算法研究人员,测试人员,产品人员甚至其他有推荐算法需求的人员能够通过拖拖拽拽自定义算法实现。这个愿景很美好也很伟大~~借着原创 2016-09-23 18:59:07 · 2880 阅读 · 2 评论 -
协同过滤itembase增量计算Spark实现(一)
协同过滤itembase增量计算Spark实现Controller1. 数据统计user counts:=========>8239237itemCode count:=====>7421567 spark result distinct nums ======>5826484 2. 运行子任务倒叙 3. Spark集群原创 2016-07-21 14:07:48 · 6205 阅读 · 1 评论 -
大数据时代单表数据同步之SPARK实现(一)
背景随着电子商务的发展,历史最终选择了三足鼎立的格局去稳定市场,产生了传统电子商务三强:阿里,京东,苏宁易购(阿里,京东日均PV早已是亿级别以上,苏宁易购日均PV也至少应该五千万级左右)。显然这些数据中蕴藏着无情无尽的财务,如何利用这些数据便是当下大数据开发工程师们首先需要解决的问题~既然有大数据,那必然会牵扯到集群数据的迁移,同步等类ETL工作。本文主要介绍博主最近一周实现的利用spark同步关系原创 2016-08-15 14:03:04 · 4471 阅读 · 1 评论 -
大数据时代多表关联数据同步之SPARK实现(二)
前期博主有写过spark同步数据的博文,当时由于业务需求相对简单,只简单的实现了单表load功能。业务的发展驱动着技术的不段革新,猿猿们也在不断设计更加合理更加便捷更加优雅的业务模块,只是为了让你们用的爽用的简单~~~背景假设我们现在需要借助spark同步如下select t.id as id ,t.title as title ,t.created as created,t.keywords as原创 2016-08-23 21:31:15 · 6710 阅读 · 0 评论 -
推荐系统itembase算法scala实现
#尊重版权,转载注明地址#博主最近在学习scala,scala是面向函数编程,这与面向对象编程的java有着很大的差别,学习的第一个demo当然是声名显赫的wordcount,代码如下: val conf = new SparkConf() conf.setMaster("local[1]").setAppName("word count") val sc = new Spar原创 2016-08-03 13:26:31 · 3693 阅读 · 2 评论 -
Graphx源码解析之SVD++算法
Spark Graphx中SVD++算法主要是参考论文: http://public.research.att.com/~volinsky/netflix/kdd08koren.pdf, 核心计算公式为:rui = u + bu + bi + qi*(pu + |N(u)|^^-0.5^^*sum(y)) 输入 输入:user,item,score1,1,5.01,2,1.01,3,5.原创 2017-02-28 13:49:17 · 2972 阅读 · 0 评论