
scala
蚂蚁大哥大
这里不需要签名
展开
-
Google核心技术之——PageRank算法scala实现
PageRank算法简述常言道,看一个人怎样,看他有什么朋友就知道了。也就是说,一个人有着越多牛X朋友的人,他是牛X的概率就越大。将这个知识迁移到网页上就是“被越多优质的网页所指的网页,它是优质的概率就越大”。PageRank是Google创始人提出来的,算法的发展也经历了很多次优化。至于原理这边就不累赘了,同学们可以自行谷歌~~工程化实现 1.输入数据2,12,43,23,54,15,原创 2016-08-04 17:10:16 · 4140 阅读 · 0 评论 -
大数据时代单表数据同步之SPARK实现(一)
背景随着电子商务的发展,历史最终选择了三足鼎立的格局去稳定市场,产生了传统电子商务三强:阿里,京东,苏宁易购(阿里,京东日均PV早已是亿级别以上,苏宁易购日均PV也至少应该五千万级左右)。显然这些数据中蕴藏着无情无尽的财务,如何利用这些数据便是当下大数据开发工程师们首先需要解决的问题~既然有大数据,那必然会牵扯到集群数据的迁移,同步等类ETL工作。本文主要介绍博主最近一周实现的利用spark同步关系原创 2016-08-15 14:03:04 · 4471 阅读 · 1 评论 -
基于spark-streaming实时推荐系统(一)
前言 随着互联网的飞速发展,如何能够让用户在广袤的互联网中获取到他所想要的,这时候人们有了搜索引擎。搜索引擎好比一个仓库,它需要事先储藏大量的资源,你需要什么都可以从中获取得到。这种被动索取的方式无形之中也注定了搜索引擎在某个范围内只能一家独大。科技改变着人们的生活,随着大数据时代的到来,传统被动等候来获取的方式由于其需要的前期投入较大,准确性往往也不能满足用户的真正需求,在此背景之下,推荐引擎遍广原创 2016-11-03 20:48:37 · 13087 阅读 · 0 评论 -
scala远程调用thrift接口
这期间博主换了工作,耽误了博客的更新~在此跟大伙说声抱歉、加入新东家一周有余,不得不感叹博主的专业技能存在着很大的漏洞,或许是因为以前的工作经历相对集中在推荐算法的实现上,从而忽略了对很多诸如thrift等RPC协议调用的了解。今天因为工作的需要,需要远程调用thrift接口,完成rec状态的更新(类似推荐结果的价格库存过滤),花费了几个小时,好在最好成功了。现将实验过程分享给大家。第一步下载thr原创 2016-10-24 18:29:26 · 2762 阅读 · 0 评论 -
json在scala开发中的应用
最近是用scala开发了一个项目,其中有个环节需要将类似Tuple2[String, Map[String, Case class]]对象作为中间结果缓存至redis中。中间对象结构如下:case class TestDO(var id :Int = 0, var value : String = null)case class Test2DO(var arrayBuffer: ArrayBuff原创 2016-10-28 17:59:19 · 2636 阅读 · 1 评论