
大数据分析
文章平均质量分 81
超级谷歌
职业经历: 软件工程师->项目主管->架构师->技术经理。
目前专注于电子商务领域,大数据,云计算。并时常关注新技术,新领域的发展动态。
展开
-
storm简介
场景伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来,估计这个大哥就要骂娘了。再举一个推荐的例子,如果用户昨天在淘宝上买了一双袜子,今天想买一副泳原创 2013-09-19 09:48:22 · 2501 阅读 · 0 评论 -
Mahout算法集
在Mahout实现的机器学习算法见下表算法类算法名中文名分类算法Logistic Regression逻辑回归Bayesian贝叶斯SVM支持向量机Perceptron感知器算法Neural Ne原创 2013-11-02 15:16:00 · 3847 阅读 · 0 评论 -
Hadoop家族学习路线图
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始,中国进入大数据风起云原创 2013-11-09 22:09:51 · 112448 阅读 · 12 评论 -
S4分布式流计算引擎
背景 最近花了点时间研究了下分布式计算这一块的内容。领导给的第一个任务,就是学习下S4和GridGain。花了几天的时间把s4的源码看了下,把自己的理解和学习的内容做一个记录。 下一篇会是GridGain的分享学习s4的论文: S4: Distributed Stream Computing Platforms4的官网: http://s4.io/ s4是什么?1.原创 2013-12-15 16:17:04 · 2634 阅读 · 0 评论 -
storm分布式流计算引擎
场景伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来,估计这个大哥就要骂娘了。再举一个推荐的例子,如果用户昨天在淘宝上买了一双袜子,今天想买一副泳转载 2013-12-15 16:21:07 · 8404 阅读 · 0 评论 -
Spark Streaming:大规模流式数据处理的新贵
摘要:Spark Streaming是大规模流式数据处理的新贵,将流式计算分解成一系列短小的批处理作业。本文阐释了Spark Streaming的架构及编程模型,并结合实践对其核心技术进行了深入的剖析,给出了具体的应用场景及优化方案。提到Spark Streaming,我们不得不说一下BDAS(Berkeley Data Analytics Stack),这个伯克利大学提出的关于数据分析的转载 2014-02-07 13:08:29 · 5419 阅读 · 0 评论 -
MIT高级讲师:从大数据到深数据
摘要: 在过去的10个月,我主持参与了麻省理工的“IDEAS中国”项目——一个由30多位中国商界领袖组成的,为期10个月的创新之旅。今年,该项目招收了中国一个主要国有银行的数位高管。这个团队的目标之一,是在大数据和其他相 ... 在过去的10个月,我主持参与了麻省理工的“IDEAS中国”项目——一个由30多位中国商界领袖组成的,为期10个月的创新之旅。今年,该项目招收了中国一个主要国有转载 2014-07-28 16:35:11 · 1448 阅读 · 0 评论