
MyHadoop
稚枭天卓
manu
展开
-
分布式系统 淘宝数据魔方技术架构解析
淘宝网拥有国内最具商业价值的海量数据。每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。 为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层面来讲,数据产品的研发难度原创 2015-09-06 20:12:31 · 1123 阅读 · 0 评论 -
Hadoop, Spark, MPI 三种计算框架的特点以及分别适用于什么样的场景
1,Hadoop 采用HDFS作为分布文件存储,有效的解决了分布式平台下文件分割问题;Hadoop 是离线计算,基于磁盘,每次运算之后的结果需要存储在HDFS里面,下次再用的话,还需要读出来进行一次计算,磁盘IO开销比较大。底层基于HDFS存储文件系统。适用于离线数据处理和不需要多次迭代计算的场景,并且Hadoop只有Map和Reduce两种接口,相对于Spark来说太少了。Mapreduce算法原创 2016-07-14 21:52:48 · 8136 阅读 · 0 评论 -
HDFS的运行基本原理
文件的拆分形式 - File 拆分成 block 拆分成 package,block 通过键值对存放在 NameNode写入操作 - C 端 发送请求给 NN,NN 返回写入地址,C 端逐个 package 传递,不同 DN 存放不同 block。读取操作 - C 端 发送请求给 NN,NN 返回文件地址,C 端按照文件先后顺序读取文件。原创 2017-11-05 17:12:19 · 769 阅读 · 0 评论