
Architecture
文章平均质量分 72
Zhu_Julian
这个作者很懒,什么都没留下…
展开
-
[Hadoop] HDFS架构设计
HDFS是一个具有高度容错性的分布式文件系统,适合部署在廉价的机器上,它具有以下几个特点:1)适合存储非常大的文件2)适合流式数据读取,即适合“只写一次,读多次”的数据处理模式3)适合部署在廉价的机器上但HDFS不适合以下场景(任何东西都要分两面看,只有适合自己业务的技术才是真正的好技术):1)不适合存储大量的小文件,因为受Namenode内存大小限制2)不适合实时数据读取原创 2013-06-08 14:24:51 · 4127 阅读 · 1 评论 -
[Hadoop] 实际应用场景之 - 百度
百度在2008年就开始使用Hadoop作为其离线数据分析平台,从Hadoop v0.18/0.19开始,300台机器,2个集群,现在的规模为2W台节点以上,最大集群接近4,000节点,每日处理数据20PB+,每日作业数120,000+Hadoop在百度主要用于如下场景:日志的存储和统计;网页数据的分析和挖掘;商业分析,如用户的行为和广告关注度等;在线数据的反馈,及时得到原创 2013-06-22 18:59:07 · 5522 阅读 · 2 评论 -
[Hadoop] 实际应用场景之 - 阿里
Hadoop在淘宝和支付宝的应用从09年开始,用于对海量数据的离线处理,例如对日志的分析,也涉及内容部分,结构化数据等。使用Hadoop主要基于可扩展性的考虑,规模从当初的3-4百节点增长到今天单一集群3000节点以上,2-3个集群,支付宝的集群规模也达700台,使用Hbase,个人消费记录,key-value型。阿里对Hadoop的源码做了如下修改:改进Namenode单点问题原创 2013-06-22 17:16:02 · 6644 阅读 · 1 评论 -
[Hadoop] MapReduce架构设计
上一篇介绍了HDFS的架构设计(http://blog.youkuaiyun.com/u010415792/article/details/9055569),本篇是它的姊妹篇,介绍MapReduce的架构设计。和HDFS一样,MapReduce也是采用Master/Slave的架构,其架构图如下:它主要有以下4个部分组成:1)Client2)JobTrackerJobTra原创 2013-06-08 15:20:23 · 5412 阅读 · 0 评论 -
[OceanBase] 架构设计
最近花了点时间研究了下OceanBase,非常有意思,写点东西记录一下学到的东西。参考文档:https://github.com/alibaba/oceanbase/wiki/OceanBase%E6%9E%B6%E6%9E%84%E4%BB%8B%E7%BB%8DOceanBase的产生背景OceanBase最初是为了解决淘宝网的大规模数据而产生的(数百亿条的记录、数十TB的数据、数原创 2013-05-15 11:12:10 · 9961 阅读 · 1 评论 -
[HBase] LSM树 VS B+树
LSM树是HBase里非常有创意的一种数据结构,它和传统的B+树不太一样,下面先说说B+树。1 B+树相信大家对B+树已经非常的熟悉,比如Oracle的普通索引就是采用B+树的方式,下面是一个B+树的例子:根节点和枝节点很简单,分别记录每个叶子节点的最小值,并用一个指针指向叶子节点。叶子节点里每个键值都指向真正的数据块(如Oracle里的RowID),每个叶子节点都原创 2013-05-08 09:42:44 · 28722 阅读 · 4 评论 -
[HBase] 体系架构(物理模型)
Client--包含访问HBase的接口并维护cache,加快对HBase的访问Zookeeper–保证任何时候,集群中只有一个master–存贮所有Region的寻址入口。–实时监控Region server的上线和下线信息。并实时通知给Master–存储HBase的schema和table元数据Master–为Region serve原创 2013-05-08 22:09:24 · 5456 阅读 · 0 评论 -
[HBase] 数据模型(逻辑结构)
HBase以表的形式存储数据。表由行和列族组成。列划分为若干个列族(row family),其逻辑视图如下:下面分别说说几个关键概念:1)行键(RowKey)-- 行键是字节数组, 任何字符串都可以作为行键;-- 表中的行根据行键进行排序,数据按照Row key的字节序(byte order)排序存储;-- 所有对表的访问都要通过行键 (单个RowKey原创 2013-05-09 10:46:03 · 4019 阅读 · 0 评论 -
[Python] 使用Django开发Web框架
Django Web框架简介Django 项目是一个 python[1]定制框架,它源自一个在线新闻 Web 站点,于 2005 年以开源的形式被释放出来。Django 框架的核心组件有:用于创建模型的对象关系映射为最终用户设计的完美管理界面一流的 URL 设计设计者友好的模板语言缓存系统。Django符合MTV架构Django的安装Django的安装有两种方法原创 2013-05-13 02:58:07 · 5397 阅读 · 0 评论