Hadoop 简单概念记录

最新推荐文章于 2022-10-19 18:02:24 发布

原创最新推荐文章于 2022-10-19 18:02:24 发布 · 249 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

Phoenix 专栏收录该内容

26 篇文章

订阅专栏

本文探讨了Hadoop的核心组件HDFS与MapReduce，解析了它们适合一次写入、多次读取数据的应用场景，以及MapReduce的高级查询语言如Hive和Pig。同时，介绍了Apache Mahout在Hadoop上的机器学习应用，以及HBase的设计原则，包括RowKey、ColumnFamily的优化策略。

Hadoop的核心，HDFS 与 MapReduce

MapReduce 适合一次写入、多次读取数据的应用，关系型数据库则更适合持续更新的数据。
MapReduce 的高级查询语言（如：phoenix、Pig、Hive ）
MapReduce 的核心特征，数据本地化(data locality)。因此获得良好的性能，并节省网络带宽。

Apache Mahout 是一个在Hadoop上运行的机器学习类库。（例如：分类和聚类算法）
SETI@home

数据模式：
数据访问模式中包含大量的硬盘寻址，进入等待阶段。（关系型数据库）
而流数据读取模式，主要取决于传输速率。(网络宽带的大小) (HBase内存数据库)

HBase表设计：
1、只允许创建少量<3 column Family，Hbase对多列族支持不好。
2、列族、列、单元格的名称尽量简短，增加HFile存储效率，较少读取的性能开销。

HBase的Rowkey设计：
1、长度越短越好
2、确保唯一性
3、业务访问中权重高的key放在前面，做个字段拼接，类似关系型数据库的联合主键。
4、大数据，查询条件多的时候，不使用：scan columnvaluefileter 很影响性能。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。