Hadoop 简单概念记录

本文探讨了Hadoop的核心组件HDFS与MapReduce,解析了它们适合一次写入、多次读取数据的应用场景,以及MapReduce的高级查询语言如Hive和Pig。同时,介绍了Apache Mahout在Hadoop上的机器学习应用,以及HBase的设计原则,包括RowKey、ColumnFamily的优化策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hadoop的核心,HDFS 与 MapReduce

MapReduce 适合一次写入、多次读取数据的应用关系型数据库则更适合持续更新的数据
MapReduce 的高级查询语言(如:phoenix、Pig、Hive )
MapReduce 的核心特征,数据本地化(data locality)。因此获得良好的性能,并节省网络带宽。

Apache Mahout 是一个在Hadoop上运行的机器学习类库。(例如:分类和聚类算法)
SETI@home


数据模式:
数据访问模式中包含大量的硬盘寻址,进入等待阶段。(关系型数据库
而流数据读取模式,主要取决于传输速率。(网络宽带的大小) (HBase内存数据库)


HBase表设计:
1、只允许创建少量<3 column Family,Hbase对多列族支持不好。
2、列族、列、单元格的名称尽量简短,增加HFile存储效率,较少读取的性能开销。

HBase的Rowkey设计:
1、长度越短越好 
2、确保唯一性 
3、业务访问中权重高的key放在前面,做个字段拼接,类似关系型数据库的联合主键。
4、大数据,查询条件多的时候,不使用:scan columnvaluefileter 很影响性能。
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值