1、HBase作为一种kv数据库,能够很好的面对高吞吐率的在线数据读写服务,尤其是写操作,但是在非rowkey多条件查询、数据分析、统计等场景下,HBase表现的就不是很好了,这些场景下就比较适合来用MapReduce来计算。
2、应用场景
假设有一张HBase表article,它有一列是数据来源source,现在需要统计不同来源的文章数量(数据行数),对于这样的简单统计需求,可以利用
本文介绍了如何利用MapReduce对HBase数据进行统计分析,特别是在非rowkey多条件查询和数据分析场景下。以统计文章来源source的数量为例,详细讲解了Map程序和Reduce程序的设计,并提供了程序参数配置及运行命令。通过MapReduce可以有效解决HBase在复杂查询和统计上的不足。
1、HBase作为一种kv数据库,能够很好的面对高吞吐率的在线数据读写服务,尤其是写操作,但是在非rowkey多条件查询、数据分析、统计等场景下,HBase表现的就不是很好了,这些场景下就比较适合来用MapReduce来计算。
2、应用场景
假设有一张HBase表article,它有一列是数据来源source,现在需要统计不同来源的文章数量(数据行数),对于这样的简单统计需求,可以利用
750

被折叠的 条评论
为什么被折叠?