MR中Hbase的Scan使用技巧

最新推荐文章于 2024-11-12 23:33:02 发布

最新推荐文章于 2024-11-12 23:33:02 发布 · 504 阅读

文章标签：

#大数据 #java

MapReduce 专栏收录该内容

54 篇文章

订阅专栏

本文介绍了Hadoop MapReduce作业中HBase作为数据源时，如何通过Scan类的配置来优化数据读取效率。具体包括设置每次获取记录的列数量、调整从服务器端读取的行数及禁用数据块缓存等技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hadoop的MR运算中，Hbase可以作为输入数据源参与运算，其中作为HTable的迭代器Scan有几个使用技巧

涉及的方法如下：

public void setBatch(int batch)
public void setCaching(int caching)
public void setCacheBlocks(boolean cacheBlocks)

public void setBatch(int batch) ：

为设置获取记录的列个数，默认无限制，也就是返回所有的列

public void setCaching(int caching)：

每次从服务器端读取的行数，默认为配置文件中设置的值

public void setCacheBlocks(boolean cacheBlocks)：

为是否缓存块，默认缓存，我们分内存，缓存和磁盘，三种方式，一般数据的读取为内存->缓存->磁盘，当MR的时候为非热点数据，因此不需要缓存

因此在MR的时候最好设置如下：

scan.setCacheBlocks(false);
scan.setCaching(200);//大了占内存，但是rpc少
scan.setBatch(6);//你需要的列

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dataee

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

HBase参数优化

Kuzury

03-16

2354

服务端参数优化：1 hbase.regionserver.handler.count：rpc请求的线程数量，默认值是10，生产环境建议使用100，也不是越大越好，特别是当请求内容很大的时候，比如scan/put几M的数据，会占用过多的内存，有可能导致频繁的GC，甚至出现内存溢出。2 hbase.regionserver.hlog.splitlog.writer.threads：默认值是3，建议设为1

HBase Scan查询参数

花果山

02-12

2150

1）setCacheBlocks对于经常查询值，设置为true，试的Memstore可以缓存该数据。如果是全表扫描，设置为false。2） setCachingScan.setCaching is a misnomer. It should really be called something like Scan.setPrefetch. setCaching actually specifies...

参与评论您还未登录，请先登录后发表或查看评论

Hbase Scan的重要参数

qianfeng_dashuju的博客

12-26

2270

　　Scan是操作Hbase中非常常用的一个操作，虽然前面的Hbase API操作简单的介绍了Scan的操作，但不够详细，由于Scan非常常用，关于其详细的整理也是很有必要的。　　Scan 　　HBase中的数据表通过划分成一个个的Region来实现数据的分片，每一个Region关联一个RowKey的范围区间，而每一个Region中的数据，按RowKey的字典顺序进行组织。　　正是基于这...

HBase scan setBatch和setCaching的区别

最新发布

2301_80912559的博客

11-12

679

获取score表的数据然后输出到reducer端进行分组，将班级作为key，然后这班级的数据都会按照key分在一起，我们就可以计算出来这个班级的平均分了。下面读取hbase的案例，使用mr读取数据并且求出每个班级的平均分。在hbase中去除hadoop的所有依赖，这样就不会出现冲突问题。这个时候要存储数据到hbase中那么我们需要在reducer中。读取HBASE中的数据需要继承TableMapper类。统计每个单词的出现次数并且将结果存储到hbase的表中。首先在hbase中准备数据。

MR读取HBase

ZZJXP的博客

04-15

1122

[root@master ~]# hive Logging initialized using configuration in jar:file:/usr/local/soft/hive-1.2.1/lib/hive-common-1.2.1.jar!/hive-log4j.properties hive> create external table students_hbase( > id string, > name string, &gt.

Hbase与MR的交互

2301_77836489的博客

06-02

441

Hbase与MR的交互

HBase-MR操作

Even710的博客

01-31

1473

HBase擅长存储数据，但不擅长计算分析数据，但是它可以借用其他组件（mapreduce/spark），使用官方提供的hbase-api来实现计算分析数据功能。 hbase-server.jar 下面官方提供的一个Hbase操作MR的例子，此例子作用是对一张表的rowkey进行计数。解决HBase与MapReduce的依赖包问题。 # 显示hbase需要的MapReduce Jar包 hba...

API对HBase进行MR操作

tyh1579152915的博客

10-23

490

以下代码是实现将HDFS中的数据文件保存到HBase中若是要读HDFS中的文件则map继承Mapper，若要读取HBase中的文件则继承TableMapper 其中TableMapper只需要传两个out put的参数，另外两个是默认的若要写入HBase则reduce要继承TableReducer，其中Out Put Key是指定了Mutation类型的，支持增（put）删（delete）改（put）几种类型若用了TableMapper则不需要指定输入路径，且在Driver中用TableMap

hbase的scan之setCaching 和 setBatch

齐梦星空

05-05

1742

连接

Hbase里scan的批量处理setCaching

lb89012784的专栏

03-04

4412

在hbase里面scan的每个next()调用都会为每行数据生成单独的RPC请求很显然如果一次RPC请求可以获取多方数据，这样效率或者性能方面就更有意义就有了scan的扫描缓存setCaching(int caching) 但是这个值和服务端的内存消耗有关系，如果设置的比较高，性能可以提高，但是每次RPC请求将占用更多时间，而且数据量更多这样占用的内存更多，所有也需要找到平衡点之

HBase Scanner Caching 扫描器缓存

止鱼

10-17

2240

什么是扫描器缓存Scan实例可以配置扫描的起始位置，以及其他过滤条件，每次调用 next 获取下一条记录的时候，默认配置会访问一次 RegionServer，在网络环境不是很好的情况对性能影响极大，所以建议配置扫描器缓存扫描器缓存能干什么一般来说，使用扫描器会对性能有影响，但是如果配置了Scanner Caching，那么服务器会在内存中开辟一块空间缓存数据，极大提高数据查询效率如何配置

hbase在scan操作中cache,batch属性

hjmlhy的博客

03-29

3178

使用java操作hbase的scan操作代码级别的中调用有这么一个api： ResultScanner result = table.getScanner(scan); 这个 ResultScanner是迭代器，迭代器中每一个元素是一个result类看一下result类的实现，发现他有一个方法public KeyValue[] raw

Hbase 中 scan 对象的 setCache 和 setBatch 方法的使用

Welcome to My blog

12-14

2502

HBase--scan对象的setCache和setBatch方法的使用

weixin_59295776的博客

09-05

432

setCache：用于设置缓存，即设置一次RPC请求可以获取多行数据。对于缓存操作，如果行的数据量非常大，多行数据有可能超过客户端进程的内存容量，由此引入批量处理这一解决方案。 setBatch：用于设置批量处理，批量可以让用户选择每一次ResultScanner实例的next操作要取回多少列，例如，在扫描中设置setBatch(5)，则一次next()返回的Result实例会包括5列。如果一行包括的列数超过了批量中设置的值，则可以将这一行分片，每次next操作返回一片，当一行的列数不能被批量中设置的值

hbase扫描优化-扫描缓存-cacheing-timetout-retries-batch

tianqinglei的博客

08-30

859

扫描 ----------------- 不应该全表扫描. 缓存和批处理 ----------------- 扫描器缓存可以在一次RPC中返回多条记录。默认是关闭的。从两个层面上控制扫描器缓存。全局配置.(优先级最低) hbase.client.scanner.caching 2147483647 1.表层面() HTable.set HConsta

R01 - 009、请描述 Hbase 中 scan 对象的 setCache 和 setBatch 方法的使用

吾心持剑，剑锋披靡

07-03

1144

初学耗时：0.5h 注：优快云手机端暂不支持章节内链跳转，但外链可用，更好体验还请上电脑端。一、记忆词： ... R01 - 999、HBase、实时数据库ギ舒适区ゾ || ♂ 累觉无爱 ♀ 一、彪悍的人生没有放假！ - - - - - - - - - - - - - - - - - - - - - - - - - - - - ※ ...

hbase scan超时设置_从源码层面理解HBase的请求队列参数

weixin_39645249的博客

12-21

475

1. 背景在用arthas神器来诊断hbase异常进程这篇文章中，我详细地记录了一起生产环境中使用HBase的事故，事故发生的大致起因是，一个异常scan导致CPU使用率飙升至百分之百，且巨高不下，从而导致整个集群宕机。(用arthas神器来诊断HBase异常进程)虽然，借助于arthas这个神器，我们很轻易地就定位到了是scan的问题。而且事后，我们在业务层面上也采取了很多的优化手段...

hbase scan中文乱码

06-11

你可以尝试在HBase表中设置字符集为UTF-8，方法如下： 1. 创建表时指定编码 ``` create 'your_table', {NAME=>'cf', COMPRESSION=>'NONE', VERSIONS=>'1', ENCODED=>true, DATA_BLOCK_ENCODING=>'NONE', TTL=>'...