hbase的caching和batch

最新推荐文章于 2023-04-01 23:39:31 发布

最新推荐文章于 2023-04-01 23:39:31 发布 · 514 阅读

文章标签：

#大数据

大数据同时被 2 个专栏收录

49 篇文章

订阅专栏

hbase

22 篇文章

订阅专栏

本文探讨了HBase中Scan操作的两个关键参数：caching和batch。caching用于优化RPC请求频率，通过一次性获取更多行数据来减少网络开销。而batch则限制了一次next调用时获取KeyValue的最大数量，有助于防止内存溢出问题。此外，文章还讨论了batch与某些filter之间的潜在冲突，并引用了《HBase The Definitive Guide》中的相关内容。

hbase scan的时候设置caching,可以每次多从服务器取得row的数量,减少RPC的请求,那么batch的作用是什么呢?
batch指的是一次next的时候,取得keyvalue的最大值.这个设置的用处是什么呢?是因为假设hbase中的row特别宽,那么一次next的时候,取得的keyvalue特别多,导致内存不足,所以用batch限制next时取keyvalue的数量.
但是batch使用时需要注意的是,batch和某些filter有冲突,这是因为这些filter需要一个完整的row才能进行操作,而且使用了batch之后,一个row就有可能分成多个result来返回.

下图是HBase The Definitive Guide中的说明

[img]http://dl2.iteye.com/upload/attachment/0105/3129/9d1bb313-9b16-3d30-9f2a-2ade06ecdfcb.png[/img]