HBase Java API 开发：表的扫描与扫描的缓存和批量处理第1关：批量处理

是草莓熊吖

已于 2022-12-14 17:53:46 修改

阅读量2.4k

点赞数 1

分类专栏： hadoop hbase Educoder 文章标签： hbase 数据库大数据

于 2022-12-14 16:31:40 首次发布

本文链接：https://blog.youkuaiyun.com/qq_61604164/article/details/128318307

版权

批量操作

如果我们去查看HBaseAPI的源码会发现，在上次实训中我们使用的delete、get，put这些批量操作，实际上都是调用了batch()方法。

查看put(List<Put> puts)函数源码：

我们可以发现put(List<Put> puts)方法最终还是调用的batch(final List<? extends Row> actions, final Object[] results, int rpcTimeout)，其他get和delete的批量操作也同样。

所以我们如果既有get操作又有Put操作那是不是可以整合在一起呢？

答案是肯定的。

我们来看个例子：

List<Row> rows = new ArrayList<>();
//上传操作
Put put = new Put(Bytes.toBytes("row1"));
put.addColumn(Bytes.toBytes("data"),By

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

是草莓熊吖

关注关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

HBase开发：表的扫描与扫描的缓存和批量处理

Junds0的博客

01-16

1142

第1关：批量处理本关任务：使用batch()方法整合不同方式的请求。 package step1; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.CellUtil; import org.apache.hadoop.hbase.

HBase Java API 开发：表的扫描与扫描的缓存和批量处理第3关：在扫描中使用缓存和批量参数

qq_61604164的博客

12-14

1665

HBase Java API 开发：表的扫描与扫描的缓存和批量处理第3关：在扫描中使用缓存和批量参数

参与评论您还未登录，请先登录后发表或查看评论

大数据从入门到实战——HBase开发：表的扫描与扫描的缓存和批量处理

Littlerainlv的博客

11-03

3175

HBase开发：表的扫描与扫描的缓存和批量处理批量处理扫描表中所有的数据在扫描中使用缓存和批量参数批量处理 package step1; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.CellUtil; import or

HBase Java API开发：表的扫描与扫描的缓存和批量处理

最新发布

m0_52680439的博客

11-12

2589

在右侧编辑器begin-end处编写代码补全tablename为待操作表的表名，要求实现如下操作：删除表中行键为row1row2的行；获取表中行键为row3row10的行；四个操作需要依照以上先后顺序，即先删除在获取row3，row10。不需要你直接输出，只需要将批量操作的返回即可。

第一章批处理

weixin_33918114的博客

07-13

1、批量插入 INSERT INTO table (field1,field2,field3) VALUES ('a',"b","c"), ('a',"b","c"),('a',"b","c") 2、批量更新 UPDATE T_Free_Orders_Record SET sendtime = CASEWHEN id = 1 THEN '2016-07-14 15:18:21'WH

大数据从入门到实战 - HBase开发：表的扫描与扫描的缓存和批量处理

小啊呜的博客

01-13

6231

大数据从入门到实战 - HBase开发：表的扫描与扫描的缓存和批量处理一、关于此次实践 1、实战简介 2、全部任务二、实践详解 1、第1关：批量处理 2、第2关：扫描表中所有的数据 3、第3关：在扫描中使用缓存和批量参数叮嘟！这里是小啊呜的学习课程资料整理。好记性不如烂笔头，今天也是努力进步的一天。一起加油进阶吧！

HBase Java API 开发：表的扫描与扫描的缓存和批量处理第2关：扫描表中所有的数据

qq_61604164的博客

12-14

1477

HBase Java API 开发：表的扫描与扫描的缓存和批量处理第2关：扫描表中所有的数据

HBase数据导入导出：批量处理与最佳实践技巧

本文全面概述了HBase数据导入导出的核心技术与实践，深入探讨了HBase数据模型和存储原理、各种批量和实时数据导入技术，以及高效的数据导出方法。文章还详述了在大规模数据迁移和实际应用中如何

HBase Coprocessor深度解码：自定义数据处理与系统扩展的秘密武器

HBase Coprocessor是一个强大的特性，它允许开发者在HBase服务器端运行自定义代码，从而扩展HBase的功能。它能够将数据处理逻辑从客户端迁移到服务器端，提高效率，减少网络传输。Coprocessor分为两种主要类型：...

HBase基础知识(8):扫描操作之缓存与批量处理

XingLiu's Blog

08-27

5219

每一个next()调用都会为每行数据生成一个单独RPC请求，即使使用next(int nbRows)方法，也是如此，因为该方法仅仅是在客户端循环地调用next()方法。很显然，当单元格数据较小时，这样做的性能不会很好。因此，如果一次RPC请求可以获取多行数据，这样更会有意义。这样的方法可以由扫描器缓存实现，默认情况下，这个缓存是关闭的。可以在两个层面上打开它：在表的层面，这个表所有扫描实例的缓存

Hbase笔记 —— 利用JavaAPI的方式操作Hbase数据库（往hbase的表中批量插入数据）.pdf

12-16

Hbase笔记 —— 利用JavaAPI的方式操作Hbase数据库（往hbase的表中批量插入数据）

大数据从入门到实战 - HBase 开发：批量操作

小啊呜的博客

01-13

9387

大数据从入门到实战 - HBase 开发：批量操作一、关于此次实践 1、实战简介 2、全部任务二、实践详解 1、第 1 关：批量获取数据 2、第 2 关：批量删除数据 3、第 3 关：批量导入数据至 HBase 叮嘟！这里是小啊呜的学习课程资料整理。好记性不如烂笔头，今天也是努力进步的一天。一起加油进阶吧！

HBase Java API 批量操作

weixin_40393128的博客

10-10

1028

原文作者：MasterXiao 链接：https://www.jianshu.com/p/dc0e88fdce8e 内容如下：之前我们是这样获取数据的： Getget=newGet(Bytes.toBytes("row1"));//定义get对象Resultresult=table.get(get);//通过table对象获取数据那么问题来了，我们想要获取多条...

HBase Java API 开发：批量操作第2关：批量删除数据

qq_61604164的博客

12-14

2921

HBase Java API 开发：批量操作第2关：批量删除数据

HBase学习之路(三):Java客户端的批处理和扫描操作详讲

萧邦主的城邦

05-04

771

内容简介一、概述二、操作前的准备三、批处理操作四、扫描1.Scan操作2.缓存与批量处理五、总结一、概述在前面已经介绍了，使用JavaAPI对HBase的数据进行检索、添加和删除的操作，但是那些操作都是基于一行或者一个列表的操作，这一节将介绍如何使用JavaAPI批量处理跨多行的不同操作。介绍完批处理操作后会介绍扫描技术，这是HBase中一个非常重要的操作，类似于关系型数据库中的游标，使用到...

HBase Java API开发：批量操作

m0_52680439的博客

11-12

1169

1.会返回一个Result[]结果数组，里面存放了本次查询的所有数据，可以通过这个数组来遍历我们需要的数据。2.result是单个结果，这里存放的是一行的所有数据，result的rowCells()方法会返回这一行所有的列（Cell）的集合。3.Cell对象是单个的列，要获取列中的值可以通过方法，如就会返回该列的值。

大数据之hbase（三） --- 原生扫描，缓存扫描，批量扫描，扫描过滤器，计数器，coprocessor 协处理器

xcvbxv01的博客

09-16

581

一、扫描：原生扫描（专家） ----------------------------------------------------------- 1.一般的扫描，如果不指定版本，仅仅扫描一个版本的数据。指定了就扫指定版本的数据，但是版本不会超过创建表时指定的版本数 2.但是，如果想扫描更多的版本（大于创建表时指定的版本数），可以使用原生扫描，可以将所有的历史版本全部扫描出来 ...

HBase Java API 开发：批量操作第3关：批量导入数据至HBase

qq_61604164的博客

12-14

3814

HBase Java API 开发：批量操作第3关：批量导入数据至HBase

HBase的缓存和批量处理

foyemazl的博客

08-13

1251

1、cache，面向行级操作，只影响效率！（1）每一个next()调用都会为每行数据生成一个单独的RPC请求，当单元格数据小时，这样做的性能不会很好，我们可以一次RPC请求获取多行数据，这样的方法由扫描器缓存实现，默认情况下，该缓存是关闭的。编程时可在两个层面打开扫描器缓存：表层面和扫描层面。（2）代码 public void TestCache() throws Exception{...

hbase开发：表的扫描与扫描的缓存和批量处理

06-28

### 回答1： HBase是一个非关系型数据库，它支持对表的扫描操作。扫描可以按照行键范围或过滤器条件进行。HBase还支持缓存表的扫描结果，可以提高查询性能。此外，HBase还支持批量处理，可以同时对多行进行操作，提高处理效率。 ### 回答2： HBase是一种分布式、可扩展的列式存储系统，是基于Hadoop的海量数据存储解决方案之一，使用Java语言编写。HBase的表的扫描与扫描的缓存和批量处理是HBase的重点开发难点之一。本文将从这三个方面来探讨HBase开发。 1. HBase表的扫描 HBase的表无法像传统关系型数据库那样直接进行SQL查询，它的查询方式是通过扫描表中的行来进行。HBase表扫描可以采用Scan类来实现，在Scan类中可以指定要扫描的范围、列限定器等。扫描时会返回Scanner类，通过Scanner逐行扫描表中的数据并将扫描结果以一定的格式返回。在扫描时，可以指定不同的过滤器来帮助筛选需要的数据。如果需要查询表中所有数据，则可以省略Scan类中的startRow和stopRow参数。 2. 扫描的缓存在HBase中，扫描的结果是比较大的，而且数据分散存储在多个节点上，因此需要采用缓存机制来进行优化。在HBase中，使用了一种叫做BlockCache的缓存机制。BlockCache是一个缓存组件，它缓存了HFile中的块（Block），并为读取请求提供服务。使用BlockCache可以有效地减少IO操作，提高HBase的查询性能。 3. 批量处理在处理大规模数据时，HBase常常需要进行批量处理，以提高处理效率。HBase支持两种批量处理机制：一种是批量Get操作，另一种是批量Put和Delete操作。批量Get操作可以通过get(List<Get> gets)方法来实现，批量Put和Delete操作可以通过put(List<Put> puts)和delete(List<Delete> deletes)方法来实现。这些方法可以将多个操作同时提交到HBase中，以减少网络通信次数和IO操作，提高数据访问速度和性能。综上所述，HBase表的扫描、扫描的缓存和批量处理是HBase开发中的重点难点之一。了解和掌握这些知识，可以帮助HBase开发人员更好地优化HBase的性能和提高数据处理效率。 ### 回答3： HBase是一个分布式的列式存储系统，它是建立在Hadoop上的，它的数据是按行存储的，同一行的数据存储在同一列族中，而且HBase还提供了表的扫描和扫描缓存、批量处理功能，可以更好地应对大规模数据的存储和查询。首先，要讨论表的扫描功能。表的扫描是指在HBase中通过对一张表进行遍历，扫描所需要的所有行数据信息。通过HBase提供的Scan API，可以实现对指定表的扫描，可以设置扫描的起始行、结束行、扫描列、过滤器等。Scan的过程就是在Region Server上进行的，当然一个region server可以同时扫描多个region。Scan操作返回一个ResultScanner对象，该对象可以迭代返回扫描到的每一行数据，这个扫描结果可以用来进行数据处理、数据统计等。其次，说一下扫描缓存。扫描缓存是指在HBase的Region Server上，扫描结果一般是一个KV数据对（Key-Value数据对，即键值对），这些扫描结果会被Region Server缓存在内存中，以便后续操作使用。而HBase中提供了一种扫描缓存设置，可以有效地控制Region Server上的缓存大小，避免内存占用过高，对性能有影响。HBase提供了两种类型的扫描缓存，分别是Client和Server端缓存。Client端缓存是通过设置Scan的 setCaching() 方法来控制，它是在客户端扫描时就在内存中缓存好的数据，在迭代扫描结果时，可以减少客户端向Region Server发送请求的次数，有效提高客户端的性能。而Server端缓存是通过设置Region Server的 Scanner 子模块中的 CacheBlocks 参数来控制，这个参数是表示对HFile进行扫描时，是否在HFile中缓存数据块，也就是在RegionServer上缓存了KV数据对。最后，要说一下批量处理。批量处理是指在HBase中一次性处理多行数据的操作，可以在Region Server上执行。这个操作通过HBase提供的Batch API来实现，可以一次性操作多行数据。使用Batch API时，首先需要创建一个操作列表，将所有需要修改的行键和对应的操作（如Put、Delete等）添加到列表中，然后将列表传递给Batch API进行处理。Batch API会将所有的操作封装成一次批处理，一次性向Region Server发送，达到批量处理的效果。批量处理可以大大提高数据处理的效率，尤其是在需要对大数据量进行修改时，可以减少网络带宽和IO资源的使用，提高系统吞吐量。总之，HBase的表的扫描和扫描缓存以及批量处理功能，是对大规模数据存储和查询的重要支撑。通过使用这些功能，可以减少网络带宽和IO资源的使用，大大提高系统的性能，为企业的数据管理提供了便利。

HBase Java API 开发：表的扫描与扫描的缓存和批量处理 第1关：批量处理

HBase Java API 开发：表的扫描与扫描的缓存和批量处理第1关：批量处理