hbase java 排序_java-Hbase对列限定符进行排序

最新推荐文章于 2022-06-26 15:42:18 发布

weixin_39633807

最新推荐文章于 2022-06-26 15:42:18 发布

阅读量614

点赞数

CC 4.0 BY-SA版权

文章标签： hbase java 排序

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_39633807/article/details/114110989

博客围绕NoSQL数据库排序展开，指出是否能更新数据对决策很重要。介绍了多种排序方案，如编写MapReduce任务扫描排序、聚合数据导出到SQL表、为属性重新生成表、手动维护二级索引，还提及可依靠协处理器进行自动二级索引。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

您需要NoSQL数据库才能像RDBMS一样工作,并且鉴于数据的大小,如果坚持下去,您的生活会变得简单得多,除非您期望指数增长:)另外,您也不会提及数据是否能够获得更新,这对于做出正确的决定非常重要.

话虽如此,您有很多选择,这里有一些：

>如果您可以等待结果：编写MapReduce任务进行扫描,排序并检索最前面的X行,那么每种类型是否真的需要超过1000页(20-50k行)？另一种选择是使用类似Hive的东西.

>如果您可以聚合数据并“减少”数据集：编写MapReduce任务以定期将最新的聚合数据导出到SQL表(它将处理查询).我已经做过几次了,它的工作原理很吸引人,但这取决于您的要求.

>如果您有足够的存储空间：编写MapReduce任务以为每个属性定期重新生成(或附加数据)一个新表(在行键中按其排序).您不需要多个表,只需在每种情况下的行键中使用前缀,或者,如果您不希望使用表并且查询不多,只需将排序后的数据写入csv文件并将其存储在HDFS,您的前端应用程序可以轻松读取它们.

>手动维护二级索引：该二级索引不会非常容忍架构更新和新属性,但对于接近实时的结果非常有用.为此,您必须将代码更新为也要使用良好的缓冲区写入辅助表,以帮助提高性能同时避免出现热点区域.考虑这种类型的行键：[4B SORT字段ID(4个字符)] [8B SORT字段值] [8B时间戳记],其中只有一列存储主表的行键.要检索按任何字段排序的数据,只需执行以下扫描即可：将SORT FIELD ID作为开始行,将起始排序字段值作为分页的枢轴(忽略它以获取第一页,然后设置最后一页)您将拥有主表的行键,并且只需对其执行一次multiget即可检索完整数据.请记住,您将需要一个小的脚本来扫描主表并将数据写入现有行的索引表.

>尽管您完全不喜欢此选项,但您可以依靠您提到的通过协处理器进行的任何自动二级索引.

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。