
大数据
文章平均质量分 62
Andromeda
菜,别骂了
展开
-
Spark on yarn资源优化思路笔记
Spark on yarn原创 2022-06-28 09:50:45 · 231 阅读 · 0 评论 -
生产ES 7.9.3集群部署
关于es部署,相关的博客很多,但由于笔者需要在生产环境部署ES集群,因此尽量参考官网的配置:7.9版本的es guide首页:https://www.elastic.co/guide/en/elasticsearch/reference/7.9/index.html安装链接:https://www.elastic.co/guide/en/elasticsearch/reference/7.9/install-elasticsearch.html此处内置了jdk。在tar包的jdk目录下ES启动时会自动原创 2022-04-27 21:26:27 · 2455 阅读 · 0 评论 -
浅谈MapReduce中的排序,以及实际问题中的巧用
开坑防止自己懒惰不学习,待续原创 2021-02-27 23:11:08 · 1451 阅读 · 4 评论 -
自己整理的HBase建表参数默认值与配置差异
1.COMPRESSIONHBase 创建表时默认压缩为 NONE ,即没有压缩,除非指定。目前 HBase 主要支持 4 种压缩方式:GZ(GZIP),SNAPPY,LZO,LZ4。| 算法 | 压缩比| 压缩 | 解压 ||–|--|| | |压缩算法的比较:|| | 压缩 | 解压 |GZIP 13.4% 21MB/s 118MB/sLZO 20.5% 135MB/s 410MB/sSnappy/Zippy 22.2% 172MB/s 409MB/s总结:GZIP的压缩率最原创 2020-10-13 18:14:21 · 1125 阅读 · 0 评论 -
(以后遇到会继续更新)HBase Region数设置以及参数调优,RegionServer内存使用率问题
hbase的RegionServer内存配置为16G,每次在运行统计任务的时候总会导致RegionServer自动重启。查看web界面发现,运行过程中RegionServer的内存使用率已经达到95%以上,从而导致regionServer长时间垃圾回收且回收不掉。通过spark的history查看任务失败阶段从而定位问题代码。 在代码中有个foreachPartition操作用来查找hbase表中该记录是否已存在。读取该分区下所有的主键,然后一次性查询hbase,导致RegionServer的内存...原创 2020-09-24 19:08:23 · 1562 阅读 · 0 评论 -
HBase 使用Java两种方式实现shell中LIMIT
首先明确一下使用过滤器的实例,不仅只有Scan支持Filter,Get也支持部分Filter原创 2020-08-26 16:06:45 · 1829 阅读 · 2 评论 -
部门分享——HBase
今天部门分享了HBase。发一下自己的稿子本次分享的开始,想要旧事重提一下,Google被誉为大数据领域的“三驾马车”的那三篇论文:第一篇是:The google file system第二篇是:MapReduce:Simplified Data Processing on Large Clusters第三篇是:2006年发表的 BigTable:A Distributed Storage System for Structured Data. 它介绍了很多BigTable的设计原理,但其实这些原理原创 2020-07-07 17:03:00 · 578 阅读 · 0 评论