
bigdata
文章平均质量分 80
烫烫烫口
这个作者很懒,什么都没留下…
展开
-
CDH6 rpm方式安装kerberos记录
cdh6整合kerberos的记录原创 2022-03-22 11:43:49 · 3586 阅读 · 0 评论 -
springcloud2.x整合mybatis3+shardingsphere4.1.0&4.1.1 主从分离+服务治理
懒得按以前格式写了,纯粘代码几点注意:1、冲突问题,官网的配置未解决curator问题;(P.S. 最新版5.0.0α也没有处理好spring cloud 2.x+的问题,会造成no value bound,详见issue#8299https://github.com/apache/shardingsphere/issues/82992、配置问题,官网的配置文档还停留在4.0.0的配置,看源码,配置的读取代码为@Generated public void setOrchestratio原创 2021-04-13 15:50:55 · 413 阅读 · 0 评论 -
sparksql运算调优纪事(三)——repartition数据倾斜处理
版本spark2.1.0现象继续上一章,利用effective_time字段进行重新分区导致了任务执行的倾斜本章就要针对这个问题进行处理。问题定位首先看下repartition是如何进行重分区的。由partitionExprs.map(_.expr)可以得知,代码根据列最终返回的key进行map分区,而根据接口注释,可以得知,该接口根据传入partitionExprs将数据重新进...原创 2020-02-20 14:21:44 · 2848 阅读 · 0 评论 -
sparksql运算调优纪事(二)——task并发任务数设置
版本spark 2.1.0前言利用spark-submit提交作业的时候,根据各种天花乱坠的教程我们会指定一大堆参数,借以提升并发和执行性能,比如–executor-cores 4–num-executors 4–executor-memory 8g–conf spark.default.parallelism=50–conf spark.sql.shuffle.part...原创 2020-01-21 16:40:53 · 4910 阅读 · 0 评论 -
kettle6.1转换内正确的并发设置姿势
引子网上很多教程没搞懂“改变开始复制的数量”这个意思,将数量设置在输入端,导致不仅没有进行多线程并发,反而变成复制读入多分数据导致开销增大,而且还造成了数据重复写入,这样还敢说性能提升,真是有鬼了。实际效果单线程效果所谓的“多线程”,不仅没有提升速度,反而给我往文本文件里写了50W条数据,说这个多线程的,不会阅读什么叫“开始复制”这四个字吗,都说了复制了!!真是蠢爆了。正确姿...原创 2019-12-30 16:14:53 · 2661 阅读 · 5 评论 -
sparksql运算调优纪事(一)——hive小文件处理
业务目的全量离线运算统计,结果写入oracle问题执行时task数量过多hive动态分区小文件过多测试环境5运算节点,内存分别为12G,不断发生内存溢出问题逐步调优1、执行时task数量过多,总数达到了108000个,OMG,每个任务都是内存溢出,因为是用sparksql读hive表,所以spark的spark.default.parallelism强制指定task数并没有用,只...原创 2019-09-19 16:49:30 · 1358 阅读 · 2 评论 -
hive on spark与sparkSQl共存
1原创 2019-05-17 16:56:05 · 1070 阅读 · 0 评论 -
hive 2.3.3(HA) on spark 2.2.0 on yarn 2.6.5踩坑记
环境一览hive 2.3.3配置HA spark 2.2.0 hadoop 2.6.5 zookeeper 3.6.5 hbase 1.2.6碰到的所有坑1、jdbc连接zk时方法找不到异常org.apache.curator.utils.ZKPaths.fixForNamespace,这个是因为curator-framework和curator-client版本不匹配...原创 2018-05-25 19:03:58 · 2077 阅读 · 0 评论 -
kettle6.0 hadoop hbase交互记录
摘要:在kettle6.0中连接读写hadoop和hbase与之前版本方法不同,故记录一下使用方法。环境准备: windows kettle6.0 jdk1.7 hadoop 2.6.5 hbase 1.2.6 配置首先配置hadoop的连接插件 打开 工具->hadoop distribute原生hadoop选择CDH5.4 接下来新建一个hadoop连接配置原创 2017-12-12 19:37:48 · 1253 阅读 · 0 评论 -
hadoop2.6.5+spark2.1.0+hbase1.2.6完全分布式环境部署
一、服务器环境准备 tips:本例作为测试环境,只使用了两台服务器,实际生产环境至少会有三台以上服务器作一主多从。 如果要配置 hadoop JournalNode zookeeper高可用,则至少需要五台服务器。服务器centos7 * 2 A master:10.10.16.92 B slave:10.10.16.93 环境 Jd...原创 2017-11-29 19:23:21 · 1036 阅读 · 0 评论 -
kettle6.1读写hive on hbase记录
版本kettle 6.1 hbase 1.2.6 hive 2.2.0 hadoop 2.6.5数据架构业务数据通过kafka流向业务数据处理引擎,过滤后的数据写入hbase,kettle job定期执行作业,读取hive运算结果写入业务mysql库中,提供给前端展示。实现1、hive on hbasehive与hbase数据互通,这点利用hive自带的hive-hb...原创 2018-05-21 14:58:15 · 1006 阅读 · 0 评论