- 博客(6)
- 资源 (1)
- 收藏
- 关注

原创 一篇文章让你通透Hive优化
Hive优化一、hive参数优化1、map数优化2、reduce数优化3、Fetch抓取(Hive可以避免进行MapReduce)4 、模式选择 1)本地模式 2)并行模式 3)严格模式5、JVM重用6、推测执行7、并行执行8、合并小文件二、hive压缩存储优化1、压缩优化 1)压缩原因 2)压缩方式 3)压缩方式的选择 4)压缩的使用2、存储优化 1)存储格式三、hive表设计优化1、内部表 &...
2020-05-04 15:44:37
2629
2

原创 Spark数据倾斜的七种解决方案(全)
RDD数据倾斜的解决方案1、什么是数据倾斜2、数据倾斜的表现3、如何确定数据倾斜的原因所在4、数据倾斜的解决方案方案一方案二方案三方案四方案五方案六方案七1、什么是数据倾斜 如上图所示,在执行shuffle操作时,会根据key进行value的聚合、拉取、输出。相同的key一定会分配到同一个分区内进行处理。如上图,同一个key的values,最后一定是分配到一个reduceTask进行处理的...
2020-04-30 00:00:29
2109
原创 java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream
我们在用SparkStreaming运行流式数据代码的时候可能会遇到jar包冲突的问题如下: 这个报错是由于jar包冲突导致的,只需要如下操作: 屏蔽掉kafka lz4版本即可,或者更换kafka版本
2020-06-15 23:15:23
1148
原创 完美搭建Hadoop HA高可用集群(亲测五台有效)
Hadoop HA高可用集群一、虚拟机基础配置1、配置五台机器的防火墙、network、hostname、hosts以及免密登录1.1 修改hostname1.2 关闭防火墙1.3 配置network1.4 编辑hosts主机名映射1.5 设置.ssh免密登录2、时间同步3、 `以上五步每台机器都要操作一遍`4、编写shell脚本4.1在`/root/bin`目录下创建xcall脚本文件4.2在`/root/bin`目录下创建xrsync脚本文件4.3在`/root/bin`目录下创建zk脚本文件二、安装软
2020-06-10 01:07:44
2756
1
原创 VirtualBox和VMware虚拟机centos(/dev/mapper/centos-root)磁盘扩容(亲测有效)
虚拟机磁盘扩容一、VirtualBox虚拟机磁盘扩容二、VMware虚拟机磁盘扩容一、VirtualBox虚拟机磁盘扩容1、首先打开虚拟机设置窗口我们可以看到只有一个30G的vdi这里我新建了一个100G的硬盘,你们可以根据自己实际情况来创建。这里我们就可以看到刚刚创建的vdi,ok保存,接下来启动我们的虚拟机开始干活了。2、输入命令:lsblk我们可以看到多了一个我们刚刚创建的物理磁盘sdb。3、输入命令:df -h我们可以看到磁盘可用空间26G,已经使用了3.3G4
2020-05-31 12:21:23
1476
2
原创 scala(数组、序列)方法大全
Scala超详细方法的使用1、addStringdef addString(b: StringBuilder): StringBuilder-【将数组中元素逐个添加到可变字符串序列b中】scala> val a = Array(1,2,3,4,5)a: Array[Int] = Array(1, 2, 3, 4, 5)scala> val b = new Strin...
2020-04-29 00:46:35
3424
hive_shell.sh
2020-06-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人