蜡笔小新儿-优快云博客

原创一篇文章让你通透Hive优化

Hive优化一、hive参数优化1、map数优化2、reduce数优化3、Fetch抓取（Hive可以避免进行MapReduce）4 、模式选择 1）本地模式 2）并行模式 3）严格模式5、JVM重用6、推测执行7、并行执行8、合并小文件二、hive压缩存储优化1、压缩优化 1）压缩原因 2）压缩方式 3）压缩方式的选择 4）压缩的使用2、存储优化 1）存储格式三、hive表设计优化1、内部表 &...

2020-05-04 15:44:37 2846 2

原创 Spark数据倾斜的七种解决方案（全）

RDD数据倾斜的解决方案1、什么是数据倾斜2、数据倾斜的表现3、如何确定数据倾斜的原因所在4、数据倾斜的解决方案方案一方案二方案三方案四方案五方案六方案七1、什么是数据倾斜如上图所示，在执行shuffle操作时，会根据key进行value的聚合、拉取、输出。相同的key一定会分配到同一个分区内进行处理。如上图，同一个key的values，最后一定是分配到一个reduceTask进行处理的...

2020-04-30 00:00:29 2256

原创 java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream

我们在用SparkStreaming运行流式数据代码的时候可能会遇到jar包冲突的问题如下：这个报错是由于jar包冲突导致的，只需要如下操作：屏蔽掉kafka lz4版本即可，或者更换kafka版本

2020-06-15 23:15:23 1192

原创完美搭建Hadoop HA高可用集群（亲测五台有效）

Hadoop HA高可用集群一、虚拟机基础配置1、配置五台机器的防火墙、network、hostname、hosts以及免密登录1.1 修改hostname1.2 关闭防火墙1.3 配置network1.4 编辑hosts主机名映射1.5 设置.ssh免密登录2、时间同步3、 `以上五步每台机器都要操作一遍`4、编写shell脚本4.1在`/root/bin`目录下创建xcall脚本文件4.2在`/root/bin`目录下创建xrsync脚本文件4.3在`/root/bin`目录下创建zk脚本文件二、安装软

2020-06-10 01:07:44 2913 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

我爱大数据

原创一篇文章让你通透Hive优化

原创 Spark数据倾斜的七种解决方案（全）

原创 java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream

原创完美搭建Hadoop HA高可用集群（亲测五台有效）

原创 VirtualBox和VMware虚拟机centos(/dev/mapper/centos-root)磁盘扩容(亲测有效)

原创 scala（数组、序列）方法大全

hive_shell.sh

空空如也

原创 一篇文章让你通透Hive优化

原创 Spark数据倾斜的七种解决方案（全）

原创 java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream

原创 完美搭建Hadoop HA高可用集群（亲测五台有效）

原创 VirtualBox和VMware虚拟机centos(/dev/mapper/centos-root)磁盘扩容(亲测有效)

原创 scala（数组、序列）方法大全

hive_shell.sh

空空如也

原创一篇文章让你通透Hive优化

原创完美搭建Hadoop HA高可用集群（亲测五台有效）