- 博客(11)
- 收藏
- 关注
原创 SparkSQL优化笔记-空值关联引起的数据倾斜
1、背景 在做表关联也就是join时,发现了SparkSQL任务产生了数据倾斜,后续定位问题原因,并且优化脚本,大大降低了数据倾斜产生的Task时长过长问题。2、实例
2021-11-15 00:39:19
2133
5
原创 SparkSQL优化笔记-Web-UI参数详解
1、背景 公司内部有大量SparkSQL任务,很多任务有数据倾斜或者内存分配不合理的情况,此博客记录下优化脚本过程中出现的一些问题及经验2、WebUi应用介绍 ...
2021-11-08 22:45:06
3169
原创 DbVisualizer连接Hive使用文档
1、解压(解压路径需全英文状态)2、在下图jdbc目录下新建一个子目录 hive3、将解压的jar包放入hive目录下(hadoop-core-1.2.0.jar除外)4、将hadoop-core-1.2.0.jar放入安装目录的lib下5、点击dbvis工具的Tool-> Driver Manager ->6、Name 自行填写 URL 为:jdbc:hive2://10.8...
2021-07-21 15:02:40
412
原创 Python API操作RocketMQ
背景: 开发背景:公司相关报表需求需要将订单业务数据同步至RocketMQ中,由于需要保证开发的一致性(多个部门协同开发),所以采用读取Hive离线数据的方式通过PythonAPI写入RocketMQ中,便于其他开发同事调用~ 开发环境: 本地调试 系统 MacPython 3.7.5rocketmq 0.4.4 (Python模块) rocketmq-client-pyth..
2021-07-21 14:51:16
4828
12
原创 Shell sed总结_20191023(持续更新)
1、简介Linux sed 命令是利用脚本来处理文本文件。sed 可依照脚本的指令来处理、编辑文本文件。Sed 主要用来自动编辑一个或多个文件、简化对文件的反复操作、编写转换程序等。Sed 处理shell文件及字符串是一个不错的方式,常用的sed命令可以看看这篇博客 https://blog.youkuaiyun.com/wdz306ling/article/details/800878...
2019-10-23 23:22:28
280
原创 Datax使用总结-001
安装部署就不说了,网上一搜一大堆,直接进入正文linux 安装: https://blog.youkuaiyun.com/paicmis/article/details/53563824windows安装 :https://blog.youkuaiyun.com/gjf281/article/details/533507911、优化部分,大多网上走的都是固定的调优方式,此处只添加某些遗漏全局调优 ...
2018-03-26 19:01:39
8416
原创 虚拟机不能上网以及无法ping通百度的解决方案
虚拟机无法上网,看了许多博客也没有解决问题,最后自己钻研文档解决了!此处分享一下!!1、点击此处编辑2、选择虚拟网络编辑器3、点击更改设置4、选择v8 并将使用本地DHCP选项勾选掉(注:此处为nat模式)5、手动输入子网IP,子网掩码默认6、点击nat设置7、手动输入网关地址(此处网关必须与外部windows下V8相同),切记必须与子网IP在区域 也就是在192.168.10 下8、应用并退出9...
2018-03-01 11:33:17
53914
44
原创 MR优化之——MapSideJoin、ReducerSideJoin
如代码有误,望各位大牛纠正一下,本人会及时修改!import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.URI;import java.util.HashMap;import org.apache.commons
2018-01-08 10:49:16
344
原创 Java排序法(冒泡排序、选择排序、快速排序)
public class Java_SortMethod { static int temp; public static void main(String[]args) { int [] arr1 = new int[] {4,8,7,-6,5,0,2,3,9,1,-8,-9}; int [] arr2 = new int[] {4,8,7,-6...
2017-11-20 15:16:16
2003
原创 Win10之环境变量配置(Java为例)--详解
1、打开我的电脑(此电脑),右击此电脑点击属性2、点击高级系统设置,此设置包括五个组件,点击高级3、在右下角有一个环境变量,点击环境变量4、此时有两个栏位,一个是User的用户变量,一个是系统变量5、在系统变量栏位下面点击新建(此处是系统变量,不是用户变量)6、新建系统变量有两个栏位,以Java为例,第一个是JAVA_HOME(变量名),第二个是你的jdk版本所在位置(D:
2017-11-17 08:03:59
295
原创 Linux下Mysql安装及问题
重要的事说三遍,本人新手,本人新手,本人新手!1、rpm -qa | grep -i mysql 检查是否存在mysql2、rpm -e --nodeps xxx(存在的包的名称) 删除存在的mysql 3、安装MySQL Server的rpm包sudo rpm -ivh MySQL-server-5.5.28-1.linux2.6.x86_64.rpm4、安装MySQL客户端
2017-10-09 14:58:36
411
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人