
大数据
请叫我超哥
这个作者很懒,什么都没留下…
展开
-
spark处理数据倾斜、小文件问题操作手册
spark经验总结原创 2022-07-21 18:26:42 · 613 阅读 · 0 评论 -
hive、sparksql行转列 列转行详解
行转列、列转行详解原创 2022-07-01 18:28:30 · 1253 阅读 · 0 评论 -
centos6无法使用yum的问题解决
**2020年12月2日下架了包括官方所有的CentOS6源(包括国内的镜像站)**centos6的下架使得centos6的yum无法直接再下载安装软件。目前需要更新为下面两个源:#阿里云http://mirrors.aliyun.com/centos-vault/#官方https://vault.centos.org/#阿里云和官方的任选其一即可具体操作如下:第一步修改base源:vi /etc/yum.repos.d/CentOS-Base.repo# CentOS-Base原创 2021-10-27 17:49:05 · 1038 阅读 · 2 评论 -
使用企业微信的微信机器人发送消息
右键群——》新建机器人就可以新增一个机器人,记下机器人的WebHook,它是机器人的唯一标识。之后使用CURL的指令方式就可以发东西到群里了。注意点:每分钟发送消息不超过20条。特点:可以发送图片、@别人、文件(要求文件大小在5B~20M之间)、字体颜色、curl ‘https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=180-bcdc-40b9-adf9-ffa4’ -H ‘Content-Type: application/json’原创 2021-08-06 14:49:23 · 2093 阅读 · 0 评论 -
hive窗口函数详解窗口长度设置(详细,干货满满)
窗口函数是一种不需要使用group by也能进行聚合计算的强大分析函数以下是经过自己使用的一些感悟:1),窗口函数不是某个函数,它是 “一批” 的函数的总称2),窗口函数适用于增量写入的计算场景3),窗口函数适用于“组内排名”的计算场景4),窗口函数可用于非null判断的循环查找场景…常用的窗口函数简介:1)、窗口聚合计算函数sum(col) over() : 分组对col累计求和,count(col) over() : 分组对col累计,min(col) over() : 分组对c原创 2021-02-02 16:34:53 · 817 阅读 · 0 评论 -
linux多机器时间同步(1分钟完成同步,简易版)
1、确认时区为中国上海tzselect选择时区一次选择亚洲、中国上海、确认,2、编辑时区配置文件vi /etc/sysconfig/clockZONE=“Asia/Shanghai”3、使用ntpdate同步一次时间ntpdate time.windows.com再查看一下时间,时间就同步且正确了!(简易版时间同步)...原创 2020-11-13 15:54:52 · 272 阅读 · 0 评论 -
azkaban使用详解(实际场景运用,多flow之间配置依赖)
azkaban是一个使用起来很方便的调度框架azkaban如何配置多个flow?多flow之间如何依赖? 如何设置通用参数?常用job参数如何设置?本文章为你解答。(1):azkaban如何配置多个flow多flow配置要这样配:把多个flow放到一起打成zip包就可以了,之后在azkaban的web界面上upload即可。(2):设置通用参数通用参数这样配:其中test1下的conf.properties文件中设置的属性只在test1下有效,test2下的conf.properties原创 2020-11-12 16:11:57 · 3564 阅读 · 0 评论