- 博客(15)
- 收藏
- 关注
原创 HQL转mapreduce的过程,如何决定map,reudce的数量
hql语句转mapreduce整个编译过程分为六个阶段:(参考美团技术团队)1.Antlr定义SQL的语法规则,完成SQL词法,语法解析,将SQL转化为抽象语法树ASTTree2.遍历AST Tree,抽象出查询的基本组成单元QueryBlock3.遍历QueryBlock,翻译为执行操作树OperatorTree4.逻辑层优化...
2023-05-29 20:30:20
327
原创 Hive 如何计算Map,Reduce的个数
hql语句转mapreduce整个编译过程分为六个阶段:(参考美团技术团队)1. Antlr定义SQL的语法规则,完成SQL词法,语法解析,将SQL转化为抽象语法树ASTTree2. 遍历AST Tree,抽象出查询的基本组成单元QueryBlock3. 遍历QueryBlock,翻译为执行操作树OperatorTree4. 逻辑层优化器进行OperatorTree变换,合并不必要的ReduceSinkOperator,减少shuffle数据量。
2023-05-29 20:29:30
733
原创 linux下统计各进程的tcp连接数
命令如下netstat -anp | awk '{print $7}' |sort | uniq -c | sort -k1 -nr
2021-02-24 17:29:07
2855
原创 zeppelin-0.82 与spark-2.1.0.cloudera2使用集成
spark Interpreter简介http://zeppelin.apache.org/docs/latest/interpreter/spark.html建议大家看官网地址。Name Class Description %spark SparkInterpreter Creates a SparkContext and provides a Scala environment %spark.pyspark PySparkInterpreter P
2020-08-07 18:34:26
217
原创 zeppelin-0.8.2与cdh-5.16.2 的hive,impala集成
1.zeppelin下载目前zeppelin的版本有最新的是预发版的0.9。出于稳定性考虑,选择2019年就已经发行的zeppelin-0.82.wget https://mirror.bit.edu.cn/apache/zeppelin/zeppelin-0.8.2/zeppelin-0.8.2-bin-all.tgztar -zxvf ./zeppelin-0.8.2-bin-all.tgzcdzeppelin-0.8.2-bin-allcp conf/zeppelin-env...
2020-08-03 16:09:08
538
原创 Linux下glibc 升级回退(libc.so.6)
注意:libc.so.6 这个千万不能升级!!!libc.so.6 这个千万不能升级!!!libc.so.6 这个千万不能升级!!!升级了会导致linux很多命令无法使用回滚操作:如果你和我一样,看了网上一堆升级文章。改了/lib64/libc.so.6 这个软连接。不要乱动。不要退出这个ssh 登录会话。往下看:翻查历史,凭借记忆,明确刚才改的链接是哪个?比如我就是执行了这个命令,把libc-2.12.so 升级到libc-2.17.soln -sf/usr/lo.
2020-07-24 18:17:22
9159
4
原创 dsniff 之tcpkill 的使用详细介绍
简介tcpkill 工具,顾名思义,用来杀死指定的tcp连接。是dsniff的一个小模块。dsniff是一个非常有名的被动监听的网络嗅探工具,用于渗透测试,信息抓取等,都是网络黑客大佬们使用。我也不懂,单纯就是介绍下tcpkill模块。重点放在cpdump(8) filter expression。dsniff 下载地址:https://monkey.org/~dugsong/dsniff/tcpkill 过滤表达式语法地址:https://www.tcpdump.org/manpages/
2020-06-04 18:08:44
5344
原创 hive表分隔符修改实操(兼容sqoop)
版本描述:hive1.1.0-cdh5.16.2sqoop 1.4.7结论:通过如下语句修改分隔符,(网上很多文章只修改了一处,无法识别sqoop过来的数据)#修改分隔符为逗号 ,ALTER TABLE table_name SET SERDEPROPERTIES ('field.delim'=',' , 'serialization.format'=',');...
2020-05-07 17:38:50
11426
1
原创 hive join时对于null,空字符串的处理
结论:(测试版本hive 1.1.0-cdh5.16.2)join时如果关联字段值为null,则该行数据放弃,不会和其他表进行关联join时如果关联字段值为空字符串,视为正常数据,会和其他表关联字段也为控制字符串的数据进行关联测试如下:create table tmp.test20200409_1 (id int,name string);create table tmp....
2020-04-09 15:33:59
4749
原创 hive 内置正则匹配函数 regexp_replace,regexp_extract的分组捕获
1.regexp_replace先看下官网定义:返回值 函数格式 解释 string regexp_replace(string INITIAL_STRING, string PATTERN, string REPLACEMENT) Returns the string resulting from replacing ...
2020-03-18 14:56:08
2922
原创 cdh YARN服务启用Uber优化
1.版本介绍cdh 5.16.2Uber模式虽然在hadoop2.X版本提供,但是使用的人并不多,默认是关闭的。那么启用它有什么优点?Uber模式只会向RM申请一个Container,这个Container里会启用AM,接着本任务的所有mapreduce计算都会在该Container内完成,不需要AM向RM申请其他Container。简单理解,就是针对于小数据量的计算,都在一个...
2020-03-11 16:46:05
431
原创 Logstash+filebeat 7.6 实现监控服务异常日志并钉钉告警
1.背景描述flumehttpresource作为我司数据上报的核心服务,为了保证稳定运行,及时发现异常,要求接入异常日志监控。我作为唯一的一个大数据运维,考虑将日志异常信息接入钉钉机器人告警。由于java水平堪堪自慰,用linuxbashshell写又过于麻烦,各种过滤规则,想想就头大,想起了日志搜索神器TLK,反正以后还需要接入,借此机会就研究下。目前要求比较简单,用不到ES...
2020-02-26 17:03:31
4014
原创 Hue notebook 迁移异常Document does not exist or you don't have the permission to access it.
背景描述cdh版本5.16.2,sentry+hive+hue,启用notebook由于在集成sentry后,hue上的账号需要分离,原有用户hdfs的notebook需要迁移到其他的新用户。登陆老用户的账户可以直接使用hue界面的export功能,一次性导出所有notebook,如图登陆新账户的用户,导入上一步下载的json文件,如图一切看起来很顺利,但是在新用户...
2020-01-09 14:08:11
1098
原创 linux 各操作系统别名
经常下载rpm,parcel各种包,什么el6,precise,sles,wheezy被各种后缀搞得有点头疼,百度嘛也没有,就自己写个,百度搜起来就方便了。linux操作系统有哪些?Fedora UI做的很好看,自由,开源,面向高手Redhat (RHEL :Red Hat Enterprise Linux)商用,不开源,性能稳定,收费CentOS 基于redhat,开源...
2019-09-02 17:35:32
1512
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人