- 博客(253)
- 资源 (15)
- 收藏
- 关注
原创 Flink SQL 基于Update流出现空值无法过滤问题
通过在DWS宽表创建一层View(如上),在写入DWS宽表的kafka topic之前,现将该字段空值过滤,即可排除空值涉及记录被纳入结果指标计算的范围中。
2024-03-27 17:48:20
1160
原创 Flink-CDC 无法增量抽取SQLServer数据
因为没用进行任何修改,故初步判断不是因Flink-CDC的问题导致,进而参照Flink-CDC文档检查以下配置。
2024-03-25 11:41:51
760
2
原创 Flink-SQL join 优化 -- MiniBatch + local-global
Flink-SQL 在多流join时,若数据过多,既会增加内存开销,也会导致container超时,checkpoint失败,因此要尽量减少参与计算数据量,优化聚合算子
2023-10-10 16:01:57
1752
原创 Flink-SQL 读取hbase 问题总结
flink-sql 将kafka 流表写入hbase。– flink-sql 读取hbase列簇(数据列)– 定义在flink hbase流表。
2023-04-26 19:20:54
1067
原创 Java Runtime无法执行复杂特殊linux shell命令
Java使用Runtime,ProcesBuilder执行shell命令失败问题
2022-08-28 23:37:10
1284
原创 mybatis in注解导致数组越界
报错信息报错信息2022-04-24 17:17:29.695 INFO 14125 --- [nio-8080-exec-2] o.s.web.servlet.DispatcherServlet : FrameworkServlet 'dispatcherServlet': initialization completed in 120 ms2022-04-24 17:17:30.395 ERROR 14125 --- [nio-8080-exec-2] o.a.c.c.C.[.
2022-04-24 17:20:48
480
原创 断电后CDH集群艰难重启之路
1.问题描述运维在凌晨断电重启服务器后,因未忘记将测试环境集群CDH关闭,导致CDH的 server/agent集群,Zookeeper集群,hdfs集群,yarn无法重启,监控指标全部消失,症状如下cdh各个节点无状态agent启动失败zookeeper启动顺序CDH server agentzookeeper集群hdfs集群yarn集群启动CDH集群启动server后发现没问题,但是启动server所在的agent时,老是出错,启动后很快退出,查看日志
2022-04-12 16:06:06
4283
原创 spark-2.4.2-bin-2.6.0-cdh5.13.0 源码编译
这里写自定义目录标题下载设置CDH附加仓库地址 和镜像加速编译环境准备[非必要] 根据需求修改scala版本源码编译问题解决scala版本错配参考文档下载spark https://archive.apache.org/dist/spark/spark-2.4.2/maven http://maven.apache.org/download.cgihadoop hadoop-2.6.0-cdh5.13.0设置CDH附加仓库地址 和镜像加速.m2/setting.xml新增仓库地址
2022-04-01 15:12:49
205
原创 Spark/Spark-JobServer 执行SQL时任务超时
1 问题,SQL执行时超时2022/03/18 17:36:47 HttpRequest GET http://10.1.170.115:8080/v1/statement/20220318_093646_03065_awf2q/2map[errorClass:java.util.concurrent.TimeoutException message:Futures timed out after [600 seconds] stack:java.util.concurrent.TimeoutExcep
2022-03-18 17:54:30
2515
原创 MySQL文本类型Text过小引起的错误
问题描述业务流程前端执行Spark-SQL后,会根据后台Spark- SQL的执行状况,计算出SQL的执行进度,并且将执行进度【百分比】存储到redis,对应的是前端SQL唯一标识,当Spark-SQL执行完毕时,会讲执行进度置为100%,并存储到mysql中,执行完毕分为正常执行完毕,会将返回存储对应的文本字段;执行失败后,会讲失败信息存入同样文本字段。然后删除redis对应的前端SQL唯一标识。问题但是某次Spark-SQL执行完毕后,一直进度为0,并无法继续执行定位查看后台日
2022-02-17 16:10:53
1201
原创 python调用spark服务无法执行SQL文件
这里写自定义目录标题问题描述问题定位1 java服务调用2.python脚本调用问题总结python脚本执行使用模块问题描述问题来源在ETL任务中,需要使用java服务调用python脚本完成mysql数据同步,然后使用spark-sql 执行SQL脚本进行数据加载;另外还有跨天同步时,需要进行数据跨天合并,因此会在python脚本中,再次调用跨天python脚本,使用Spark-SQL完成多天数据加载。但在Spark-SQL执行SQL文件时,发现无法执行相应的SQL文件,并无报错,Spark-
2022-02-17 11:41:11
1598
原创 linux 查看某个目录的磁盘空间占用
这里写自定义目录标题查看空间使用查看各个目录使用情况查看当前目录磁盘空间使用情况往下二级级目录使用情况对当前目录的子目录使用空间进行排序按照byte进行排序,其他单位排序不正确截取排序后的前10截取排序后的后10查看空间使用查看各个目录使用情况df -h查看当前目录磁盘空间使用情况包含各个目录,及总使用量 du -h .往下二级级目录使用情况即当前目录的二级子目录使用情况对当前目录的子目录使用空间进行排序按照byte进行排序,其他单位排序不正确du -s * | so
2022-01-25 11:45:20
43088
1
原创 Spark-SQL 多维度聚合优化
1.问题描述问题描述上线一个SQL任务,发现其本身输入表都不打,基本都在百万级别以内,但是能够耗时几个小时,故进行优化2.优化思路2.1 并行度根据运行指标发现,各个stage运行时间,应该是某个stage下的task发生倾斜进一步跟踪stage,发现 task读写数据不是很大,只有几百KB,只要shuffle时才比较大,因此判断并行度无益于作业优化stage 3622.2 shuffle ,聚合shuflle分析各个job的数据,发现也不是很大,无需改变shuffle时
2022-01-18 15:06:02
2135
1
原创 linux查看进程在网卡使用率
前言为了定位服务所在服务网络数据传输量,需要查看服务【进程】在网卡的传输数据情况流程查看服务进程PIDps -ef / ps aux 的到PID 8630 ps aux | grep Test | grep -v grep root 8630 0.3 0.3 53399460 910268 ? Sl 06:01 0:55 java -cp .:/data/program/JobDispatchMaven/resources/bin/../:/data/progra
2022-01-18 11:11:40
4002
原创 JAVA API操作hive
package com.wacai.stanlee.util;import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;/** * @author yishou * @date 2021/5/17 * @description 测试类 */public class H
2022-01-14 15:19:20
479
原创 shell执行 Hive SQL时报语法错误
一、在进行数据修复的时候,使用脚本查询缺少数据的数据表,使用shell进行批量查询,发现报语法错误,但是hive -e "select * from test"时,正常执行Logging initialized using configuration in jar:file:/opt/apache-hive-2.1.1-bin/lib/hive-common-2.1.1.jar!/hive-log4j.propertiesNoViableAltException(-1@[]) ...
2021-12-31 17:01:34
820
原创 php线上代码调试
一 前言 对于现实PHP代码,无法进行debug,只能在线上进行代码调试;但是没有java相关的arthas灯工具,只能使用PHP自带工具二 方法 1.单行注释 对于有些无法发现的错误【如http请求错误/超时】,可进行注释,一行行验证代码正确性 2.var_dump() 使用该方法打印所有的变量类型 例子 $array = array("a"->3,"b"->...
2021-12-02 19:56:12
1156
原创 hive/mr 任务提交失败
这里写自定义目录标题问题描述问题原因、解决方案权限问题依赖问题资源问题问题描述提交hive或MR任务到yarn集群是,提示AM attempt fail,container exit -1Stack trace: ExitCodeException exitCode=1: at org.apache.hadoop.util.Shell.runCommand(Shell.java:538) at org.apache.hadoop.util.Shell.run(She
2021-11-05 11:40:32
955
原创 Hive 配置 UDF方式
这里写自定义目录标题hive udf编写hive部署注册函数删除注册测试错误总结hive udf编写通过继承hive UDF,UDAF,UDTF类进行覆盖方法,然后实现业务逻辑,进行打包【jar包】,部署hive部署临时部署登陆hive cli,然后添加jarhive (default)> add jar testUDF-0.0.1-SNAPSHOT.jar;永久部署复制到hive默认附加目录 cd $HIVE_HOME mkdir auxlib cp test
2021-10-26 15:28:06
1197
原创 Hive部署UDF方式
一、临时部署方式适用于临时验证udf功能,或自己临时使用ud【只当前session生效】部署方式: 方式一1.编写好udf并打包代码为jar包,将其放入hive的classpath【lib】目录下 2.add jar udf对应jar包的目录 3.create temporaryfunction "udf函数名称" as "udf类名"; 方式二...
2021-10-12 14:43:50
743
原创 graphite_export+prometheus+grafana配置spark监控模版
{ "annotations": { "list": [ { "builtIn": 1, "datasource": "-- Grafana --", "enable": true, "hide": true, "iconColor": "rgba(0, 211, 255, 1)", "name": "Annotations & Alerts", "typ.
2021-08-27 18:07:11
1049
原创 java.lang.ClassNotFoundException: org.apache.hadoop.hive.ql.metadata.HiveException
这里写自定义目录标题错误检查本次原因解决错误spark 读取hive时,出现如下错误java.lang.ClassNotFoundException: org.apache.hadoop.hive.ql.metadata.HiveException检查依赖检查<properties> <scala.version>2.11.8</scala.version> <spotless.version>1.31.3</spot
2021-06-15 15:43:40
4345
原创 spark 提交job运行流程
前言spark在提交任务到集群后,会有一系列的处理,从根据任务代码构建DAG,再到根据shuffle算子切分stage,然后生成taskset提交到集群管理进行调度等等,都需要一个比较清晰的流程梳理,便于问题定位,也利于性能优化流程通过测试和观察spark ui,spark会将依赖jar提前上传至hdfs目录,用于后续executor的分发和使用流程机构图【基于 yarn-cluster模式)流程解析准备1.spark client通过spark-submit或API,进行任务
2021-05-31 18:48:24
368
原创 hdfs 审计日志解析
前言近期,数据仓库因为积压数据较大,故对数据访问进行统计,进而计算数据生命周期,决定是否删除,但是对于不同用户的访问,无法做到统计所有访问入口,故从最底层的hdfs审计日志进行解析,对hdfs namenode的审计日志解析,获取当前数据的访问时间,访问目录,访问用户等信息,进行整理数据访问生命周期审计日志类型审计日志大致分两类,read/write,通过分析源码找到其包含类型OperationCategory.READoperationName = "listOpenFiles";ope
2021-05-30 21:59:16
1766
原创 hive元数据分析
前言在对hive SQL进行解析,以及跟踪hive 于yarn application的关系时,还有对hive数据仓库进行数据治理时,需要对hive元数据有个较为清楚的认识,进而更好的在解析SQL时,对数据访问进行权限控制;在资源管理时,进行资源归属;在数据生命周期管理时对其进行有效管理hive元数据库、表hive元数据是有mysql存储的,如果默认安装则是hive数据库,里面有一系列跟数据表、分区,数据倾斜,数据存储、压缩等相关的数据表version存储hive版本信息datab
2021-05-30 21:42:59
465
2
原创 Hive统计函数总结
行列转换行转列顾名思义,将每行的某个列值,转换为一行的列值可以对其进行去重统计,不去重统计原始数据去重统计concat_ws(’,’,collect_set(col_name))SQLselect id ,concat_ws(',',collect_set(value)) as rows2col from rows2cols group by id;结果不去重行转列concat_ws(’,’,collect_list(col_name))SQLselect id
2021-05-28 15:44:00
1992
原创 HDFS垃圾回收-数据恢复
垃圾回收策略同linux系统,hdfs会为每个用户创建一个回收站目录, /user/用户名/.Trash,每个被用户用hdfs dfs -rm [-r] 删除的文件、目录,都会放到 /user/用户名/.Trash 目录中用户若删除了某个文件、目录,可以在用户垃圾回收站恢复该文件、目录/user/用户/.Trash/Current目录仅仅保存被删除 文件的最近一次拷贝测试1.上传hdfs dfs -put yunsong_applist.sh /tmp/demo2.删除文件,文件移动到当前
2021-05-28 10:35:57
1158
原创 svn操作
检出操作checkoutsvn checkout svn:// svn远程地址 —username=username提交文件svn add 要提交的文件或目录 svn status :查看状态,若add文件/目录前面有 ?,则add成功svn commit -m “添加提交的注释”解决冲突提交冲突svn diff 查看冲突差异,进行修改解决冲突后提交 svn commit -m “注释”合并冲突撤销合并(撤销当前目录“.”的合并操作) svn revert
2021-05-27 19:31:40
141
原创 DataX 同步mysql数据到hive
安装配置datax略配置mysql数据源和目标端 hivevim conf/table2hdfs.json{ "job": { "setting": { "speed": { "channel":1 } }, "content": [ { "reader": { "name": "mysqlreader", "parameter": {
2021-05-27 18:38:28
1432
原创 Maven打包避免测试
避免mvn打包时,编译测试用例类和执行测试用例-DskipTest,不执行测试用例,但变异测试用例类,生成相应的class文件至target/test-classes下-Dmaven.test.skip=true,既不执行测试用例,又不编译测试用例类执行例子mvn package -Dmaven.test.skip=true 也可以在pom.xml中修改既不执行测试用例,也不编译测试用例类,推荐mvn package -Dmaven.test.skip=true<plugin
2021-05-27 18:14:04
1470
原创 spark on yarn资源配置
集群spark on yarn , spark允许yarn集群之上,资源【cpu,内存】划分从yarn集群进行分配spark相关资源设置 # 开启动态资源分配 spark.dynamicAllocation.enabled = true spark.shuffle.service.enabled = true # 动态资源分配时,每个driver分配最小executor spark.dynamicAllocation.minExecuto
2021-05-27 17:59:07
349
原创 自定义 Hive Hook
前言在关联hive SQL时,yarn application有多个与其对应,所以需要划分二者对应关系。通过开启hive seesion,解析hive session日志,来解析 hive sql 于hive job[即yarn application]的对应关系hive hookhook类型PreExecute and PostExecute: 扩展Hook接口,用于 hive SQL执行之前,执行之后的操作处理ExecuteWithHookContext :扩展Hook接口,通过HookC
2021-05-27 17:43:45
1202
原创 不同Hive版本配置认证授权
前言对于不同hive版本,相关的配置不同,如hive jdbc,0.11之前的Driver是 “"org.apache.hadoop.hive.jdbc.HiveDriver”,0.11之后是 “org.apache.hive.jdbc.HiveDriver”,诸如此类,同样,认证授权也不同配置hive 0.11.0空,已隐式地包含这个列表hive 0.13.0hive.security.authorization.managerhive.security.authenticator.m
2021-05-27 17:13:46
768
Flume 根据字段进行路由插入 ES
2019-04-26
验证码工程源码
2016-11-02
JDBC连接Oralce数据库驱动
2014-03-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人