- 博客(90)
- 收藏
- 关注
原创 数据比对总结
比如pkgs数组字段有大量空值,row_number方式排序去重(rnk=1)前没有过滤pkgs为空的数据,这样获取了许多pkgs为空的数据,导致展开数组时会丢失有效数据.first、last函数会随机取维度值, 造成这些维度指标不完全一样, 可验证其它维度上指标是否一致.过滤掉了无效数据, 保留下了更过的有效数据;
2023-10-11 20:46:15
280
原创 hive的metastore问题汇总
当Spark任务无法获取足够资源时,因为任务无法继续进行,不能将元数据从Metastore返回给任务。这种情况下,如果Metastore的内存不断累积,可能会导致内存占用过高,进而影响系统的稳定性。spark集群提交的任务无法运行, 只申请到了dirver的资源;后,这些元数据暂存在Metastore中;metastore内存飙升降不下来;
2023-07-31 11:38:58
802
1
原创 spark-小文件优化
1. 缓存数据源分区文件信息spark.sql.hive.filesourcePartitionFileCacheSize由于小文件产生的spark job performance问题 - 简书
2023-06-15 09:29:09
577
1
原创 spark参数说明及优化
合理并行度set spark.default.parallelism=72;set spark.sql.shuffle.partitions=72;资源动态分配set spark.dynamicAllocation.enabled=false;推测机制set spark.speculation=true;set spark.speculation.interval=50000;set spark.speculation.quantile=0.95;s...
2022-05-26 16:22:06
2140
原创 数仓任务优化
提示:上游任务优化、当前任务优化、下游任务优化和相关环境优化,全链路优化任务。模型优化1. 缩减字段1) 中英文都有的字段, 只保留英文;2) 去掉不常用且可以通过现有字段关联得到的字段;2. 全量表优化1) 如何合并增量数据;2) 过滤掉失活数据;3)3. 维表的字段尽量在最后一步关联码表.........
2022-05-21 09:48:37
1840
原创 flink读写kafka
1 读kafka参考代码/** * flink-sql形式读取(flink1.14支持多个topic), 适合json格式统一的情况 */def readKafka(tab_env: StreamTableEnvironment, topics: String, servers: String, group_id: String): Unit = { // 连接kafka val kafka_view = s""" |CREATE TABLE
2022-04-11 21:00:30
3482
原创 flink读写filesystem
1 flink-sql写parquet格式1 参考链接Parquet | Apache FlinkParquetOutputFormat - parquet-hadoop 1.10.0 javadocFileSystem | Apache Flink注意: 多个链接要结合起来看2 连接文件系统CREATE TABLE test_fs_table ( iid STRING, local_time TIMESTAMP, dt STRING, dh STRING
2022-04-06 18:24:34
2845
原创 flink问题汇总
1 本地运行, 写出parquet报错, 而json没有问题Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/conf/ConfigurationCaused by: java.lang.ClassNotFoundException: org.apache.hadoop.conf.Configuration2 flink输出日志设置1. 无法加载类SLF4J: Failed to l
2022-03-29 22:38:09
2846
原创 flink本地运行及访问webui
1 webui的依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-runtime-web_2.11</artifactId> <version>${flink.version}</version> <scope>${scope.type}</scope></depend
2022-03-29 18:36:16
5438
1
原创 flink-sql实现多个insert语句一起执行
1 问题背景使用flink-sql开发, 当多个insert分别写出时, 生成了多个job, 每个job都在yarn上启动了一个应用,flink的per-job模式,一个job就会申请一次资源.-2 问题解决// 创建语句集val stmtSet = tab_env.createStatementSet// 增加insert语句stmtSet.addInsertSql("insert_01")stmtSet.addInsertSql("insert_02")// 执行多个
2022-03-23 17:03:34
7907
2
原创 数据质量提升
1 连续下降1.1 对比上个周期连续下降select count(1)from ( select dh, sum(go_in) as cnt from check_data_v2.dws_pts_athena_server_check_hi where concat(dt,dh) >= '$[yyyymmddhh24-3/2
2022-03-17 17:48:09
872
原创 读取配置和变量
1 读取properties文件方法不同, 能读取的文件路径和文件类型也不同。Java 读取 .properties 配置文件的几种方式 - 暴脾气大大 - 博客园-1.1 scala语言读取1)读取任意路径下的properties文件import java.io.{BufferedReader, FileReader}import java.util.Properties/** * 读取任意路径下的properties文件 * */object ConfManag.
2022-03-16 21:24:09
952
原创 处理json字符串
1 获取json串中的key值1.1 java方式import com.alibaba.fastjson.JSON;import java.util.HashMap;public class JsonTool { /** * * @param json_str 传入的json串 * @return json串最外层的key */ public static Object[] getKeys(String json_str) {
2022-03-08 16:40:23
537
原创 Flink操作json数据
1 kafka中的json数据关键词:json、嵌套、复杂结构、Map、Array、Row1. Flink SQL 解析嵌套的 JSON 数据_JasonLee_后厂村程序员-优快云博客2 内置json函数1. 官方文档System (Built-in) Functions | Apache Flink2. 函数使用JSON_VALUE('{"a":}', '$.a') --> nullJSON_VALUE('{"a":""}', '$.a')..
2022-03-02 20:56:26
6280
原创 flink学习笔记
1 依赖设置1 scala的基本依赖设置<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http:/
2022-02-23 21:50:58
1393
原创 待整理内容
java经典面试题https://mp.weixin.qq.com/s/vRHPWFDweuEmIv9Y0zHtog详解数据仓库数据指标数据治理体系建设方法论https://baijiahao.baidu.com/s?id=1714551946309631156&wfr=spider&for=pc
2022-01-11 20:41:00
220
原创 airflow依赖上游设置
1 周表依赖与天表1 只依赖上周的最后一天# 获取上周最后一天的日期def getTrueWeek(ds): import datetime # 循环到本周末 while ds.weekday() != 6: ds += datetime.timedelta(days=1) # 格式化到上游的定时 return ds.replace(hour=23, minute=10, second=0) from airflow.sensors
2021-12-09 11:38:19
1186
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人