shy_01-优快云博客

原创正则表达式-使用笔记

正则表达式使用不当，会导致CPU飙升；

2024-07-06 18:03:16 316

原创 yarn使用笔记

一、 REST API一、 REST API。

2024-07-04 15:51:37 275

原创数据比对总结

比如pkgs数组字段有大量空值，row_number方式排序去重(rnk=1)前没有过滤pkgs为空的数据，这样获取了许多pkgs为空的数据，导致展开数组时会丢失有效数据.first、last函数会随机取维度值, 造成这些维度指标不完全一样, 可验证其它维度上指标是否一致.过滤掉了无效数据, 保留下了更过的有效数据;

2023-10-11 20:46:15 280

原创排查数据问题笔记

无用的数据没有提前过滤;没有充分利用索引或分区;索引或分区失效;

2023-10-10 09:58:16 292

原创 spark的数据扩展

会导致数据扩展的操作;如何避免数据扩展;

2023-09-25 18:50:47 644

原创 spark操作map数据

【代码】spark操作map数据。

2023-09-25 15:34:04 248

原创 spark集群问题汇总

2. 加大资源, 增加excutor的数量, 分散压力。2. 应用本身数据量大。1. 严重的数据倾斜。

2023-09-06 20:37:39 489

原创 spark的eventLog日志分析

【代码】spark的eventLog日志分析。

2023-08-22 18:33:15 973

原创 hive的metastore问题汇总

当Spark任务无法获取足够资源时，因为任务无法继续进行，不能将元数据从Metastore返回给任务。这种情况下，如果Metastore的内存不断累积，可能会导致内存占用过高，进而影响系统的稳定性。spark集群提交的任务无法运行, 只申请到了dirver的资源;后，这些元数据暂存在Metastore中;metastore内存飙升降不下来;

2023-07-31 11:38:58 802 1

原创 spark-小文件优化

1. 缓存数据源分区文件信息spark.sql.hive.filesourcePartitionFileCacheSize由于小文件产生的spark job performance问题 - 简书

2023-06-15 09:29:09 577 1

原创获取hive表信息

获取hive的表结构信息：表owner、表location。

2023-05-14 11:12:01 446

合理并行度set spark.default.parallelism=72;set spark.sql.shuffle.partitions=72;资源动态分配set spark.dynamicAllocation.enabled=false;推测机制set spark.speculation=true;set spark.speculation.interval=50000;set spark.speculation.quantile=0.95;s...

2022-05-26 16:22:06 2140

原创数仓降本增效

提示：数仓降本增效的一些方法。

2022-05-21 15:42:32 148

原创数仓任务优化

提示：上游任务优化、当前任务优化、下游任务优化和相关环境优化，全链路优化任务。模型优化1. 缩减字段1) 中英文都有的字段, 只保留英文;2) 去掉不常用且可以通过现有字段关联得到的字段;2. 全量表优化1) 如何合并增量数据;2) 过滤掉失活数据;3）3. 维表的字段尽量在最后一步关联码表.........

2022-05-21 09:48:37 1840

原创批操作hive

一、添加分区一、添加分区目录不存在时，会生成空目录；防止生成空目录。

2022-05-19 22:05:12 764

原创调度系统使用注意事项

1 计算新增的任务这种任务前后有依赖关系, 必须串行顺序执行;1 必须打开依赖历史的设置;2 补数据时必须串行顺序执行;

2022-04-22 14:31:19 350

原创 flink读写kafka

1 读kafka参考代码/** * flink-sql形式读取(flink1.14支持多个topic), 适合json格式统一的情况 */def readKafka(tab_env: StreamTableEnvironment, topics: String, servers: String, group_id: String): Unit = { // 连接kafka val kafka_view = s""" |CREATE TABLE

2022-04-11 21:00:30 3482

原创 flink读写filesystem

1 flink-sql写parquet格式1 参考链接Parquet | Apache FlinkParquetOutputFormat - parquet-hadoop 1.10.0 javadocFileSystem | Apache Flink注意: 多个链接要结合起来看2 连接文件系统CREATE TABLE test_fs_table ( iid STRING, local_time TIMESTAMP, dt STRING, dh STRING

2022-04-06 18:24:34 2845

原创 flink相关优化

1 小文件优化并行度回滚时间文件大小checkpointcompact

2022-04-02 10:51:31 2133

原创 flink问题汇总

1 本地运行, 写出parquet报错, 而json没有问题Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/conf/ConfigurationCaused by: java.lang.ClassNotFoundException: org.apache.hadoop.conf.Configuration2 flink输出日志设置1. 无法加载类SLF4J: Failed to l

2022-03-29 22:38:09 2846

原创 flink本地运行及访问webui

1 webui的依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-runtime-web_2.11</artifactId> <version>${flink.version}</version> <scope>${scope.type}</scope></depend

2022-03-29 18:36:16 5438 1

原创开发环境配置

1 jdk安装JDK下载与安装详细步骤_雪佳菇娘的博客-优快云博客_jdk安装步骤

2022-03-23 22:47:56 419

原创 flink-sql实现多个insert语句一起执行

1 问题背景使用flink-sql开发, 当多个insert分别写出时, 生成了多个job, 每个job都在yarn上启动了一个应用,flink的per-job模式，一个job就会申请一次资源.-2 问题解决// 创建语句集val stmtSet = tab_env.createStatementSet// 增加insert语句stmtSet.addInsertSql("insert_01")stmtSet.addInsertSql("insert_02")// 执行多个

2022-03-23 17:03:34 7907 2

原创数据质量提升

1 连续下降1.1 对比上个周期连续下降select count(1)from ( select dh, sum(go_in) as cnt from check_data_v2.dws_pts_athena_server_check_hi where concat(dt,dh) >= '$[yyyymmddhh24-3/2

2022-03-17 17:48:09 872

原创读取配置和变量

1 读取properties文件方法不同，能读取的文件路径和文件类型也不同。Java 读取 .properties 配置文件的几种方式 - 暴脾气大大 - 博客园-1.1 scala语言读取1）读取任意路径下的properties文件import java.io.{BufferedReader, FileReader}import java.util.Properties/** * 读取任意路径下的properties文件 * */object ConfManag.

2022-03-16 21:24:09 952

原创处理json字符串

1 获取json串中的key值1.1 java方式import com.alibaba.fastjson.JSON;import java.util.HashMap;public class JsonTool { /** * * @param json_str 传入的json串 * @return json串最外层的key */ public static Object[] getKeys(String json_str) {

2022-03-08 16:40:23 537

原创 Flink操作json数据

1 kafka中的json数据关键词：json、嵌套、复杂结构、Map、Array、Row1. Flink SQL 解析嵌套的 JSON 数据_JasonLee_后厂村程序员-优快云博客2 内置json函数1. 官方文档System (Built-in) Functions | Apache Flink2. 函数使用JSON_VALUE('{"a":}', '$.a') --> nullJSON_VALUE('{"a":""}', '$.a')..

2022-03-02 20:56:26 6280

原创 excel使用笔记

excle使用经验、常用函数

2022-02-25 14:26:38 202

原创 flink学习笔记

1 依赖设置1 scala的基本依赖设置<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http:/

2022-02-23 21:50:58 1393

原创待整理内容

java经典面试题https://mp.weixin.qq.com/s/vRHPWFDweuEmIv9Y0zHtog详解数据仓库数据指标数据治理体系建设方法论https://baijiahao.baidu.com/s?id=1714551946309631156&wfr=spider&for=pc

2022-01-11 20:41:00 220

原创 airflow使用汇总

1 airflow分支Airflow的BranchPythonOperator如何工作---

2021-12-09 15:38:59 977

原创 airflow依赖上游设置

1 周表依赖与天表1 只依赖上周的最后一天# 获取上周最后一天的日期def getTrueWeek(ds): import datetime # 循环到本周末 while ds.weekday() != 6: ds += datetime.timedelta(days=1) # 格式化到上游的定时 return ds.replace(hour=23, minute=10, second=0) from airflow.sensors

2021-12-09 11:38:19 1186

空空如也

空空如也