- 博客(219)
- 资源 (2)
- 收藏
- 关注
原创 doris-streamloader 导数验证
curl --location-trusted -u admin:XXX -H “Expect:100-continue” -H “column_separator:,” -H “columns:id,domain,project_name,pn_code,wo_code,line_code,line_name,process_code,process_name,section_code,section_name,station_code,station_name,user_code,assess_r
2025-04-07 16:40:37
325
原创 dataX运行原理学习
求出 TaskGroup 的数量之后,就会执行公平分配策略,将 Task 平均分配个每个 TaskGroup,最后执行调度,完成整个同步作业。Task:根据不同数据源的切分策略,一个Job会切分为多个Task,Task是DataX作业的最小单元,每个Task负责一部分数据的同步工作。Framework:用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。假设 A 库有表 0、1、2,B 库上有表 3、4,C 库上有表 5、6、7,如果此时有 4 个。
2025-04-07 11:49:21
440
原创 hive通过元数据库删除分区操作步骤
删除分区参数(PARTITION_PARAMS,如果有)– 删除分区键值(PARTITION_KEY_VALS)– 可选:删除统计信息(PART_COL_STATS)2、 查询分区的PART_ID和SD_ID。– 删除存储描述(SDS,确保无其他引用)– 删除分区记录(PARTITIONS)1、查询分区的DB_ID、TBL_ID。– 根据分区键值查找PART_ID。– 获取数据库ID-26110。–第二个分区键month的值。–第一个分区键year的值。–第三个分区键type的值。
2025-04-07 11:15:01
317
原创 iptables只允许指定网段的ip访问某端口配置
yum install -y iptables-services #安装systemctl restart iptables.service #重启防火墙使配置生效systemctl enable iptables.service #设置防火墙开机启动systemctl disable iptables.service #禁止防火墙开机启动iptables -F 清除所有链的规则。
2025-04-02 15:47:57
248
原创 doris 用户连接数限制问题
通过 SHOW PROPERTY FOR ‘Billie’ LIKE ‘%max_user_connections%’;通过 SET PROPERTY FOR ‘Billie’ ‘max_user_connections’ = ‘200’;用户同一时间点可使用的 instance 个数, 默认是-1,小于等于0将会使用配置 default_max_query_instances.
2025-04-02 11:49:28
296
原创 Spark任务AM复用导致任务混乱
yarn.resourcemanager.am.liveness-monitor.interval-ms =1000 --RM检查AM存活状态的时间间隔(单位为毫秒,默认1s)。yarn.am.liveness-monitor.expiry-interval-ms = 1000 --AM在无响应后判定为失效的时间阈值(单位为毫秒,m默认10分钟)。spark-submit 增加参数。
2025-03-12 11:35:56
238
原创 initial executor number 10 must between min executor number 1 and max executor number 8 问题处理
1、静态 Executor 数量分配(禁用动态分配)2、动态资源分配(启用动态分配)
2025-03-10 16:30:37
97
原创 进程延迟告警脚本
DATE"’&alert_host=调度任务延迟告警&alert_level=Error&alert_info=调度 {} 延迟&obj_id=assembly’
2025-03-06 20:27:50
252
原创 jvm线程状态样例
在 “Entry Set”中等待的线程状态是 “Waiting for monitor entry”,而在 “Wait Set”中等待的线程状态是 “in Object.wait()”。含义:可能是一个全局锁阻塞住了大量线程,如果短时间内多次打印的 thread dump 文件反映,随着时间流逝,waiting for monitor entry 的线程越来越多,没有减少的趋势,可能意味着某些线程在临界区里呆的时间太长了,以至于越来越多新线程迟迟无法进入临界区。那么当前谁持有这个锁呢?
2025-02-28 09:39:04
635
原创 .hive-staging_hive临时文件处理
通过spark-sql、hive-sql、hue等提交select或者insert overwrite等sql到hive时,会产生该目录,用于临时存放执行结果,比如insert overwrite会将结果暂存到该目录下,待任务结束,将结果复制到hive表中。hql任务执行失败时,这些临时文件和目录不会被自动删除掉,直到有相关的hql执行成功时,才会自动删掉。
2025-02-27 15:21:47
258
原创 Deepseek 组合使用场景学习
内容生成:用自然语言向 DeepSeek 描述需求(如「生成新能源汽车行业分析 PPT 大纲」),输出结构化内容框架。动态优化:输入指令调整排版(如「将数据图表替换为动态可视化」),AI 自动优化布局。迭代优化:基于反馈意见(如「增加金属质感」),DeepSeek 自动优化生成指令。事件识别:AI 分析摄像头/传感器数据,自动分类事件(如「交通拥堵/管道泄漏」)。计划生成:定制训练方案(如「增肌阶段:每周 4 次力量训练+蛋白质摄入建议」)。
2025-02-24 18:06:48
1315
原创 HMS 压力分流设置
datanucleus.connectionPool.maxPoolSize=10 默认值为10,改成50。javax.jdo.option.ConnectionPoolMaxSize 最大连接数 50。javax.jdo.option.ConnectionPoolMinSize 最小空闲连接 10。hive.metastore.cache.expiry.seconds 缓存过期时间 3600。hive.metastore.cache.enabled 设置 true。HMS 压力分流设置。
2025-02-17 11:55:15
169
原创 hivemetastore 连接过多导致sql查询慢
建议值100是根据与工行规模相当集群的设置作参考,尽量大满足连接数请求的同时考虑connection占用资源(如果connection太多会占用太多的内存资源)的角度做出的一个综合评估值。metastore在当前版本未加入负载均衡机制,会默认连接配置文件中的第一个IP所在节点的metastore实例,在连接数到达一定数量后会导致metastore连接数负载过高。在Hive服务参数中适当调整maxConnectionsPerPartition,默认为10,可适当调大,建议调整至25。不推荐调整至最大值。
2025-02-13 17:52:42
498
原创 Doris insert into 查不到数据问题解决
原因:insert commit事务待提交且该任务处于锁的状态,导致不断在回滚,进而造成其他的insert into 语句也执行成功,但是select不到写入的数据。问题:Doris insert into 正常执行成功但没有插入数据,select 查询可执行。2、会话窗执行变量配置,关闭 insert 事务。
2025-02-12 11:40:11
263
原创 Broker: Unknown topic or partition 问题解决
配置重试参数:在Kafka生产者的配置中,可以设置retries和retry.backoff.ms参数来启用重试机制。异常处理:在回调中对异常进行分类处理,对于可恢复的错误进行重试,对于不可恢复的错误进行日志记录或报警。错误处理:在处理消息时,对可能抛出的异常进行捕获和处理,根据异常类型决定是否重试。幂等性:确保生产者发送消息的逻辑是幂等的,即使消息被重复发送也不会影响系统状态。幂等性:确保消费者处理消息的逻辑是幂等的,即使消息被重复处理也不会影响系统状态。// 处理失败逻辑,消息将被重新消费。
2025-02-12 11:33:37
554
原创 HDFS does not have enough number of replicas 问题解决
修改:Cloudera Manager -> HDFS -> Configuration -> Enter hdfs-site.xml in search bar, add dfs.blockreport.incremental.intervalMsec = 300 in “HDFS Service Advanced Configuration Snippet (Safety Valve) for hdfs-site.xml”hdfs-site.xml -hdfs客户端高级配置代码段。
2025-02-11 15:22:34
372
原创 yarn application -list使用
Application状态过滤:yarn application -list -appStates (所有状态:ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED)
2025-02-10 15:55:09
87
原创 Hudi VS Doris 使用分析
数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化数据,可以按照原样存储数据,无需对数据进行结构化处理,并运行不同类型的分析对数据进行加工。定位 -面向数据湖的增量写入、更新与删除技术。Hudi通过表格式管理的能力,为数据湖提供ACID事务、时间旅行查询等特性。场景 -近实时抽数(大规模数据更新和删除的场景,增量管道,数据分发);近实时分析(实现数据的实时更新和查询)支持高并发数据查询;实时数据导入和查询。快速响应的交互式查询。hudi,大量并发查询消耗资源大。
2025-02-06 14:04:50
251
原创 spark Container killed by YARN for exceeding memory limits.问题处理
在处理大规模数据集或进行复杂计算时,可能需要增加memoryOverhead的值以确保足够的内存供各种运行时开销使用。默认情况下,memoryOverhead的计算方式是executor总内存(包括堆内存在内)的15%。这部分内存不直接用于存储或计算数据,而是用于执行器运行时的各种开销,如操作系统、库和其他必要的进程。是YARN资源管理器为每个executor分配的额外内存。// 减少 executor-cores 数。2、增加memoryOverhead的值。// 增大Executor 内存。
2025-02-05 17:22:45
605
原创 beyond the ‘PHYSICAL‘ memory limit.问题处理
2.增加虚拟内存的虚拟化比率,默认每个maptask和reudcetask虚拟化的内存比例是2.1,可适当调大(yarn-site.xml)。set mapred.max.split.size=134217728 设置切片信息大小成128Mb,这样一个块用1个task执行。3.配置yarn不内存检查(yarn-site.xml,重启集群),不建议-可能会造成内存泄露。1.增大map,reduce默认使用内存的配置大小。4.增加map和reduce的个数。4-2.增加reduce数量,
2025-02-05 14:54:13
372
原创 impala增加字段,hsql查不到数据
原因: impala和hive使用的元数据不一样,hive使用自身的存储的元数据,impala没有使用元数据,直接去hdfs获取的最新的表信息。impala增加字段,插入数据后直接查看文件有值,impala查询是有值的,但是hsq查出来就没有值!直接删除表、重新建表,将新增字段在建表里。
2025-01-21 15:38:36
288
原创 HDFS 根据 日期删除过期文件
hdfsdfs-ls/tmp/datax-hdfsplusreader|grep-E“^d”|awk‘{gsub(“-”,“”,$6)};{print$6""$8}’|awk-va=20250120‘$1<a{print$2}’|xargshdfsdfs-ls
2025-01-20 15:19:30
114
原创 hdfs du 统计以G为单位
hdfs dfs -du -s /user/hive/warehouse/ods_safety_analysis.db/ods_vpn_log | awk ‘{print $2/1024/1024/1024"G"}’
2025-01-17 16:11:34
108
原创 pycharm-pyspark 环境安装
3、选中项目,点击Pycharm->Settings…->点击 Project:xxx:->Project Structure。1、环境准备:java、scala、pyspark、python-anaconda、pycharm。写好pyspark脚本后,在运行python脚本之前,要配置下SPARK_HOME。5、conda 的env环境增加pyspark引用。4、配置SPARK_HOME。2、创建project。
2025-01-07 18:15:49
1521
原创 spark on hive 参数
定义了 Spark 作业中每个 stage 的默认 task 数量。Spark 官方建议的设置原则是,将spark.default.parallelism 设置为 num-executors * executor-cores 的 2 到 3 倍。–多个mapjoin转换为1个时,所有小表的文件大小总和的最大值。–小表的最大文件大小,默认为25000000,即25M。–是否将多个mapjoin合并为一个。–是否自动转换为mapjoin。
2025-01-07 11:37:44
415
原创 Hive sql执行文件合并配置参数
HIVE自动合并输出的小文件的主要优化手段为:HIVE将会启动一个独立的map-reduce任务进行输出文件的merge。当设置为true,orc文件进行stripe Level级别的合并,当设置为false,orc文件进行文件级别的合并。在Map-Reduce的任务结束时合并小文件,默认为False;当输出文件的平均大小小于16M时合并。在只有map的作业结束时合并小文件,合并后每个文件的大小,默认256M。
2025-01-07 08:04:48
425
原创 Doris 资源软硬限详解
如果设置为 false,则该资源组为内存硬隔离,系统检测到资源组内存使用超出限制后将立即 cancel 组内内存占用最大的若干个任务,以释放超出的内存;例如,用户创建了 3 个资源组 rg-a、rg-b 和 rg-c,cpu_share 分别为 10、30、40,某一时刻 rg-a 和 rg-b 正在跑任务,而 rg-c 没有任务,此时 rg-a 可获得 (10 / (10 + 30)) = 25% 的 cpu 资源,而资源组 rg-b 可获得 75% 的 cpu 资源。本地/远程IO:只有硬限。
2024-12-25 11:19:42
362
原创 parquet类型小文件合并
parquet类型小文件合并:./2024-7-26/0049b78b48b65d63-7ec94dbc00000028_383261519_data.0.parqhadoop jar ./parquet-tools-1.9.0.jar --helpWARNING: Use “yarn jar” to launch YARN applications.usage: parquet-tools cat [option…] where option is one of:–debug Enab
2024-12-20 14:36:35
436
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人