ZL_bigdata-优快云博客

原创 HDP集群运行spark报错：hdp/apps/None/spark

HDP中配置spark-defaults，该项为获取hdp版本函数：{{version}}，依赖ambari Metrics插件。spark-defaults.conf中spark.yarn.archive配置未指向正确hdfs路径。部署spark时ambari Metrics插件状态异常，未能成功获取HDP的version。依次重启ambari Metrics、spark。

2025-07-02 09:58:20 91

原创 MySQL Keepalived 高可用架构，主节点（Master）宕机

：通过 Keepalived 实现 VIP 漂移保障写操作连续性，结合半同步复制、GTID 和自动化脚本确保数据一致性。生产环境中建议采用。

2025-06-04 10:57:55 470

原创 Hudi--mor表 VS cow表

hudi实践

2022-06-14 20:01:11 2559

原创 HUDI-update报错Null-value for required field:***

一、抛出问题环境：aws EMR s3hudi-0.10.1spark-3.1.2hive-3.1.2hadoop-3.2.1错误日志Caused by: org.apache.hudi.exception.HoodieUpsertException: Failed to merge old record into new file for key cat_id:201225781 from old file s3://...parquet to new file s3://...p

2022-05-08 07:58:15 1747

原创 pyspark多线程DF写Hive，出现重复数据及解决办法

背景：数据中某字段A需要进行转换，批次拉取后进行行处理为提高效率，将大批次分为10个小批次，分线程处理read_df = hive_context.sql(hivesql)allrows = read_df.collect()#此处将大批次分为10个小批次，分线程处理temp_list = list_of_groups(allrows, 10) # step3 line handel threads = [] for i in ra...

2021-12-01 16:51:41 1474

原创 Hudi的insert

一、概要：先看原文吧，Hudi官方公众号推出的‘数据更快导入Hudi’。略有受益，感到有必要做个总结。如何将数据更快导入Apache Hudi？文章围绕的对象是bulk_insert: 其中包含三种原生模式和支持自定义拓展模式。二、配置：hoodie.bulkinsert.sort.mode--可配：NONE、GLOBAL_SORT、PARTITION_SORT--默认：GLOBAL_SORT三、模式：3.1GLOBAL_SORT（全局排序）：...

2021-09-26 13:13:07 1836

原创 kafka message size

一：异常信息21/09/23 10:39:46 ERROR internals.ErrorLoggingCallback: Error when sending message to topic ad_source_mob_prtsc with key: null, value: 5242233 bytes with error:org.apache.kafka.common.errors.RecordTooLargeException: The message is 5242321 bytes w

2021-09-25 16:04:37 407