- 博客(9)
- 收藏
- 关注
原创 HDP集群运行spark报错:hdp/apps/None/spark
HDP中配置spark-defaults,该项为获取hdp版本函数:{{version}},依赖ambari Metrics插件。spark-defaults.conf中spark.yarn.archive配置未指向正确hdfs路径。部署spark时ambari Metrics插件状态异常,未能成功获取HDP的version。依次重启ambari Metrics、spark。
2025-07-02 09:58:20
91
原创 MySQL Keepalived 高可用架构,主节点(Master)宕机
:通过 Keepalived 实现 VIP 漂移保障写操作连续性,结合半同步复制、GTID 和自动化脚本确保数据一致性。生产环境中建议采用 。
2025-06-04 10:57:55
470
原创 HUDI-update报错Null-value for required field:***
一、抛出问题环境:aws EMR s3hudi-0.10.1spark-3.1.2hive-3.1.2hadoop-3.2.1错误日志Caused by: org.apache.hudi.exception.HoodieUpsertException: Failed to merge old record into new file for key cat_id:201225781 from old file s3://...parquet to new file s3://...p
2022-05-08 07:58:15
1747
原创 pyspark多线程DF写Hive,出现重复数据及解决办法
背景: 数据中某字段A需要进行转换,批次拉取后进行行处理 为提高效率,将大批次分为10个小批次,分线程处理read_df = hive_context.sql(hivesql)allrows = read_df.collect()#此处将大批次分为10个小批次,分线程处理temp_list = list_of_groups(allrows, 10) # step3 line handel threads = [] for i in ra...
2021-12-01 16:51:41
1474
原创 Hudi的insert
一、概要:先看原文吧,Hudi官方公众号推出的‘数据更快导入Hudi’。略有受益,感到有必要做个总结。如何将数据更快导入Apache Hudi?文章围绕的对象是bulk_insert: 其中包含三种原生模式和支持自定义拓展模式。二、配置:hoodie.bulkinsert.sort.mode--可配:NONE、GLOBAL_SORT、PARTITION_SORT--默认:GLOBAL_SORT三、模式:3.1GLOBAL_SORT(全局排序):...
2021-09-26 13:13:07
1836
原创 kafka message size
一:异常信息21/09/23 10:39:46 ERROR internals.ErrorLoggingCallback: Error when sending message to topic ad_source_mob_prtsc with key: null, value: 5242233 bytes with error:org.apache.kafka.common.errors.RecordTooLargeException: The message is 5242321 bytes w
2021-09-25 16:04:37
407
原创 记flume发往kafka的一次配置
1.配置flume-conf.propertiesbuttery.sources = buttSourcebuttery.channels = buttChannel# sourcebuttery.sources.buttSource.type = spooldirbuttery.sources.buttSource.spoolDir = /home/flume/inputbuttery.sources.buttSource.deserializer = LINEbuttery.sour
2021-09-03 14:13:49
248
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人