自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 HDP集群运行spark报错:hdp/apps/None/spark

HDP中配置spark-defaults,该项为获取hdp版本函数:{{version}},依赖ambari Metrics插件。spark-defaults.conf中spark.yarn.archive配置未指向正确hdfs路径。部署spark时ambari Metrics插件状态异常,未能成功获取HDP的version。依次重启ambari Metrics、spark。

2025-07-02 09:58:20 91

原创 MySQL Keepalived 高可用架构,主节点(Master)宕机

​:通过 Keepalived 实现 VIP 漂移保障写操作连续性,结合半同步复制、GTID 和自动化脚本确保数据一致性。生产环境中建议采用 ​。

2025-06-04 10:57:55 470

原创 Hudi--mor表 VS cow表

hudi实践

2022-06-14 20:01:11 2559

原创 HUDI-update报错Null-value for required field:***

一、抛出问题环境:aws EMR s3hudi-0.10.1spark-3.1.2hive-3.1.2hadoop-3.2.1错误日志Caused by: org.apache.hudi.exception.HoodieUpsertException: Failed to merge old record into new file for key cat_id:201225781 from old file s3://...parquet to new file s3://...p

2022-05-08 07:58:15 1747

原创 pyspark多线程DF写Hive,出现重复数据及解决办法

背景: 数据中某字段A需要进行转换,批次拉取后进行行处理 为提高效率,将大批次分为10个小批次,分线程处理read_df = hive_context.sql(hivesql)allrows = read_df.collect()#此处将大批次分为10个小批次,分线程处理temp_list = list_of_groups(allrows, 10) # step3 line handel threads = [] for i in ra...

2021-12-01 16:51:41 1474

原创 Hudi的insert

一、概要:先看原文吧,Hudi官方公众号推出的‘数据更快导入Hudi’。略有受益,感到有必要做个总结。如何将数据更快导入Apache Hudi?文章围绕的对象是bulk_insert: 其中包含三种原生模式和支持自定义拓展模式。二、配置:hoodie.bulkinsert.sort.mode--可配:NONE、GLOBAL_SORT、PARTITION_SORT--默认:GLOBAL_SORT三、模式:3.1GLOBAL_SORT(全局排序):...

2021-09-26 13:13:07 1836

原创 kafka message size

一:异常信息21/09/23 10:39:46 ERROR internals.ErrorLoggingCallback: Error when sending message to topic ad_source_mob_prtsc with key: null, value: 5242233 bytes with error:org.apache.kafka.common.errors.RecordTooLargeException: The message is 5242321 bytes w

2021-09-25 16:04:37 407

原创 记flume发往kafka的一次配置

1.配置flume-conf.propertiesbuttery.sources = buttSourcebuttery.channels = buttChannel# sourcebuttery.sources.buttSource.type = spooldirbuttery.sources.buttSource.spoolDir = /home/flume/inputbuttery.sources.buttSource.deserializer = LINEbuttery.sour

2021-09-03 14:13:49 248

原创 CentOS-8环境ifconfig时ens失踪

1.保证NetworkManager开启2.nmcli n on

2021-09-01 15:41:51 214

项目管理的十大知识领域与五大过程逻辑

粒度细化到知识域中每个过程的输入和输出项

2023-05-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除