自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 spark plugin机制及使用场景

/ 设置自定义Shuffle管理器null。

2026-01-08 23:20:04 420

原创 Elasticsearch非keyword字段转keyword方法

"type": "keyword" # 或者保持 text 并添加 keyword 子字段。如果所有查询都需要精确匹配,重建索引改为 keyword 类型。# 2. 使用 reindex API 迁移数据。:text 字段自动添加 keyword 子字段。如果同时需要全文搜索和精确匹配,使用多字段类型。# 1. 创建新索引,定义正确的映射。:使用索引模板确保新索引有正确的映射。# 3. 使用别名无缝切换(可选):根据查询需求提前定义好字段类型。如果只是偶尔需要精确匹配,使用。

2026-01-07 23:32:46 663

原创 Elasticsearch删除索引字段方法总结

根据你的数据量、业务需求和停机时间要求,选择最合适的方法。对于生产环境,通常推荐使用重建索引+别名切换的方案。"type": null // 设置为 null 来删除映射。这是最安全、最常用的方法,因为 ES 不支持直接删除字段。// 2. 使用 Reindex API 迁移数据。// 可以在这里移除字段或转换数据。// 1. 创建新索引,定义不含该字段的映射。// 3. 删除旧索引,使用别名切换(可选)// 新映射,不包含要删除的字段。// 不包含要删除的字段。# 1. 使用索引别名,实现零停机。

2026-01-07 23:31:09 609

原创 大数据平台JDK升级方案

JDK 8仍是主流但持续下降,主要存在于遗留系统JDK 11是当前最稳妥的升级目标,生态成熟JDK 17是未来的标准,增长迅速,适合新项目JDK 21开始受到关注,适合技术前沿团队。

2026-01-05 23:06:20 679

原创 spark sql 窗口和补全有哪些功能

分区与排序OVER(PARTITION BY col1, col2 -- 按列分组ORDER BY time_col DESC -- 组内排序[窗口框架] -- 定义行范围窗口框架(Frame)-- 行范围-- 值范围(需要ORDER BY)

2026-01-05 23:06:04 656

原创 spark各个版本的特性差异

通过版本迭代,Spark 从以 RDD 为中心的计算引擎演变为以结构化 API 和自适应优化为核心的统一分析平台,同时深度集成云原生和 AI 生态。:初步支持 Spark SQL(前身为 Shark)、Spark Streaming(微批处理)和 MLlib。:优先使用 Structured Streaming(Spark 2.x+),避免旧版 DStream。API(类似 Pandas),支持优化器 Catalyst 和 Tungsten 执行引擎。:启用 AQE(Spark 3.0+)和动态分区裁剪。

2026-01-04 22:30:14 596

原创 spark如何集成向量计算加速框架

yield (i, np.random.random(128).tolist()) # 128维向量。Spark 的向量计算加速正在快速发展,特别是随着硬件加速器和专用向量计算库的普及,未来将有更多原生集成方案。buffer(0) = Array.fill(128)(0.0) // 初始化向量。:使用 Spark UI 监控 GPU 利用率、内存使用等指标。:Parquet/ORC 文件的向量化读取。// Scala示例:自定义向量化聚合函数。# 使用numpy进行向量化计算。

2026-01-04 22:28:25 957

原创 flink持久化状态类新增成员属性后升级,老任务无法启动,报序列化错误或者序列化时堆栈内存溢出

Flink状态序列化问题的分析与解决方案 摘要:本文分析了Flink状态序列化问题的根本原因,主要在于状态类结构变更导致新旧序列化器不兼容。解决方案分为两类:1)紧急恢复方案,通过--allowNonRestoredState参数快速恢复服务,但会丢失状态数据;2)正确升级方案,包括使用POJO序列化规则、自定义TypeSerializer或采用Avro/Protobuf等支持Schema演化的框架。建议优先采用POJO+默认值方案进行修复,新项目推荐使用Avro/Protobuf定义状态类。任何状态变更都

2026-01-03 13:04:16 624

原创 国产化工业级服务器成本组成

国产工业级服务器成本结构主要分为四部分:硬件(60%-75%,含CPU、GPU等核心组件)、软件系统(15%-25%)、研发定制(10%-20%)和生产运维(5%-10%)。成本受规模效应、技术成熟度、行业需求及政策补贴影响,国产芯片成本可能比进口高10%-20%,但批量采购和政策补贴可显著降低成本。随着国产化率提高,软件和适配成本可能阶段性上升,但长期硬件成本将随生态完善逐步下降。典型案例显示,基础工业服务器硬件成本占比约70%,其中国产CPU占25%。

2026-01-03 13:03:02 218

原创 系统可用性指标99.9% 测试包含哪些内容

本文系统阐述了如何通过全面测试确保系统达到99.9%可用性目标。主要内容包括:核心可用性测试、容错与灾难恢复测试、负载压力测试、混沌工程测试、持续稳定性测试、配置部署测试以及安全韧性测试等七大维度。测试重点在于验证系统在部件失效时的表现、恢复能力、极限压力下的稳定性以及变更安全性。文章强调测试需贯穿系统全生命周期,通过自动化、常态化执行来持续验证各项指标,包括错误率、响应时间、资源利用率等关键指标,最终确保系统在高负载和异常情况下仍能保持稳定运行。

2026-01-02 21:11:19 976

原创 pycharm flask debug 本地IP+端口无法本机访问,什么原因

pycharm本地调试flask应用,IP+端口无法访问。本质是Debug状态,app.run host='0.0.0.0'未生效,需要修改IDE配置

2026-01-02 21:01:52 1009

照片自动添加拍照日期工具

适用于拍照后在照片图像上添加拍照日期,方便识别拍照日期

2026-01-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除