- 博客(11)
- 收藏
- 关注
原创 Elasticsearch非keyword字段转keyword方法
"type": "keyword" # 或者保持 text 并添加 keyword 子字段。如果所有查询都需要精确匹配,重建索引改为 keyword 类型。# 2. 使用 reindex API 迁移数据。:text 字段自动添加 keyword 子字段。如果同时需要全文搜索和精确匹配,使用多字段类型。# 1. 创建新索引,定义正确的映射。:使用索引模板确保新索引有正确的映射。# 3. 使用别名无缝切换(可选):根据查询需求提前定义好字段类型。如果只是偶尔需要精确匹配,使用。
2026-01-07 23:32:46
663
原创 Elasticsearch删除索引字段方法总结
根据你的数据量、业务需求和停机时间要求,选择最合适的方法。对于生产环境,通常推荐使用重建索引+别名切换的方案。"type": null // 设置为 null 来删除映射。这是最安全、最常用的方法,因为 ES 不支持直接删除字段。// 2. 使用 Reindex API 迁移数据。// 可以在这里移除字段或转换数据。// 1. 创建新索引,定义不含该字段的映射。// 3. 删除旧索引,使用别名切换(可选)// 新映射,不包含要删除的字段。// 不包含要删除的字段。# 1. 使用索引别名,实现零停机。
2026-01-07 23:31:09
609
原创 大数据平台JDK升级方案
JDK 8仍是主流但持续下降,主要存在于遗留系统JDK 11是当前最稳妥的升级目标,生态成熟JDK 17是未来的标准,增长迅速,适合新项目JDK 21开始受到关注,适合技术前沿团队。
2026-01-05 23:06:20
679
原创 spark sql 窗口和补全有哪些功能
分区与排序OVER(PARTITION BY col1, col2 -- 按列分组ORDER BY time_col DESC -- 组内排序[窗口框架] -- 定义行范围窗口框架(Frame)-- 行范围-- 值范围(需要ORDER BY)
2026-01-05 23:06:04
656
原创 spark各个版本的特性差异
通过版本迭代,Spark 从以 RDD 为中心的计算引擎演变为以结构化 API 和自适应优化为核心的统一分析平台,同时深度集成云原生和 AI 生态。:初步支持 Spark SQL(前身为 Shark)、Spark Streaming(微批处理)和 MLlib。:优先使用 Structured Streaming(Spark 2.x+),避免旧版 DStream。API(类似 Pandas),支持优化器 Catalyst 和 Tungsten 执行引擎。:启用 AQE(Spark 3.0+)和动态分区裁剪。
2026-01-04 22:30:14
596
原创 spark如何集成向量计算加速框架
yield (i, np.random.random(128).tolist()) # 128维向量。Spark 的向量计算加速正在快速发展,特别是随着硬件加速器和专用向量计算库的普及,未来将有更多原生集成方案。buffer(0) = Array.fill(128)(0.0) // 初始化向量。:使用 Spark UI 监控 GPU 利用率、内存使用等指标。:Parquet/ORC 文件的向量化读取。// Scala示例:自定义向量化聚合函数。# 使用numpy进行向量化计算。
2026-01-04 22:28:25
957
原创 flink持久化状态类新增成员属性后升级,老任务无法启动,报序列化错误或者序列化时堆栈内存溢出
Flink状态序列化问题的分析与解决方案 摘要:本文分析了Flink状态序列化问题的根本原因,主要在于状态类结构变更导致新旧序列化器不兼容。解决方案分为两类:1)紧急恢复方案,通过--allowNonRestoredState参数快速恢复服务,但会丢失状态数据;2)正确升级方案,包括使用POJO序列化规则、自定义TypeSerializer或采用Avro/Protobuf等支持Schema演化的框架。建议优先采用POJO+默认值方案进行修复,新项目推荐使用Avro/Protobuf定义状态类。任何状态变更都
2026-01-03 13:04:16
624
原创 国产化工业级服务器成本组成
国产工业级服务器成本结构主要分为四部分:硬件(60%-75%,含CPU、GPU等核心组件)、软件系统(15%-25%)、研发定制(10%-20%)和生产运维(5%-10%)。成本受规模效应、技术成熟度、行业需求及政策补贴影响,国产芯片成本可能比进口高10%-20%,但批量采购和政策补贴可显著降低成本。随着国产化率提高,软件和适配成本可能阶段性上升,但长期硬件成本将随生态完善逐步下降。典型案例显示,基础工业服务器硬件成本占比约70%,其中国产CPU占25%。
2026-01-03 13:03:02
218
原创 系统可用性指标99.9% 测试包含哪些内容
本文系统阐述了如何通过全面测试确保系统达到99.9%可用性目标。主要内容包括:核心可用性测试、容错与灾难恢复测试、负载压力测试、混沌工程测试、持续稳定性测试、配置部署测试以及安全韧性测试等七大维度。测试重点在于验证系统在部件失效时的表现、恢复能力、极限压力下的稳定性以及变更安全性。文章强调测试需贯穿系统全生命周期,通过自动化、常态化执行来持续验证各项指标,包括错误率、响应时间、资源利用率等关键指标,最终确保系统在高负载和异常情况下仍能保持稳定运行。
2026-01-02 21:11:19
976
原创 pycharm flask debug 本地IP+端口无法本机访问,什么原因
pycharm本地调试flask应用,IP+端口无法访问。本质是Debug状态,app.run host='0.0.0.0'未生效,需要修改IDE配置
2026-01-02 21:01:52
1009
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅