自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(320)
  • 资源 (1)
  • 收藏
  • 关注

原创 Phoenix+Hbase和Doris两个方案如何选择,能不能拿Doris完全替代Phoenix+Hbase?有什么难点?

Doris 无法完全替代 Phoenix+HBase,核心瓶颈在高并发随机读写、超大规模存储扩展性和 HBase 特有特性的支持上。选型需紧扣业务的 “读写模式”“数据规模” 和 “生态依赖”,避免因技术偏好忽视场景匹配度。

2025-11-11 11:24:34 1237 1

原创 什么情况下org common会内嵌到org hadoop的package下面,比如:org/apache/hadoop/org/apache/commons/StringUtils.class

org/common(即Apache Commons库)内嵌到org/hadoop的包下,主要是Hadoop项目为了依赖隔离和避免冲突而采取的阴影化技术所致。这是一种常见的最佳实践,确保Hadoop在分布式环境中稳定运行。如果你在开发或使用Hadoop时遇到类加载问题,理解这一点有助于调试依赖冲突。

2025-11-05 15:54:46 335

原创 org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl | Unexpected error starting NodeStat

恢复功能异常是可能导致 NodeStatusUpdater 启动失败的原因之一,核心在于恢复过程中的状态加载或 IO 操作异常会阻断 NodeManager 整体初始化流程。通过临时禁用恢复功能、检查状态文件和目录状态,可快速验证并定位问题。

2025-11-05 11:30:21 760

原创 我有4篇PPT转PDF的文件,我想从这4个文件中提取大数据平台、数据中台、数据安全相关的内容,并根据这些内容规划出2026年可以建设和升级的功能,如何给大模型提问

要让大模型(如ChatGPT、Kimi、文心一言等)高效地完成这个任务,关键在于结构化、分步骤的提问,避免一次性抛出一个过于复杂和模糊的指令。

2025-10-31 14:15:03 799

原创 为什么分布式数据库主键自增不是连续的

分布式数据库的核心诉求是高可用、高并发、无冲突要保证连续,必须让所有节点共享一个“强一致计数器”,但会导致性能瓶颈(所有写入排队)和单点故障风险;要保证高可用和高并发,必须采用“预分配”“随机生成”等机制,而这些机制必然导致ID不连续。因此,在分布式场景中,“非连续自增ID”是技术权衡后的必然结果,实际业务中通常通过“业务字段补全排序”(如用创建时间排序)替代“ID连续排序”,而非强求ID本身连续。

2025-10-29 10:47:35 670

翻译 《在性能优化时,如何避免盲人摸象》文章总结

性能优化的核心是“避免以偏概全”:需建立全局视角(从终端到数据库的全链路)、夯实基础(延迟基准、技术原理)、善用工具(火焰图、抓包、监控)、聚焦价值(优先解决影响用户体验与稳定性的问题)。

2025-10-29 10:30:03 21

原创 把子查询放在 SELECT列表里、FROM子句里 (作为派生表) 或 WHERE子句里 (用于过滤) 的区别?

需为结果集添加 “行级计算列” 时,用 SELECT 列表中的子查询(注意性能)。需对数据先做聚合、过滤再关联时,用 FROM 子句的派生表(逻辑更清晰)。需基于其他表的数据筛选主查询行时,用 WHERE 子句的子查询(灵活处理条件)。

2025-10-24 09:53:53 868

原创 聚合函数条件写在 WHERE后面和 HAVING子句的区别?

WHERE:分组前过滤行,不支持聚合函数,用于筛选原始记录。HAVING:分组后过滤组,支持聚合函数,用于筛选分组后的聚合结果。两者可配合使用:WHERE 先缩小数据范围,HAVING 再筛选分组结果,提高效率。

2025-10-24 09:19:26 396

原创 Doris什么情况下统计表信息不准确,需要手动ANALYZE

用于收集统计信息。可以针对表(可以指定具体列)或整个数据库进行列统计信息的收集。

2025-10-23 14:08:55 794

原创 Doris大小表关联查询,什么时候broadcast会失效

Broadcast Join 的过程涉及将右表的所有数据发送到所有参与 Join 计算的节点,包括左表数据的扫描节点,而左表数据则保持不动。这一过程中,每个节点都会接收到右表的完整数据副本(总量为 T(R) 的数据),以确保所有节点都具备执行 Join 操作所需的数据。

2025-10-23 14:03:42 684

原创 join 条件写到on后面和写到where后面的区别

子查询过滤:右表提前 “瘦身”,只留符合条件的行参与关联;ON 子句过滤:关联时挑剔匹配,但右表所有行都能 “露脸”;WHERE 子句过滤:关联后 “一刀切”,只留右表 u_name 为空的行。

2025-10-21 01:00:00 1785

原创 Doris报错:child of in predicate should be value

在某些场景下,用户需要关联多张表才能精确确定要删除的数据,这种情况下 USING 子句非常有用

2025-10-20 14:37:33 544

原创 说说使用AI或者大模型主动分析大数据组件的warn和error日志有什么价值

传统日志分析是 “日志产生→人工排查→故障修复” 的被动流程,而 AI / 大模型构建了 “日志实时采集→AI 降噪 / 关联 / 预测→主动告警 / 自动预处理→故障根因定位→业务影响评估→解决方案推荐→案例沉淀迭代” 的主动闭环。其最终价值不仅是 “提高运维效率”,更是通过 “预防故障、减少中断、优化资源”,为大数据驱动的业务(如实时推荐、数据分析、AI 训练)提供稳定、可靠的底层支撑,间接提升业务竞争力。

2025-10-20 09:25:45 859

原创 Doris报错:failed to send brpc when exchange

Doris 中出现 “failed to send brpc when exchange” 错误,通常与 Doris 的分布式执行框架中 BRPC 通信异常相关,主要发生在查询执行过程中不同节点(FE/BE 或 BE 之间)通过 Exchange 算子传递数据时。

2025-10-17 15:14:42 890

原创 Doris base compaction 一直很高导致be节点的io使用率也很高

Doris Base Compaction 与 BE 节点 IO 使用率高,核心原因是 Compaction 任务本身需大量读写数据,当任务触发频繁、资源配置不合理或数据特征特殊时,IO 资源会被持续占用。

2025-10-17 11:01:26 920

原创 记一次解决Hive locks

解决hive locks

2025-09-16 13:38:28 859

原创 Linux cgroup v1 和v2区别,Doris 该使用哪个版本

Doris Workload Group 以 软限制为基础,通过资源竞争时的硬限制保障隔离性,兼顾了资源利用率和查询稳定性,与 YARN 弹性调度的设计理念相通,但实现细节更贴合 OLAP 场景的查询特性。

2025-09-01 13:46:04 1221

原创 作为一名大数据架构师或者技术经理,在Oracle迁移Apache Doris过程中需要着重关注哪些要点

Oracle迁移Apache Doris的核心是“适配为先、数据为核、性能为目标、运维为保障”——需先明确业务与Doris的适配性,再通过严谨的数据迁移与SQL改造保障业务连续性,最后通过监控与预案确保长期稳定。

2025-09-01 10:06:51 1240

原创 如何在实际应用中选择Blaze或Apache Gluten?

Blaze和Apache Gluten都是基于Spark插件机制实现的Native执行引擎,通过将Spark物理执行计划转换为中间格式,交由后端Native引擎执行。Blaze基于Rust和DataFusion开发,Gluten基于C++和Velox/ClickHouse开发,各有技术特点。

2025-08-29 18:00:24 1183

原创 tez的dag和spark的dag有什么区别

Tez 的 DAG 是 “为 SQL 批处理优化的静态管道”,Spark 的 DAG 是 “为多场景设计的动态内存计算流”,两者分别在各自的领域(大规模批处理 SQL vs 多模态计算)展现优势。

2025-08-29 00:15:00 1033

原创 hive on tez如果是2个大表union会写几次临时文件到hdfs目录,数据量如何计算

UNION(去重):4 次临时文件写入,总数据量约3*(A + B) - C;实际数据量需结合压缩、过滤、重复率等因素调整,核心是 “每个 Stage 的输出都会产生临时文件”。

2025-08-28 16:20:44 1052

原创 hive on tez为什么写表时,要写临时文件到hdfs目录

Hive on Tez写表时使用HDFS临时目录,并非“额外步骤”,而是分布式计算场景下保障数据可靠性、计算高效性的必然设计。

2025-08-28 16:17:15 854

原创 记二次hdfs集群缓慢问题核查:dfs.namenode.handler.count高

业务侧使用hive进行数据ETL,原始数据每天有很多小文件(kb级别),业务同时处理2天的数据,大概60W+文件,加上hive insert overwrite 中写tmp的逻辑,会导致写hdfs目录操作数翻一倍(120万),直接把`hdfs namenode dfs.namenode.handler.count`这个参数打满,hdfs 元数据夯死,整个hive任务陷入死循环,task不停失败,不停重试,不停写hdfs。

2025-08-26 14:48:43 919

原创 id_rsa open ssh private key和rsa private key区别:Caused by: invalid privatekey:[B***

将 OpenSSH 格式私钥转换为 PKCS#1 标准格式,确保 Java 工具能正确解析

2025-08-14 15:31:20 958

原创 Spark在什么情况下CBO才会判断失误,如何避免

CBO 判断失误的核心原因是“统计信息不可靠”或“数据特性超出建模能力”。通过定期更新统计信息用 Hint 干预关键计划处理数据倾斜和简化复杂查询,可大幅减少失误概率。实际应用中,需结合 Spark UI 监控和执行计划分析,持续优化统计信息和查询逻辑,让 CBO 更好地发挥作用。

2025-08-08 15:15:02 908

原创 生产环境Tomcat运行一段时间后,如何测试其性能是否满足后续使用

全面评估 Tomcat 的性能现状,定位潜在问题,确保其能支撑后续业务增长。

2025-08-08 09:54:10 860

原创 数据库RBO-基于规则的优化器,常见优化策略

RBO基于规则的优化器

2025-07-31 17:45:53 1058

原创 Sort Merge Join为什么是Spark中最优的join

Sort Merge Join 通过 “先分区(聚合同 Key)→ 再排序(整理顺序)→ 最后合并(线性匹配)” 的流程,将分布式环境下的大表连接转化为可并行的局部有序数据匹配,在内存有限、数据量大的场景中展现出远超 Hash Join 或 Broadcast Join 的稳定性和效率,因此成为 Spark 等框架处理大表连接的首选策略。

2025-07-31 14:24:23 1200

原创 第一层nginx访问url如何透传到第二层nginx

实现第一层 Nginx 到第二层 Nginx 的 URL 完整透传,适用于需要多级代理且保留原始请求路径的场景。

2025-07-23 15:12:23 1142

原创 如何解决flink job有101个task,已完成100个,还有1个还在运行,但是已完成的100个task对应taskmanager不释放问题

显著提升 Flink 集群的资源利用率,避免因少数 Task 阻塞导致的资源浪费。

2025-07-18 19:33:54 772

原创 如何解决一个flink on yarn集群上已经跑了一个job,再提交第二个job的时候,task报java heap size oom的问题

先通过YARN UI确认集群剩余资源,判断是“资源不足”还是“配置不合理”;若资源不足:降低现有Job的并行度/内存配置,或隔离队列;若配置不合理:调整TaskManager堆内存参数(如长期解决:扩容YARN集群资源,或优化Job代码避免内存浪费。通过以上步骤,可逐步定位并解决“第二个Job提交时Task OOM”的问题。核心原则是“让资源分配与实际需求匹配”,避免过度占用或配置不足。

2025-07-18 19:32:38 768

原创 flink sql读hive catalog数据,将string类型的时间戳数据排序后写入kafka,如何保障写入kafka的数据是有序的

实现从 Hive 到 Kafka 的有序数据传输。

2025-07-16 17:03:06 757

原创 flink sql如何对hive string类型的时间戳进行排序

通过先转换时间类型再排序,可有效解决 Hive 字符串时间戳的排序问题。注意根据实际格式选择正确的转换函数,并结合执行模式优化性能。

2025-07-16 16:53:44 587

原创 fuser

通过该命令,可快速定位端口占用问题,是 Linux 系统运维中的常用工具。

2025-07-10 16:31:48 246

原创 Doris的数据类型json和variant区别

如果数据严格符合 JSON 格式且需要复杂查询,选 JSON;如果数据类型多样或结构多变,选 Variant。

2025-07-08 16:00:29 886

原创 YARN container cpu超核如何解决

解决 YARN Container CPU 超核问题,提升集群稳定性和资源利用率

2025-07-07 19:47:32 434

原创 Linux中程序的limits中的Max open files的配置由哪些参数决定

有效提升系统允许的最大文件打开数,避免 "Too many open files" 错误。

2025-07-07 15:44:01 659

原创 成为一名大数据平台SRE需要具备哪些专业SRE技能-概念

可量化、匹配业务优先级、基于用户体验、动态调整。

2025-07-02 16:27:41 969

原创 在已有生产环境的主机上,安装docker需要注意什么

在生产环境主机上安装 Docker 需谨慎,避免影响现有服务。通过以上步骤,可确保 Docker 在生产环境中安全、稳定运行,同时避免对现有服务造成影响。

2025-07-02 15:45:20 1250

原创 成为一名大数据平台SRE需要具备哪些技能?

领域核心技能大数据平台Hadoop/HDFS/YARN、Spark/Flink、Hive/HBase、Kafka、数据湖SRE方法论SLO/SLA、自动化运维、混沌工程、故障排查、容量规划编程Python/Shell/Java、SQL、分布式计算框架开发系统基础Linux、网络协议、分布式系统理论软技能跨团队协作、文档编写、技术方案设计通过技术深度(如精通Flink原理)工程实践(如落地自动化监控系统)方法论(如SLO驱动的可靠性提升)

2025-07-01 19:57:56 1398

Linux常用命令以及使用样例.pdf

# 替换所有行的内容: :%s/from/to/g :%s/from/to/g : 对所有行的内容进行替换。 # 关闭防火墙 service iptables stop # 查看目录下有多少个文件 find -type -f|wc -l # 平均负载过高

2020-06-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除