自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(262)
  • 收藏
  • 关注

转载 从大模型性能优化到DeepSeek部署

目录一、背景二、高性能、易扩展的大模型推理框架是什么样的 1.大模型推理框架需要满足的基本条件 2.大模型推理框架设计三、解决显存碎片问题,大幅提升吞吐—Paged Attention四、缓存之前请求的计算结果,减少重复计算—Radix Attention五、请求分块处理,避免单个请求卡顿 —— Chunked Prefill六、缩短输出长度,显著提升性能七、使用多卡推理,推理速度翻倍...

2025-02-22 18:30:54 90

转载 得物新一代可观测性架构:海量数据下的存算分离设计与实践

目录一、引言二、Kafka的演进:AutoMQ存算分离的创新与实现 1. Apache Kafka在大规模数据下的挑战 2. 为什么选择AutoMQ 3. AutoMQ落地效果:千核资源替换,成本下降50%三、ClickHouse的进化:存算分离架构的实践与应用 1. 背景 2. ClickHouse企业版介绍 3. 落地实践与优化四、总结五、引用一引言得物作为...

2025-01-12 11:15:47 795

转载 基于RocksDB编写一个简单的SQL数据库

目录一、前言二、什么是RocksDB三、什么是Zig语言四、项目结构五、实现解析 1.RocksDB Layer 2.Lexer 3. AST 4.Parser 5.Table to KV 6.Storage 7.Executer 8.All In One六、总结一前言数据库DBMS是当前互联网开发者最熟悉的基础设施之一,很多后端开发者...

2024-12-18 20:07:27 53

转载 基于Redis内核的热key统计实现方案

目录一、Redis热key介绍二、Redis热key常见探测方法 1. Redis-cli的hotkeys参数 2. monitor命令统计 3.Redis节点抓包分析 4. Client/Proxy端收集三、基于Redis内核的热key统计 1. 实现原理简介 2. 实现流程图 3. 热key统计 4. 热key通知 5. 热key记录查询...

2024-11-25 21:53:49 88

转载 性能剖析利器-Conan|得物技术

目录一、背景 1. 局限性 2. 向前一步二、原理剖析 1. 系统架构 2. 工作模式 3.reporter三、稳定性验证四、案例分析五、写在最后一背景线上问题的定位与优化是程序员进阶的必经之路,常见的问题定位手段有日志排查、分布式链路追踪和性能分析等,其中日志排查主要用来定位业务逻辑问题,分布式链路主要用来定位请求链路中具体是哪个环节出了问题,而如果服务本身的性能...

2024-10-19 10:12:55 98

转载 基于MySQL内核的SQL限流设计与实现

目录一、引言1. 编写目的2. 需求概述3. 软件结构4. 参考资料二、概要设计1. 架构设计2. 流程图三、详细设计1. 功能设计2. 性能设计3. 功能限制四、总结一引言编写目的本文详细描述了SQL限流特性的需求设计方案以及使用方式,开发、测试人员可根据本文实现功能的开发、测试,DBA可根据本文合理使用SQL限流功能。需...

2024-09-17 20:50:42 341

转载 解密JVM崩溃(Crash):如何通过日志分析揭开神秘面纱

目录一、前言二、什么是崩溃?三、一个例子四、崩溃日志详解1. 文件路径2. 信息摘要五、core文件 1. 问题调用栈 2. 帧快照 3. 汇编源码还原 4. 内存映射六、一些经验 1. 虚拟机崩溃的原因分类 2. 留意JNI 3. 敢于怀疑七、写在最后一前言当使用Java来构建一个复杂的软件系统时,系统偶发性崩溃(也会被称为Crash)...

2024-09-03 22:02:49 1426

转载 实战从零开始实现Raft

目录一、前言二、核心概念1. 日志复制状态机2. Leader、Follower、Candidate三、Why Elixir四、选主实现1. 任期(Term)2. 选举计时(Election Timer)3. 消息类型4. 状态机框架5. 选举计时6. 拉票7. 处理拉票消息8. 计票五、Leader的工作六、日志复制...

2024-08-10 11:21:47 151

转载 基于Netty的自研流系统缓存实现挑战: 内存碎片与OOM困境

01前言Kafka 作为流处理平台,在实时流计算和在线业务场景,追尾读追求端到端低延迟。在离线批处理和削峰填谷场景,数据冷读追求高吞吐。两个场景都需要很好的数据缓存设计来支撑,Apache Kafka 的数据存储在本地文件,通过 mmap 将文件映射到内存中访问,天然就可以依托操作系统来完成文件的缓冲持久化、缓存加载和缓存驱逐。AutoMQ 采用存算分离的架构,将存储分离至对象存储,本地没有数据文...

2024-07-22 22:06:10 90

转载 AutoMQ vs Kafka: 来自小红书的独立深度评测与对比

测试背景 当前小红书消息引擎团队与 AutoMQ 团队正在深度合作,共同推动社区建设,探索云原生消息引擎的前沿技术。本文基于 OpenMessaging 框架,对 AutoMQ 进行了全面测评。欢迎大家参与社区并分享测评体验。01测试结论本文主要测评云原生消息引擎 AutoMQ 和 Apache Kafka(3.4 版本)的性能对比。测试结论:实时读写:相同集群规模,AutoMQ 的极限读写吞吐是...

2024-07-08 09:30:32 112

转载 StarRocks跨集群迁移最佳实践

目录一、背景二、方案流程1. 方案可行性评估口径2. 方案设计3. 方案规划4. 方案实施5. 方案验证&验收三、方案成果四、方案展望一引言2024年之前,DBA维护的StarRocks集群存在在用低版本多、稳定性受组件bug影响大的问题,给日常运维带来一定压力,版本升级迫在眉睫。于是,我们在今年年初安排了针对2.5以下版本升级2.5.13的专项。这...

2024-07-07 21:46:07 217

转载 Java ZGC 深度剖析及其在构建低延迟流系统中的实践心得

01前言在 Java 应用程序中,垃圾回收(Garbage Collection,以下简称 GC)是一个不可避免的过程,它负责释放不再使用的内存空间以避免内存泄漏。然而,GC 操作通常会导致短暂的停顿时间(Stop the World,以下简称 STW),这对于对延迟敏感的应用程序来说是一个严重的问题——STW 会导致应用程序暂停响应,从而影响用户体验和系统性能。为了解决这个问题,Java 引入了...

2024-06-30 12:21:18 115

转载 G1GC深度探索--Young gc耗时持续增长原因分析

奇怪现象你是否遇到过服务内部即使设置了线程超时时间,上游依旧报超时异常?你是否遇到过下游服务快速响应,当前服务后续方法无耗时逻辑。但偏偏整体执行耗时极长?你是否遇到过gc耗时规律性增长?却与流量不成比例?你是否遇到过Eden空间突然降低且维持很久?背景那是一个平静的午后,突然的gc耗时告警惊扰了打工人专心编码的心。打开gc监控一看,发现虽然只有单个容器报警,但是大部分gc已经飙升到接近1s了。将报...

2024-06-10 23:12:49 1361 2

转载 Kafka 如何基于 KRaft 实现集群最终一致性协调

01 架构概览 Zookeeper 提供了配置服务、分布式同步、命名服务、Leader 选举和集群管理等功能,在大数据时代的开始很多开源产品都依赖 Zookeeper 来构建,Apache Kafka 也不例外。但是随着 Kafka 功能的演进和应用的场景越来越多:基于 Zookeeper 的协作模式,使得 Kafka 的集群一致性维护越来越复杂;受到 Zookeeper 性能的限制,使得...

2024-06-09 09:43:18 88

转载 AutoMQ 生态集成 MinIO

MinIO[7] 是一款高性能、分布式的对象存储系统,能够在标准硬件上运行,提供极高的性价比和广泛的适用性。专为高性能私有云设计,MinIO 采用简洁高效的架构,确保在提供全面对象存储功能的同时保持卓越性能。无论是传统的辅助存储、灾难恢复和归档,还是机器学习、大数据、私有云和混合云等新兴领域,MinIO 都展现了其强大的适应性和优越性。得益于 MinIO 对 S3 API 的完全兼容,即使在私有数...

2024-05-26 18:29:56 119

转载 「布道师系列文章」解析 AutoMQ 对象存储中的文件存储格式

作者|王金龙,知乎消息队列研发工程师,开源爱好者,长期关注云原生基础组件01 背景 作为一款新一代消息中间件,AutoMQ 充分利用了云时代的存储基础设施,保证高性能的同时极大简化运维的繁琐程度。与基于物理机自建的 Kafka 集群相比,AutoMQ 的成本降低非常明显。这要归功于底层 s3stream 技术对 S3 对象存储的充分利用。接下来,让我们深入探讨一下 AutoMQ 在对象存储...

2024-05-19 16:19:00 93

转载 原理剖析| Kafka Exactly Once 语义实现原理:幂等性与事务消息

01 前言 在现代分布式系统中,确保数据处理的准确性和一致性是至关重要的。Apache Kafka,作为一个广泛使用的流处理平台,提供了强大的消息队列和流处理功能。随着业务需求的增长,Kafka 的事务消息功能应运而生,它允许应用程序以一种原子的方式处理消息,即要么所有消息都被正确处理,要么都不处理。本文将深入剖析 Kafka 的 Exactly-Once 语义实现原理,包括幂等性与事务消...

2024-05-11 23:24:18 334

转载 程序员如何提升个人技术影响力

目录一、为什么要分享这个话题?二、为什么要打造技术影响力?三、怎么提升技术影响力?1. 输入-多学习自己对应领域的知识2. 输出-Github项目贡献3. 技术文章4. 演讲 4.1 怎么上行业大会演讲? 4.2 怎么讲?演讲技巧?5. 出书四、总结都说程序员的成长是码出来的,此话不假。但如果既会写代码,还会写文章,还能讲PPT,...

2024-05-10 19:30:59 77

转载 一次性讲清楚「连接池获取连接慢」的所有原因

目录一、前言二、连接池监控三、排查思路1.连接池存在等待连接2.应用负载过高3.应用 STW4.网络阻塞5.数据库&数据库中间件异常四、总结一前言应用连接数据库基本上都是通过连接池去连接,比如常用的 HikariCP、Druid 等,在应用运行期间经常会出现获取连接很慢的场景,大多数同学都是一头雾水,不知道从哪下手。而且很多时候都是偶发场景...

2024-04-22 23:41:13 388

转载 Kafka 迁移工具 MirrorMaker2 原理起底

注意:本文内容截止到 2024 年 2 月 26 日发布的 Kafka 3.7.0 版本。MirrorMaker2(后文简称 MM2)在 2019 年 12 月随 Kafka 2.4.0 一起推出。顾名思义,是为了解决 Kafka 集群之间数据复制和数据同步的问题而诞生的 Kafka 官方的数据复制工具。在实际生产中,经常被用来实现 Kafka 数据的备份,迁移和灾备等目的。在此也预告一下,Aut...

2024-04-21 21:17:23 826

转载 JVM STW 和 Dubbo 线程池耗尽的相关性

目录一、背景二、Thread pool is EXHAUSTED介绍三、玄学Thread pool is EXHAUSTED四、为什么不消费socket recv buffer五、怎么追溯JVM进程STW六、总结一背景在日常的技术支持过程中,经常会遇到如下玄学问题的咨询:从监控上看,进程资源占用正常。从监控上看,服务流量平稳,没有流量突增。从监控上看,线程池状态正常,没有瓶颈。但是,在上述条件下,...

2024-04-20 21:24:20 256

转载 Zookeeper SLA 也可以 99.99%

目录一、背景二、探索分析1. 确定方向2. 内存分析3. 意外发现4. 优化探索4.1 锁的优化4.2 存储优化4.3 逻辑优化三、性能压测1. JMH 微基准测试2. 性能压测 2.1 场景一:20W znode 短路径 2.2 场景二:20W znode 长路径3...

2024-04-14 08:30:26 200

转载 原理剖析:AutoMQ 如何实现分区持续重平衡

01 引言 在一个线上 Kafka 集群中,流量的波动、Topic 的创建和删除、Broker 的消亡和启动都随时可能发生,而这些变化可能导致流量在集群各个节点间分布不均,从而导致资源浪费、影响业务稳定。此时则需要主动将 Topic 的不同分区在各个节点间移动,以达到平衡流量和数据的目的。当前,Apache Kafka 仅提供了分区迁移工具,但具体的迁移计划则需要运维人员自行决定,而对于动...

2024-04-10 23:46:20 165

转载 深入理解Sora技术原理

目录一、文本生成图片的流程1.潜在的扩散模型2.Transformer架构二、Sora 生成视频的流程1.视频压缩网络2.空间时间补丁3.Diffusion Transformer三、从训练到生成视频全流程1.视频标注与训练2.视频生成与处理OpenAI 发布的视频生成模型 Sora(https://openai.com/sor...

2024-04-10 08:20:21 122

转载 同城双活:交易链路的稳定性与可靠性探索 | 得物技术

目录作者:Alan 英杰 Matt 羊羽一、背景1. 异地双活2. 同城双活二、设计思路三、双活整体架构四、具体改造方案1. 交易应用侧双活改造2. 交易依赖方应用双活改造 3. 中间件&基础组件 3.1 识别机器资源可用区 3.2 中间件RTO 3.3 主要组件双活改造方案 3.3.1...

2024-03-25 22:00:18 293

转载 Kafka 痛点专题|AutoMQ 如何解决 Kafka 冷读副作用

背景Apache Kafka (下文简称 Kafka)作为一款成功的流处理平台已经在各行各业中有广泛的应用,并且具备极其强大的软件生态。但是,其一些缺点也给使用者带来了很大的挑战。AutoMQ 是基于云原生架构实现的新一代 Kafka ,与 Kafka 100% 完全兼容。致力于解决 Kafka 原有的迁移复制低效、缺乏弹性、成本高昂等缺点,成为新一代云原生 Kafka 解决方案。为了让读者更好...

2024-03-15 22:30:12 200 1

转载 解密得物Trace2.0:日PB级数据量下的计算与存储性能优化实战

目录一、背景二、客户端多通道协议1.采集多通道协议三、计算模型四、数据压缩五、存储方案六、升级 JDK211. 升级后效果七、结语一背景Trace2.0 是得物监控团队引入 OpenTelemetry 协议并落地的全新应用监控系统,从 2021 年底正式开始使用。在过去的两年里,我们面临着数据量呈爆炸式增长的巨大挑战。然而,通过对计算和存储的不断优化,我们成功地控制了机器数量的指...

2024-01-28 23:49:35 832

转载 AutoMQ Kafka 云上十倍成本节约的奥秘(一): SPOT 实例

近年来,无论是海外还是国内,虽然受疫情影响,公有云的市场规模增速有所放缓,但是云的市场总规模仍然是持续增长的。公有云作为一个各个国家重点布局的战略方向和其本身万亿级市场的定位[1],我们学习用好云是非常有必要的。AutoMQ Kafka 充分认识到“云优先”的重要性,围绕公有云具备规模化效益和技术红利的云基础设施重新设计了 Kafka。在保证 100% 兼容 Apache Kafka 的基础上带来...

2024-01-14 11:53:37 203

转载 得物云原生容器技术探索与落地实践

目录一、前言二、云原生应用管理1.云原生应用管理方式2.多集群管理方案三、容器调度优化与与混部1.应用画像2. 资源预占3.平衡调度4.在实时混部5.在离线混部6.弹性伸缩四、容器资源和成本治理优化1. 机型替换2.资源池管理3.工作负载规格治理4.产品自建5.多云策略五...

2024-01-07 18:11:27 779

转载 得物基于 StarRocks 的 OLAP 需求实践

1. 什么是 StarRocks新一代极速全场景MPP数据库,可以用 StarRocks 来支持多种数据分析场景的极速分析;架构简洁,采用了全面向量化引擎,并配备全新设计的 CBO 优化器,查询速度(尤其是多表关联查询);很好地支持实时数据分析,并能实现对实时更新数据的高效查询, 还支持现代化物化视图,以进一步加速查询;用户可以灵活构建包括大宽表、星型模型、雪花模型在内的各类模型;兼容 MySQL...

2023-12-24 16:52:11 785

转载 得物云原生全链路追踪Trace2.0

00xcc 开篇2020 年 3月,得物技术团队在三个月的时间内完成了整个交易体系的重构,交付了五彩石项目,业务系统也进入了微服务时代。系统服务拆分之后,虽然每个服务都会有不同的团队各司其职,但服务之间的依赖也变得复杂,对服务治理等相关的基础建设要求也更高。对服务进行监控是服务治理、稳定性建设中的一个重要的环节,它能帮助提早发现问题,预估系统水位,以及对故障进行分析等等。从 2019 年末到现在,...

2023-12-17 10:30:49 1414

转载 毕玄谈技术成长之路

引言:本期话题就是整理自“内部技术沙龙SmartCode--之毕玄《技术成长之路》”,内容包括如何提升技术基本能力、如何做好架构师角色、如何做好技术Leader这样的角色;正文不仅对本次分享进行了梳理,还把大家关注的QA也放在了文末,希望这篇文章能够给你带来一定的启发。1.分享嘉宾介绍 - 毕玄2. 技术成长之路总结来讲,不管往哪个技术方向走,都不存在好坏的说法;对于所有技术人员来讲,适合自己就...

2023-12-16 20:24:48 706

转载 Dubbo 3.3.0-beta 版本正式发布

近日,Apache Dubbo 发布了 3.3 分支大版本 3.3.0-beta.1,相较于 3.2 系列版本,3.3.0-beta 引入了一些重量级的功能升级,按照社区规划,3.3 也将是 Dubbo3 非常重要的一个里程碑大版本,在 3.3.0 首个正式版本之后 Dubbo3 将正式进入长期稳定维护态,即标志着 Dubbo3 作为面向云原生时代的下一代微服务框架将具备规划的所有核心功能。让我们...

2023-12-10 19:03:07 93

转载 《RocketMQ 运维经验圆桌交流会》圆满落幕,技术大咖齐聚线上热议解决方案!...

11 月 18 日,我们迎来了首场线上盛会—《RocketMQ 运维经验圆桌交流会》,本次交流会汇聚了 RocketMQ 的作者,腾讯云、移动云的技术专家,《RocketMQ 实战》的作者等技术大咖,共同深度探讨了 RocketMQ 运维中的挑战与解决方案。线上参会者们通过连线提问的方式积极参与,交流了 RocketMQ 运维中的一些疑难问题。技术专家们不仅详细解答了每一个问题,还分享了许多实际案...

2023-12-03 17:26:11 57

转载 《RocketMQ 运维经验圆桌交流会》圆满落幕,技术大咖齐聚线上热议解决方案!...

11 月 18 日,我们迎来了首场线上盛会—《RocketMQ 运维经验圆桌交流会》,本次交流会汇聚了 RocketMQ 的作者,腾讯云、移动云的技术专家,《RocketMQ 实战》的作者等技术大咖,共同深度探讨了 RocketMQ 运维中的挑战与解决方案。线上参会者们通过连线提问的方式积极参与,交流了 RocketMQ 运维中的一些疑难问题。技术专家们不仅详细解答了每一个问题,还分享了许多实际案...

2023-12-03 17:26:11 64

转载 《RocketMQ 运维经验圆桌交流会》圆满落幕,技术大咖齐聚线上热议解决方案!...

11 月 18 日,我们迎来了首场线上盛会—《RocketMQ 运维经验圆桌交流会》,本次交流会汇聚了 RocketMQ 的作者,腾讯云、移动云的技术专家,《RocketMQ 实战》的作者等技术大咖,共同深度探讨了 RocketMQ 运维中的挑战与解决方案。线上参会者们通过连线提问的方式积极参与,交流了 RocketMQ 运维中的一些疑难问题。技术专家们不仅详细解答了每一个问题,还分享了许多实际案...

2023-12-03 17:26:11 61

转载 《RocketMQ 运维经验圆桌交流会》圆满落幕,技术大咖齐聚线上热议解决方案!...

11 月 18 日,我们迎来了首场线上盛会—《RocketMQ 运维经验圆桌交流会》,本次交流会汇聚了 RocketMQ 的作者,腾讯云、移动云的技术专家,《RocketMQ 实战》的作者等技术大咖,共同深度探讨了 RocketMQ 运维中的挑战与解决方案。线上参会者们通过连线提问的方式积极参与,交流了 RocketMQ 运维中的一些疑难问题。技术专家们不仅详细解答了每一个问题,还分享了许多实际案...

2023-12-03 17:26:11 87

转载 虚拟线程原理及性能分析

目录一、背景二、为了提升吞吐性能,我们所做的优化1.串行模式2.线程池 +Future 异步调用3.线程池 +CompletableFuture 异步调用三、一请求一线程的模型四、虚拟线程 1.线程术语定义 2.虚拟线程定义 3.虚拟线程创建 4.虚拟线程实现原理5.虚拟线程内存占用评估6.虚拟线程的局限及使用建议...

2023-12-02 22:43:38 518 1

转载 RocketMQ4.9.7性能压测揭秘

一问题与挑战随着公司“降本增效”理念逐步深入落实贯彻,消息中间件与运维团队今年备战“双十一”的基本原则:不增加新的资源投入情况下,确保今年“双十一”平稳进行。为了应对“双十一”,必须对现有集群的性能进行摸底,故为此搭建了一个4主4从的集群,48C/256G/SSD磁盘,200个主体、400个消费组同时运行,发现集群的总TPS达到28W后集群就出现了Commitlog文件转发延迟,出现拐点,压测结束...

2023-11-26 12:04:16 1189 1

转载 Faas在哈啰AI平台的落地实践

为什么哈啰AI平台需要FaasAl平台当前的痛点一是运维复杂问题,AI平台有多种不同语言的模型推理服务, 如python、C++(tf-serving)、Java等,各自管理上百个不同类型的模型;架构也很复杂,存在大型单体应用、多container应用、小型GPU应用等多种服务组织方式;同时,手动运维有余,自动化工具不足。二是稳定性问题,成百上千模型集中式部署,存在明显热点问题,在应对一些突发流量...

2023-11-19 20:31:30 225

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除