• 博客(260)
  • 收藏
  • 关注

原创 架构性能跃迁!iLogTail超大规模日志采集最佳实践

为了解决数据丢失的问题,实现了回滚offset的功能,对于每批要发送到Kafka的数据,都保存了这批数据最小的offset,当发送失败时,会在回调函数中回滚offset,读取文件的时候将从失败的位置重新读取。,iLogTail的采集部分及发送到SLS部分是C++编写的,C++部分拥有很高的性能,iLogTail还拥有很丰富的插件但这些都是通过Go编写,如发送到Kafka的插件,Go部分拥有功能优势,但是其垃圾回收会带来很大性能消耗,后面会针对这部分进行优化。

2025-03-27 19:50:33 828

原创 数据人的进阶之路:四年数仓实践与成长思考

在数据仓库开发的过程中,常常会遇到很多值得思考的问题,它们不仅关乎技术的深度,也涉及业务理解、个人的成长,甚至是数据行业未来的价值。回顾ERP的项目,更多都是财务方向的建设,我们一直在说数据的建设是辅助管理层决策,但是,有没有办法直观的感受到或者量化这个决策的影响度。当衡量不出来价值的时候,会质疑自己存在的必要性,严重会上升到对于数仓开发的怀疑。随着存储和计算等新技术的发展,对于原本的数仓开发也带来了一定的改变,具体的比较见下,虽然在某种程度上,双边的界限会存在一定的模糊,但是 两者还是有所不同。

2025-03-20 19:55:52 762

原创 从混合云交付到多活治理,滴滴应用中心交付提效实践

背景近几年,云原生平台已发展得比较成熟,而云原生应用的概念也在许多公司得到实践。其中,以阿里巴巴和微软提出的 OAM(Open Application Model) 概念得到了最广泛的认可,也在 CNCF(云原生计算基金会)社区孵化出项目 KubeVela,为云原生应用的开发与交付提供了新的思路和框架。基于KubeVela的理念,我们公司启动了应用中心平台的开发工作,经过多轮迭代与优化,应用中心平...

2025-03-06 20:15:56 608

原创 欠下技术债怎么还?滴滴国际化落地实践经验分享

在快速发展的业务推动下,技术债务的积累成为技术团队难以回避的挑战。如何系统性地偿还技术债务,并从治理过程中提炼宝贵经验,是值得深入探讨的重要课题。此前,《聊一下,技术债务治理》一文已对技术债务的背景、分类及治理思路进行了全面概述,而《从技术债务到架构升级,滴滴国际化外卖的变革》则聚焦于业务营销场景,探讨了如何通过配置模型、优化表单、引入安全校验等手段提升开发效率。作为“技术债务治理”专题的收官之作...

2025-02-20 20:09:17 628

原创 从技术债务到架构升级,滴滴国际化外卖的变革

背 景商家营销简述在外卖平台的运营中,我们致力于通过灵活的补贴策略激励商家,与商家共同打造良好的合作关系,也会提供多样化的营销活动,帮助商家吸引更多用户下单。通过这些活动,不仅能够提高商家的销量,还能让用户感受到实际的优惠,从而增强他们对平台的粘性。前端技术特点业务特点:营销场景玩法多、活动类型多、活动链路长、活动规则复杂。中后台技术特点:活动配置表单规则多、联动复杂。前台技术特点:终端类型多(P...

2025-02-13 20:32:04 1181

转载 进来,送你一打“滴滴技术年货”

2025-01-26 19:01:16 65

原创 聊一下,技术债务治理

前言在现代软件开发中,技术债务(Technical Debt)已成为一个不可忽视的重要概念。它指的是在软件开发过程中,为了追求短期目标而做出的妥协,导致未来需要付出额外成本来修复这些妥协所带来的问题。技术债务的管理不仅影响项目的质量和可维护性,还直接关系到团队的工作效率和公司的长期发展。什么是技术债务?技术债务的定义可以追溯到Ward Cunningham,他将其比喻为“借款”,即在软件开发中选择...

2025-01-09 20:08:41 720

原创 数据DS岗位,超干货面试经验分享

随着AB实验在决策环节起到的作用日趋重要,面试环节对于AB实验的要求也在不断的提升。以往对AB实验基本原理的理解,以及计算最小样本量等基础问题,已经无法满足候选人对于实验能力要求的考察。本文结合过往的学习思路,以及在滴滴科学中台领域的实践经验,总结了一些觉得比较“掉书袋”的问题, 希望能为正在准备春招的同学们提供帮助。需要补充的是,这些问题通常出现在初级到中级的面试中,随着经验的增长,面试中更常见...

2024-12-12 20:02:03 692

原创 滴滴荣获 CCF 2024 十佳优秀技术公益案例!

朋友!在你参加演唱会、音乐节、马拉松等活动之后,会因为散场客流太大,打不到车回家而烦恼吗?会因为还没有high够想要和朋友换地方续摊吗?很多人和你有一样的烦恼。随着近年来演唱会、音乐节等大型文体活动热度持续攀升,活动结束后人员疏散成为难题。为助力做好接驳和疏散工作,滴滴组建保障车队,科学调度附近的网约车、青桔单车、免费大巴等,综合使用运力调度和图文引导,为演唱会、音乐节及体育赛事等大型活动提供一站...

2024-11-20 20:03:04 564

转载 1024,与滴滴一起

··

2024-10-24 19:02:58 142

原创 如何在多云环境下做好高效应用交付?|滴滴国际化建站提效系列收官

背景在《首次分享!滴滴国际化出行的建站实践经验》中详细介绍了机房建设提效的解决思路:1. 梳理提效:建设应用模型,标准化描述各业务模块与依赖资源、运维设施、平台配置的关联关系,并实现应用信息的全生命周期管理;2. 交付提效:基于标准化的应用描述,建设自动化的交付框架,实现一站式应用交付;3. 改造提效:收敛业务模块中与环境关联的配置与逻辑,并进行标准化管理,与交付能力打通后实现交付过程代码 0 改...

2024-09-26 20:45:48 1071

原创 深度拆解滴滴国际化建站提效利器:环境差异配置管理

背景介绍随着滴滴国际化业务的发展和扩张,当前已在全球多个国家提供面向当地的出行服务,为了给用户提供更好的体验和更低的响应延迟,异地多机房灵活部署及云上弹性部署的需求日益强烈。出于体验、成本、合规和稳定性的考量,2020至今,国际化业务进行了多次不同规模的机房部署。早期部署过程非常低效,除去SRE的参与,需要部署全量模块的业务RD参与资源梳理、资源申请、适配新机房代码改动、上线部署、联调测试一系列工...

2024-09-19 20:20:28 1152

原创 首次分享!滴滴国际化出行的建站实战经验

背景介绍从2018年开始,滴滴国际化出行业务陆续进入巴西、墨西哥等多个海外国家市场,而伴随着业务的扩张,出于稳定性、成本、合规等要求,业务系统需要频繁在不同地区、不同基础设施环境的机房内进行大规模建站交付,例如自建 IDC、AWS、GCP 等公有云环境。经过几次新机房交付后,我们发现,出行业务包括业务系统在内,有上千个模块与存储实例以及数万张表,业务架构复杂、链路长、依赖多,导致当前建站效率非常低...

2024-09-12 21:04:56 1637

原创 人工智能时代,滴滴 OrangeFS 数据湖存储的探索与实践

项目背景随着人工智能技术的飞速发展,机器学习训练已成为推动行业智能化转型的关键力量。这些大模型以其强大的语言理解和生成能力,在自然语言处理、图像识别、智能推荐等多个领域展现出极大的潜力。然而,机器学习的训练与部署对存储系统提出了前所未有的挑战。海量的训练数据、复杂的模型结构以及高频的数据读写需求,使得传统的非结构化存储方案难以胜任。滴滴不断致力于提升用户体验,积极拥抱人工智能技术,在探索过程中,也...

2024-09-05 20:30:45 1981

转载 第八届DiDi Elite Camp报名启动,滴滴邀你开启夏日科技之旅!

//E N D//

2024-08-22 20:31:11 741

原创 滴滴开源新项目Unify:聚焦Flutter与原生通信难题,助力跨端应用落地

引言在移动开发领域,移动跨端技术因其提效收益,逐渐成为业界趋势之一。Flutter 作为近年来热门的跨端技术,以高性能、自渲染、泛跨端著称,得到广泛应用。在滴滴国际化业务中,我们大量应用 Flutter。目前已在滴滴国际化外卖、滴滴国际化出行司机端等业务中大规模落地,整体交付提效 50%+,收益显著。在大规模 Flutter 跨端场景下,存量的原生业务与增量 Flutter 业务间的双向通信成为痛...

2024-08-15 20:30:46 2013

原创 Elasticsearch 在滴滴的应用与实践

滴滴 Elasticsearch简介简介Elasticsearch 是一个基于 Lucene 构建的开源、分布式、RESTful 接口的全文搜索引擎,其每个字段均可被索引,且能够横向扩展至数以百计的服务器存储以及处理 TB 级的数据,其可以在极短的时间内存储、搜索和分析大量的数据。滴滴 ES 发展至今,承接了公司绝大部分端上文本检索、少部分日志场景和向量检索场景,包括地图 POI 检索、订单检索...

2024-05-14 20:01:18 2855

原创 突破深度模型线上耗时瓶颈,我们做了什么?

广告投放是深度模型应用较为普遍的场景之一,虽然深度模型能够提升业务效果,但往往也会付出更加高额的耗时开销。滴滴现今 DSP(Demand-Side Platform) 业务场景中,耗时问题已然成为限制模型发挥的魔咒,为了打破魔咒,我们探索了一套解决方案,可以让深度模型极大限度摆脱耗时困扰。原理概述背景DSP 先前的线上深度模型基于 CPU + Tensorflow Feature Column 的...

2024-04-16 20:02:48 2267

原创 基于 StarRocks 的风控实时特征探索和实践

背景金融风控特征是在金融领域中用于评估和管理风险的关键指标。它们帮助金融机构识别潜在风险,降低损失,并采取措施规避风险。例如,用户最后一次授信提交时间就是一个重要的金融风控特征。金融风控实时特征场景是一个典型的大数据实时业务场景。为了应对这一挑战,风控团队采用了业界常用的 Lambda 架构和 Kappa 架构。对于7天内的实时特征,使用 Kappa 架构;而对于超过7天的特征,则采用 Lambd...

2024-03-28 19:58:37 3863

原创 小程序跨端组件库 Mpx-cube-ui 开源:助力高效业务开发与主题定制

Mpx-cube-ui 是一款基于 Mpx 小程序框架的移动端基础组件库,一份源码可以跨端输出所有小程序平台及 Web,同时具备良好的拓展能力和可定制化的能力来帮助你快速构建 Mpx 应用项目。Mpx-cube-ui 提供了灵活配置的主题定制能力,在组件设计开发阶段对表现层的结构和样式进行抽离,利用预编译器和 CSS 变量的能力,提供细粒度(颜色、字体、圆角、阴影等)的样式定制能力,你的项目可以按...

2024-03-19 19:58:10 2723

原创 滴滴 Flink 指标系统的架构设计与实践

毫不夸张地说,Flink 指标是洞察 Flink 任务健康状况的关键工具,它们如同 Flink 任务的眼睛一般至关重要。简而言之,这些指标可以被理解为滴滴数据开发平台实时运维系统的数据图谱。在实时计算领域,Flink 指标扮演着举足轻重的角色,例如,实时任务的消费延迟和检查点失败的警报都是基于对 Flink 报告的指标进行监控而触发的;同时,许多实时任务智能诊断的关键决策点也是依 Flink 指标...

2024-03-12 19:59:01 9529 2

转载 科技“她”力量,有爱每一程

—福利时刻—评论区欢迎留下你的感想、你的故事、妇女节的祝福等等,我们将抽取10名同学各送一份科技有爱小礼物~

2024-03-08 16:50:09 1671

原创 滴滴基于 Clickhouse 构建新一代日志存储系统

ClickHouse 是2016年开源的用于实时数据分析的一款高性能列式分布式数据库,支持向量化计算引擎、多核并行计算、高压缩比等功能,在分析型数据库中单表查询速度是最快的。2020年开始在滴滴内部大规模地推广和应用,服务网约车和日志检索等核心平台和业务。本文主要介绍滴滴日志检索场景从 ES 迁移到 CK 的技术探索。背景此前,滴滴日志主要存储于 ES 中。然而,ES 的分词、倒排和正排等功能导致...

2024-03-05 20:00:27 4118 2

转载 QPS 提升 10 倍!滴滴借助 StarRocks 物化视图实现低成本精确去重

滴滴于 2022 年引入了 StarRocks。经过一年多的努力,StarRocks 逐渐替代了原有技术栈,成为滴滴内部主要的 OLAP 引擎。截至 2023 年 12 月,滴滴已经成功建立了超过 40 个 StarRocks 集群,每日查询量在千万量级,拥有超过 3000 张数据表。这一强大的基础设施已广泛支持了滴滴公司几乎所有的业务线,包括网约车、单车、能源、货运等多个领域。本文会着重探讨 S...

2024-02-27 20:58:12 2103

原创 开工有礼|400+页技术实践干货合集,助你开启新旅程

技术的世界,从来不是孤独的。在这个充满挑战与机遇的领域,没有闭关修炼多年的绝世高手, 只有无数怀着愚公移山精神的探索者,他们一步一个脚印,在未知的荒原上修桥补路,共同编织着技术的传奇。随着春节假期的结束,我们迎来了新的一年和新的开始。在这个充满希望和挑战的时刻,滴滴技术公众号特别推出《滴滴技术实践 2023 年度合集》,本册合集汇聚了过去一年我们所发表的技术实践内容。你将了解滴滴如何运用算法优化...

2024-02-22 20:01:32 2316

转载 滴滴获2023中国计算机学会杰出贡献奖

1月27日,滴滴获2023年“CCF杰出贡献奖”。该奖项于2010年设立,授予对CCF有独特或重大贡献的企业或个人。2023年度同时荣获该奖项的还有CCF会士、南京大学周志华教授。CCF理事长梅宏院士、CCF奖励委员会主席廖湘科院士为滴滴颁奖。滴滴CTO张博代表滴滴上台领奖,并发表获奖感言。滴滴CTO张博(左二)与颁奖嘉宾合影张博表示,CCF是我国计算机领域非常具有凝聚力和影响力的平台,感谢学会对...

2024-01-30 21:00:39 2350

原创 滴滴基于 Ray 的 XGBoost 大规模分布式训练实践

背景介绍作为机器学习模型的核心代表,XGBoost 在滴滴众多策略算法业务场景中发挥着至关重要的作用。因此,保障并持续提升 XGBoost 模型的离线训练及在线推理稳定性一直是机器学习平台的重点工作。同时,面对多样化的业务场景定制需求和数据规模从万到亿级的跨度,XGBoost 的训练效率和灵活性也成为我们需要重点关注的问题。由于平台历史架构原因,平台 XGBoost 模型训练仍是开源 XGBoos...

2024-01-25 20:57:47 3898

原创 滴滴开源小程序框架 Mpx 新特性:局部运行时能力增强

Mpx 是滴滴开源的一款增强型跨端小程序框架,自 2018 年立项开源以来如今已经进入第六个年头,在这六年间,Mpx 根植于业务,与业务共同成长,针对小程序业务开发中遇到的各类痛点问题提出了解决方案,并在滴滴内部建设了完善的小程序跨端开发生态。目前,Mpx 已经覆盖支持了滴滴内部全量小程序业务开发,成为了滴滴小程序开发的统一技术标准。本文主要探讨MPX局部运行时能力增强的方案设计。如需深入了解滴滴...

2024-01-25 20:57:47 3405

原创 想要快速打造专属问卷系统?来试试滴滴新开源的 XIAOJUSURVEY 项目!

XIAOJUSURVEY 源自滴滴内部问卷系统,已在集团内为各业务线提供在线调研服务,并为外部提供多种企业级调研场景解决方案。经过5年多的发展,它已发展成一个相对完整成熟的企业级平台。本次开源旨在为行业和社区提供一种轻量、安全的问卷系统解决方案,让调研更轻松。背景在调研领域,「创、投、收、分析、报告」是问卷系统核心的节点: 「创」阶段是问卷设计和创建的过程,根据调研需求设计问卷。 「投」阶段涉及到...

2024-01-18 20:58:59 3256

原创 滴滴小程序开发标准 Mpx 推出新版本,聚焦性能与包体积优化

Mpx 是滴滴开源的一款增强型跨端小程序框架,自 2018 年立项开源以来如今已经进入第六个年头,在这六年间,Mpx 根植于业务,与业务共同成长,针对小程序业务开发中遇到的各类痛点问题提出了解决方案,并在滴滴内部建设了完善的小程序跨端开发生态。目前,Mpx 已经覆盖支持了滴滴内部全量小程序业务开发,成为了滴滴小程序开发的统一技术标准。随着小程序业务的发展演进,性能和包体积的重要性愈发凸显,Mpx ...

2024-01-11 20:58:52 3484

原创 Apache Pulsar 为滴滴大数据运维带来了哪些收益?

Apache Pulsar 是 Apache 软件基金会顶级项目,是下一代云原生分布式消息流平台,集消息、存储、轻量化函数式计算为一体。该系统源于 Yahoo,最初在 Yahoo 内部开发和部署,支持 Yahoo 应用服务平台 140 万个主题,日处理超过 1000 亿条消息。Pulsar 于 2017 年由 Yahoo 开源并捐赠给 Apache 软件基金会进行孵化,2018 年成为 Apach...

2024-01-09 20:59:52 7604 3

原创 Vim 一下日志文件,Java 进程没了?

一次端口告警,发现 java 进程被异常杀掉,而根因竟然是因为在问题机器上 vim 查看了 nginx 日志。下面我将从时间维度详细回顾这次排查,希望读者在遇到相似问题时有些许启发。时间线15:19 收到端口异常 odin 告警。状态:P1故障名称:应用端口8989指标:data-stream-openapi.port.8989主机:data-stream-openapi-nmg-sf-a9...

2023-11-23 20:58:30 4706

原创 线上问题排查实例分析|关于 Redis 内存泄漏

Redis 作为高性能的 key-value 内存型数据库,普遍使用在对性能要求较高的系统中,同时也是滴滴内部的内存使用大户。本文从 KV 团队对线上 Redis 内存泄漏定位的时间线维度,简要介绍 Linux 上内存泄漏的问题定位思路和工具。16:30 问题暴露业务反馈缩容后内存使用率90%告警,和预期不符合,key 只有1万个,使用大 key 诊断,没有超过512字节以上的大 key。16:4...

2023-11-21 21:00:00 3760

转载 解锁你的人工智能<MBTI>身份

假如你的身份是机器人,MBTI类型可能是.....······还有更多身份设定扫描下方二维码或前往2023广州国际汽车展览会20.1馆滴滴自动驾驶展台解锁! ...

2023-11-16 17:31:50 3287

原创 滴滴 Redis 异地多活的演进历程

为了更好的做好容灾保障,使业务能够应对机房级别的故障,滴滴的存储服务都在多机房进行部署。本文简要分析了 Redis 实现异地多活的几种思路,以及滴滴 Redis 异地多活架构演进过程中遇到的主要问题和解决方法,抛砖引玉,给小伙伴们一些参考。Redis 异地多活的主要思路业界实现 Redis 异地多活通常三种思路:主从架构、Proxy双写架构、数据层双向同步架构。主从架构主从架构的思路:各机房的 R...

2023-11-14 20:58:50 7337

原创 技术抽丝剥茧|为什么 Redis 内部使用不同编码?

某个周末的晚上突然收到一波耗时上升报警,仔细一看报警消息,原来是出现了慢查请求导致集群耗时大幅上升,此时业务同学也收到上游服务受影响报警。在处理问题过程中,运维同学发现 Redis 集群中只有部分实例出现 cpu 利用率上升,慢查日志也集中在这几个实例,而上游业务此时没有上线或是业务模型变化。因为是少量热 key 访问导致部分 Redis 实例负载高,执行限流对业务有损,执行扩容也无法达到快速止损...

2023-11-09 20:59:55 3242

原创 记一次 Android 周期性句柄泄漏的排查

滴滴国际化外卖 Android 商户端正常迭代版本过程中,新版本发布并且线上稳定一段时间后,突然触发线上 Crash 报警。第一次排查发现是在依赖的底层平台 so 库中崩溃,经过沟通了解到其之前也存在过崩溃问题,所以升级相关底层 so 版本。重新发版后短期没有出现 Crash 大面积上报情况,只有零星上报,但不久后又发生了第二次大面积 Crash 上报。具体信息如下图所示:在定位分析问题的过程中收...

2023-11-07 20:58:11 2737

原创 聊聊宿主机管理

2020年,机器上线需要在八个服务间反复横跳,而且全程手动操作。伴随滴滴业务规模上云,弹性云新增大量物理机,上线操作至少有百次,这时暴露了一个问题:如果按这个速度上线机器,需要大量人力投入到上机器中。因此,弹性云急需一个平台来管理宿主的上下线。从无到有DevOps,标准先行在 DevOps 实践中,标准化是非常重要的一环。弹性云的所有机器都是围绕服务树管理的。由于之前是由人工管理,弹性云机器在服务...

2023-10-31 20:58:42 8227

转载 不止1024

.

2023-10-25 20:06:50 2553 1

原创 既要稳也要省,容器资源该怎么分配?

在前两篇文章中,我们详细阐述了弹性云混部技术的实施过程和基于 Kubernetes 的调度策略。本文将深入探讨新分级容器保障体系的构建,以帮助读者更全面地理解滴滴弹性云的实践成果。众所周知,假期出行,热情高涨,需求增多也使得稳定性保障压力大。当各个服务流量激增时,资源负载压力将会显著提升。微观上,单台物理机的 CPU 利用率会大幅提升,单机上各个容器之间的争抢会增加,性能受到影响。宏观上,整个弹性...

2023-10-19 20:59:46 2900 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除