QCon演讲实录|赵彦奇:HTTPDNS 边缘下沉,性能、成本和稳定性之间的取舍与思考

10 月 18 日,在 QCon 全球软件开发大会 2024(上海站),火山引擎边缘云网络研发工程师赵彦奇分享了《HTTPDNS 边缘下沉,性能、成本和稳定性之间的取舍与思考》,演讲主要介绍了火山引擎 HTTPDNS 边缘云原生技术实践经验,从火山引擎 HTTPDNS 迁移至边缘的必要性出发,围绕实践过程当中遇到的困难和挑战,打造 HTTPDNS 下沉边缘解决方案,最终实现了性能提升、成本下降的全过程,以及对整体实践的回顾与未来展望。

图片

以下是演讲实录:

大家好,我今天分享的内容主要是火山引擎 HTTPDNS 边缘云原生技术实践。HTTPDNS 是服务于抖音集团几乎 95% 移动端用户的移动端域名解析服务,通过这次改造,HTTPDNS 服务从中心云完全下沉到了边缘,业务上的收获是 20% 的性能提升、 35% 的成本优化。本次分享主要聚焦于 HTTPDNS 服务进行边缘云原生改造的必要性,面临了什么挑战以及解决方案,最后我将分享在工程和技术管理上,用了哪些比较好的方法论保障项目最终落地。

在分享之初,先为大家介绍一下团队。HTTPDNS 作为移动端域名解析服务,是火山引擎 TrafficRoute DNS 套件的重要子产品。火山引擎 TrafficRoute DNS 套件包括了云解析、云调度、移动解析、公共解析等,服务于抖音、头条、飞书、豆包,同时还向 CDN、IaaS 等基础设施提供成套的域名接入、解析和调度的解决方案。通过产品概览图,大家可以看到在整个互联网全链路中,我们的产品是如何提供服务的。

图片

1. HTTPDNS 服务为何要做边缘云原生改造

火山引擎 HTTPDNS 是面向多端应用的域名解析服务,适用于移动端 APP、PC 客户端等多种应用场景,在抖音集团内部,服务于抖音、头条、豆包等产品的移动端域名解析服务,支撑起峰值达到千万级的 QPS ,日达万亿次的解析请求量,作为长期部署在中心云的服务,对可靠性和成本要求都比较高,为什么选择做边缘云原生的改造呢?

主要还是基于业务,同时来自外部业务和团队内部的诉求驱动着架构改造:

  • 外部驱动:随着抖音用户越来越多,HTTPDNS 的接入流量也从曾经的百万上涨到了千万级 QPS ,抖音集团业务希望 HTTPDNS 服务可以在缩减成本的基础上,降低解析时延,以此来提高业务收益;

  • 内部痛点:服务部署在中心云,整体架构稳定的同时也限制了性能的优化空间,受限于在中心云机房的部署的,资源、带宽的价格都是固定的,在流量不变的情况下,很难进一步压缩成本、提升性能。业内通常会选择使用 Anycast 来优化网络接入的质量和性能,但国内 Anycast 存在类似于 pop 点吸流不准以及运营商之间 BGP 路由不能完全打通的问题,性能不及预期。

在此基础上,HTTPDNS 团队关注到边缘云架构,边缘云在泛互联网、游戏、智能驾驶等行业实现了很好的支撑,整个边缘云的生态和技术相对比较成熟,可能是 HTTPDNS 服务进一步降低成本、提升性能的好机遇。

图片

作为承载大流量的服务,HTTPDNS 在应用边缘计算的时候会遇到一些挑战。

  • 资源受限:首先,千万级流量的 QPS 需要海量的计算资源,边缘计算自身拥有将服务部署在离用户近的位置、分布广泛、节点多的优势,同时也存在每个节点的容量较小、资源受限的问题,一方面体现在流量需求和资源分布不均的情况,另一方面边缘侧基础设施相对云中心仍在完善中;

  • 稳定性欠缺:其次,随着部署的节点越来越多,比如最早是三个 region 机房,当整体边缘下沉以后,大概会有近百个节点,这种情况会导致整个系统的运维复杂度上升,后期面临版本升级、不定期机房割接和裁撤等情况时,整个系统的可靠性会下降。

  • 收益难评估:最后,由于要从中心云迁移到边缘云,整个架构上需要对云原生的组件重新做适配。相关的可观测能力,包括监控告警、日志分析、运维自动化能力都需要重新建设,整个项目周期比较长,架构改造比较大,对于需要投入很多资源和人力来做的这种项目,如果在前期不能很好地评估风险和收益,那么最终可能会导致项目失败。

基于以上基础,我们最终结合了工程和技术思路来推进实践:在工程上,我们通过可控的稳定性换取收益;在技术上,我们通过架构升级和运维自动化进一步提高稳定性。

图片

2.HTTPDNS 服务边缘云原生改造时面临的挑战

HTTPDNS 服务在进行边缘云原生改造过程中遇到了哪些挑战?曾经引以为傲的成熟架构、完善体系,在中心云部署迁移到边缘云的时候,反而成为了很大的约束。因为架构成熟,所以对云组件的依赖特别强,因为体系完善,所以在中心云构建的一整套的运维自动化,以及容灾方案都需要在边缘云架构下重新构建。同时,HTTPDNS 服

第三部分,列表: QCon北京2018--《移动开发者触手可得的AI对话技术》--陈雨强.pdf QCon北京2018--《跳一跳的前世今生—.pdf QCon北京2018-Go高效并发编程蔡超.pdf QCon北京2018-《万台集群性能优化方法—.pdf QCon北京2018-《以Null的处理、回调地狱的应对为例,看C#背后的问题解决思路》-Mads Torgersen.pdf QCon北京2018-《唯快不破—.pdf QCon北京2018-《小Q机器人的诞生之路》-王辉.pdf QCon北京2018-《微服务甲骨文无服务器计算》-胡平.pdf QCon北京2018-《拥抱变化:演进式架构》-Neal_Ford.pdf QCon北京2018-《文本智能处理的深度学习技术》-陈运文.pdf QCon北京2018-《新一代数据中心对传统基础软件架构的挑战》-王华夏-4.17.pdf QCon北京2018-《无人店之人脸识别技术探讨》-王止观.pdf QCon北京2018-《智能业务运维驱动企业高效增长》-张涛 .pdf QCon北京2018-《未来都市--智慧城市基于深度学习的机器视觉》-陈宇恒.pdf QCon北京2018-《用Ethereum设计联盟链系统》-刘尚奇.pdf QCon北京2018-《用正确分享来磨练专家实力—.pdf QCon北京2018-业务高速发展下的互联网金融系统架构演变-张现双 .pdf QCon北京2018-互联网文本内容安全:一种对抗式AI设计实践-王国印.pdf QCon北京2018-优酷大数据质量平台及线上质量闭环-万传奇.pdf QCon北京2018-传统企业DevOps 微服务从0到1-Bocloud博云-赵安全.pdf QCon北京2018-关于时间的各种编程API设计问题-贺师俊.pdf QCon北京2018-培育创新生态系统,提升业务敏捷性-吴穹.pdf QCon北京2018-基于KubernetesHelm的应用部署平台构建实践-张夏-赵明 .pdf QCon北京2018-大数据助力测试策略制定到质量评估的智能化-张春兵.pdf QCon北京2018-大数据架构下的质量工具建设-孔祥云.pdf QCon北京2018-工程师个人成长中的若干心理学问题-李鑫.pdf QCon北京2018-手Q性能优化的大数据实战-谭力.pdf QCon北京2018-滴滴基于大数据的用户问题定位建设实践-张晓杰.pdf QCon北京2018-超越敏捷 互联网产品的交付创新方法-何勉.pdf QCon北京2018-适应性目标管理-付俊凤.pdf QCon北京2018-项目管理中的一些实用技巧-朱赟.pdf QCon北京2018-高并发大容量NOSQL解决方案探索-孟显耀.pdf
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值