
后端
文章平均质量分 92
百度Geek说
这个作者很懒,什么都没留下…
展开
-
如何正确的评测视频画质
本文从影响画质的因素是什么、为什么要不断提升视频画质等问题开始,进而介绍了画质评测的重要性、影响视频画质评测置信度的因素,最后介绍了自研的画质评测系统灵镜及其业务落地情况。...原创 2022-06-07 11:18:34 · 3508 阅读 · 1 评论 -
百度小程序包流式下载安装优化
文本介绍了百度小程序包下载链路的一种优化手段 —— 流式下载安装。首先引出原有方案的可优化点,接着探讨了优化方案是如何更充分地利用了网络IO、本地IO、CPU计算资源,最后介绍了代码层面的实现原理。原创 2022-04-20 10:42:51 · 257 阅读 · 0 评论 -
百度ToB垂类账号权限平台的设计与实践
百度 ToB 垂类账号权限平台( 以下简称平台 ),是专注于为百度 ToB 垂类各产品线提供通用账号权限服务的基础平台,所提供的服务涵盖了租户管理、账号管理、单点登录、权限管控、账号安全、企业资质。业务方将账号、权限相关服务托管给平台后可以专注于自身的业务研发。目前已经接入了爱番番、爱采购、寻客宝、出海易一期产品线总计超过 1000万的企业账号,为各 ToB 垂类业务提供一站式账号与权限解决方案,以下是简化版的业务架构图:原创 2022-04-13 17:12:56 · 1170 阅读 · 0 评论 -
日志中台不重不丢实现浅谈
日志数据的生命周期包含日志采集、接入、传输、应用等各个环节。数据的稳定性对于公司报表建设、决策分析、转化策略效果都有至关重要的影响。全文旨在介绍百度日志中台当前的现状,公司内部应用推广情况。尤其在数据准确性的建设上,进行深入的探讨。数据产生到最终业务应用中各个环节的稳定性建设,包括:数据上报时效性优化、接入持久化的思考、数据流式计算过程中的不重不丢建设等。原创 2022-04-07 16:02:55 · 2838 阅读 · 0 评论 -
客户画像赋能百度推广生态实践
百度推广是一个典型2B、2C结合的商业场景:一方面百度推广为客户(广告主)服务,为其提供易用的广告平台(广告投放系统、商机/订单系统等等),并获取优质的内容和服务能力;另一方面百度推广将客户的这些服务能力通过广告的形式提供给用户(网民),满足其娱乐/教育/购物等个性化需求,并在此过程中提升百度整体的商业价值。其中2C侧的画像「用户画像」已经相对比较成熟,并广泛应用于检索策略、营销赋能、观星盘、生态洞察等等场景,而2B侧的画像「客户画像」却往往被人所忽略。然而事实上,客户画像同样能发挥巨大的商业价值。下面笔者原创 2022-03-24 21:35:10 · 924 阅读 · 0 评论 -
百度一线工程师浅谈日新月异的云原生
云原生不但推动了互联网技术的快速进化,也在企业数字化转型、服务上云方面起到了越来越重要的作用,在研发质效、资源成本等方面起到了显著作用。云原生的技术生态过去几年也快速发展,越来越多的基础技术设施成为事实上的标准,进一步的降低了各个企业上云的门槛,可以说云原生正在加速重塑整个技术生态。01云原生催生了越来越多的研发范式云原生基础设施的成熟,使得很多的传统研发模式成为历史,新的研发范式层出不穷。比如随着 Node.js 的流行,前端工程师可以用自己最熟悉的语言来写服务端的代码,开始由前端向全栈的方向转变.原创 2022-03-18 09:47:49 · 216 阅读 · 0 评论 -
各项结果排名第一,百度内容技术架构团队在国际向量检索大赛BigANN中斩获佳绩
首届国际向量检索大赛BigANN是由人工智能领域全球顶级学术会议NeurIPS发起,旨在提升大规模ANN的研究创新和生产环境中的落地应用。虽是首届大赛,但因NeurIPS的极高知名度和权威性,吸引了众多知名企业和顶尖大学的同台竞技。本届比赛已于12月NeurlPS’21会议期间公布结果。百度内容技术架构团队自研ANN算法PUCK参加其中4个项目,评分均排名第一。原创 2022-02-17 11:29:57 · 1659 阅读 · 0 评论 -
百度APP视频播放中的解码优化
全文3514字,预计阅读时间26分钟一、背景在全民视频的时代,百度APP中视频播放是十分重要的业务。随着 5G 的到来,视频播放已经不满足以前的标清/高清,超清乃至于 4K 已经是旧时王谢堂前燕飞入寻常百姓家。越来越清晰的视频源,越来越复杂的视频编码,对 APP 的视频解码能力也有越来越高的要求。与此同时,大家的手机性能越来越好,很多手机都逐步提供了强悍的硬件解码能力;而软件解码发展多年,也有其不可替代的优势。所以,如何合理利用手机的软/硬件解码能力,充分发挥其各自优势,为用户们提供更加优质的视..原创 2022-02-08 11:39:08 · 3367 阅读 · 0 评论 -
百度爱番番实时CDP建设实践
随着营销3.0时代的到来,企业愈发需要依托强大CDP能力解决其严重的数据孤岛问题,帮助企业加温线索、促活客户。但什么是CDP、好的CDP应该具备哪些关键特征?本文在回答此问题的同时,详细讲述了爱番番租户级实时CDP建设实践,既有先进架构目标下的组件选择,也有平台架构、核心模块关键实现的介绍。全文19135字,预计阅读时间26分钟一、CDP是什么1.1 CDP由来CDP(Customer Data Platform)是近些年时兴的一个概念。随着时代发展、大环境变化,企业在自有媒体增多的同时,客原创 2022-02-08 11:19:03 · 821 阅读 · 0 评论 -
百亿级监控场景大数据分位值计算实践
背景百度广告业务系统建立在分布式系统之上,面向商业服务,每天发生各类接口调用PV达到百亿次,产生TB级的监控数据,对监控系统的设计也提出了巨大的挑战。分位值对接口性能的敏感度高,在性能分析中具有很大价值。1.1 分位值是什么分位值是一组数据中排名在某个百分比的值。如:开机时360提示“您的电脑击败了全国80%的用户”,即代表启动时间在全国所有电脑中排名20%分位值。1.2 Why分位值?在接口性能分析中,分位值至关重要。因为许多极端请求都集中在99%分位值以上,数量少但原创 2022-01-20 14:58:00 · 2218 阅读 · 0 评论 -
百度搜索中台新一代内容架构:FaaS化和智能化实战
百度搜索中台内容计算架构为在线提供了数十亿的异构且有丰富特征和信号的优质原材料。我们以 Serverless 理念为指引,通过FaaS化和智能化的系统性建设,构建了新一代内容数据计算系统,实现了业务研发效率、资源成本和架构稳定性维护性的显著提升。本文从搜索中台内容架构演进过程中遇到的问题入手, 分析系统设计思路,然后详细介绍具体实践方案。全文10719字,预计阅读时间7分钟一、背景搜索中台内容计算架构支持了数十个业务线的上百个检索场景,每个场景的数据都有一定的差异性,之前这些差异性都是由业务同学通过自原创 2022-01-13 11:21:46 · 2194 阅读 · 0 评论 -
深入理解百度在离线混部技术
【百度云原生导读】服务器资源利用率较低,TCO(IT 基础设施的总拥有成本)逐年上涨,对于拥有大量机器资源的公司来说无疑是一个头疼的问题。混部技术就是在这种情况下应运而生,目前,混部技术在业界还属于比较小众的领域,只有一些资源量级较大的公司在研究、发展混部技术,以期获得收益。对于百度而言,通过应用混部技术,主混部集群数十万台,提升CPU利用率到40+%,累计节约了数十亿人民币。目前百度容器引擎产品 CCE 已支持在离线混部,并完成了大规模业务落地,本文将带大家深入了解百度的在离线混部技术。1. 什原创 2022-01-06 15:21:25 · 434 阅读 · 0 评论 -
当技术重构遇上DDD,如何实现业务、技术双赢?
爱番番沟通基于百度商桥快速完成了产品功能和技术架构的从无到有,但同时也继承了百度商桥历史功能繁杂、技术架构陈旧的缺点。为了能更好地服务于爱番番沟通将来的产品演进,提高产研能效,需要从实际问题出发,聚焦主要矛盾,对产品架构和业务架构进行重构。原创 2022-01-06 11:08:40 · 1007 阅读 · 0 评论 -
百度智能云实战——静态文件CDN加速
在H5项目研发过程中,发现我们明显降低了H5的要求。我们将更多的精力投入到需求满足,交互体验上,却忽略了我们的基本底线,性能。H5的一些基本性能优化方式,如SSR、静态资源加速,在积压的需求面前,也被大家遗忘在角落。希望通过本文的阅读,能给大家提供一个依托百度智能云和CDN技术进行静态文件加速的方案,为H5优化做出一名后端RD的贡献。原创 2021-12-23 11:18:11 · 1336 阅读 · 0 评论 -
百度搜索中台海量数据管理的云原生和智能化实践
百度搜索中台将搜索核心能力赋能阿拉丁(百度搜索特型结果)、垂直领域搜索、应用内搜索等场景,支撑了数百个检索场景、百亿级内容数据的检索。我们通过智能化的设计理念,在容量自动调整、数据按需存储等方面取得了效率和成本的显著收益,并通过进阶云原生的设计,在海量数据和海量检索方面实现高可用和高性能。通过海量数据管理的云原生和智能化,我们希望低成本的实现让用户找到每一个有价值的数据。原创 2021-12-16 10:57:26 · 1442 阅读 · 0 评论 -
短视频个性化Push工程精进之路
导读:短视频Push系统是一套支持百度内多款app及多业务场景的分布式Push系统,目前支撑着好看视频,直播,度小视,好看大字版等app的推送业务,提供基于用户基本特征的个性化推送,热门活动和热点事件的运营推送,基于关注关系或订阅关系的业务实时推送等场景的支持。旨在通过个性化推荐系统及运营编辑方式稳定高效的给用户通知栏消息推送自己喜欢的内容信息从而达到提高用户活跃度,提升用户留存的业务目标。全文5886字,预计阅读时间15分钟。背景:在这个信息爆炸的互联网时代,能够及时和准确获取信息是当今社会要解决的关键问原创 2021-11-16 14:17:07 · 2075 阅读 · 0 评论 -
基于etcd实现大规模服务治理应用实战
百度Geek说 关注我们,带你了解更多百度技术干货。 65篇原创内容 ...原创 2021-11-11 14:23:47 · 613 阅读 · 0 评论 -
Flux架构思想在度咔App中的实践
百度Geek说 关注我们,带你了解更多百度技术干货。 61篇原创内容 ...原创 2021-10-28 10:42:03 · 1971 阅读 · 0 评论 -
iOS签名校验那些事儿
百度Geek说 关注我们,带你了解更多百度技术干货。 58篇原创内容 ...原创 2021-10-15 11:28:05 · 626 阅读 · 0 评论 -
信息流推荐系统智能交付解决方案探索
导读:信息流产品为了给大家提供千人千面的内容推荐,后端构建了一个庞大、复杂的推荐系统,整个系统包括上百个模块,上百个策略算法以及模型,并且这个系统以极高速的效率迭代,日均上线近百个需求;这样庞大的系统如何做到这样高速稳定的迭代呢? 这里离不开 PM、RD、QA等各角色共同构建的智能交付系统。引言本文主要介绍了百度大规模信息流推荐系统研发、交付效能提升的相关实践。涵盖研发、测试、发布、上线部署各个阶段,通过智能化手段,结合数据和算法,实现效能提升、以及流程智能流转,最终实现全流程的无人值守。一、背景介绍信息流原创 2021-10-12 10:35:09 · 379 阅读 · 0 评论 -
图谱相关技术在风控反作弊中的应用和探索
导读:互联网黑产不断发展壮大,作弊模式逐渐变得规模化、产业化,团伙作弊行为日益猖獗。为了进一步提升百度账号的安全和用户体验,维护公司核心利益,百度账号安全策略团队结合自身在账号安全领域的优势,构建了可以处理海量数据、具备丰富扩展性的关联图谱黑产团伙挖掘能力,充分实践应用并不断拓展落地场景,同时也在图神经网络等前沿领域探索相关技术在风控反作弊场景中的应用价值,致力于构建高效、完备的基于图谱的风控反作弊能力。全文3770字,预计阅读时间14分钟。一、简介《中国互联网络发展状况统计报告》显示,截止2021年6原创 2021-09-30 15:00:25 · 448 阅读 · 0 评论 -
百度信息流和搜索业务中的KV存储实践
导读:近年来,云原生化、全用户态、软硬协同等技术对KV存储服务产生了巨大的影响,上述技术在极大提升了服务的性能和降低服务成本的同时,也对系统的架构和实现提出了新的要求。百度在信息流和搜索业务中大量使用了KV存储服务,服务每天响应近千亿次各类访问请求,如何运用上述技术提升系统的性能、稳定性和运维人效是我们重点考虑的问题。本文通过介绍我们应用上述技术打造高性能KV存储系统的实践过程,为大家分享了我们在单机性能优化,大规模集群设计、管理等方面的思路和实践经验。全文7854字,预计阅读时间21分钟。自2016年起,原创 2021-09-28 13:36:59 · 215 阅读 · 0 评论 -
云原生架构下的持续交付实践
百度Geek说 关注我们,带你了解更多百度技术干货。 52篇原创内容 ...原创 2021-09-14 10:48:15 · 455 阅读 · 1 评论 -
一年数十万次实验背后的架构与数据科学
导读:人工智能时代,A/B Test实验是数据驱动型组织的核心依赖。一套好的实验系统能支撑产品快速迭代,用数据说话,辅助快速做出正确产品决策。那么如何保证几百上千人的团队在超复杂系统中保持高效迭代?如何在超大规模数据量下快速产出报表?如何降低抽样波动尽快产出置信的数据结论?本文主要从以上几个方面探讨A/B Test平台在实际生产环境的具体实践和思考。全文预计阅读时间 9分钟。推荐阅读:|百度短视频推荐系统的目标设计|百度信誉认证中台架构解析|图数据库在百度汉语中的应用|5分钟学会Flutter开发#文末福利原创 2021-09-09 10:51:36 · 108 阅读 · 0 评论 -
百度短视频推荐系统的目标设计
导读:短视频产品最近两年蓬勃发展,百度旗下的短视频品牌-好看视频,人均使用时长70分钟,短视频播放量已超30亿,从推荐系统的角度考虑,如何设计一个推荐系统的目标,以及短视频迭代过程中沉淀的思考。全文2433字,预计阅读时间 8分钟。《2020年中国网络视听发展研究报告》显示,截至2020年6月,中国网络视听用户规模已超过9亿,短视频用户达到了8.2亿,这些用户平均每天花费近2小时观看短视频。与此同时,百度旗下的短视频品牌——好看视频,人均使用时长70分钟,短视频播放量已超30亿,好看视频的海量内容也是搜索非原创 2021-09-07 15:25:21 · 844 阅读 · 0 评论 -
百度信誉认证中台架构解析
导读:百度信誉认证是以人工智能、企业大数据等技术能力为基础,搭建的面向企业、机构以及个人等主体的核验系统化服务平台,旨在为不同行业和业务领域提供身份识别、反欺诈、信息核验等系列产品能力及一体化解决方案。百度信誉认证,涵盖风控与增信两大核心服务,主要为信息分发平台、互动文娱平台、行业垂类、知识垂类、商业产品等提供合规的客户与可信的内容。其业务目标在于:围绕生产者及其提供的内容和服务,构建百度信誉认证生态,让用户放心的在百度获取信息和服务。全文5460字,预计阅读时间 12分钟。一、背景百度信誉认证的业务目标在原创 2021-08-31 10:33:15 · 495 阅读 · 0 评论 -
图数据库在百度汉语中的应用
导读:随着各行业的快速发展,数据间的关联性越来越高,但是传统数据库很难处理层次深、种类多的关系运算,由此图数据库应运而生。而本文则是介绍了图数据库在百度汉语中种类多样的场景下的应用。全文3909字,预计阅读时间 6分钟。一、前言百度汉语业务包含字、词、古诗、成语、歇后语等10多种分类,共涉及实体数据1千多万条,虽然涉及的数据量级不大,但每个实体类型的属性繁多。比如一首古诗就包含内容、诗体、释意、作者、诗名、赏析、背景、标签等几十种属性,同时产品上需要支持“静夜思的作者是那个朝代的人”这样多种关联条件的查询。原创 2021-08-26 14:23:33 · 343 阅读 · 0 评论 -
如何快速定位程序Core?
百度Geek说 关注我们,带你了解更多百度技术干货。 44篇原创内容 ...原创 2021-08-17 14:35:38 · 293 阅读 · 0 评论 -
千亿级模型在离线一致性保障方案详解
百度Geek说 关注我们,带你了解更多百度技术干货。 44篇原创内容 ...原创 2021-08-17 11:27:22 · 339 阅读 · 0 评论 -
百度BaikalDB在同程艺龙的成功应用实践剖析
百度Geek说 关注我们,带你了解更多百度技术干货。 41篇原创内容 ...原创 2021-08-10 10:44:36 · 495 阅读 · 0 评论 -
解密百TB数据分析如何跑进45秒
百度Geek说 关注我们,带你了解更多百度技术干货。 39篇原创内容 ...原创 2021-07-29 11:12:19 · 144 阅读 · 0 评论 -
百度交易中台之商品推广流程构建以及实现
点击关注「百度Geek说」更多技术干货等着你导读:从2020年开始,百度开始构建自己的商品推广系统,目前系统应用在百家号和直播场景中,为B端商家以及C端作者、主播提供了便捷带货流程,为广大用户提供了直接简单的购物体验。本文按照业务概念、用户界面、系统架构、核心实现的顺序介绍商品推广系统,旨在抛砖引玉,希望能给读者带来思考和帮助。全文5874字,预计阅读时间12分钟。一、推广流程概述上次谈到的《百度交易中台之订单系统架构浅析》,讲述了订单系统的实现方式以及迭代流程,本期基于订单系统,继续介绍推广系统的设计与实原创 2021-07-08 11:02:35 · 568 阅读 · 0 评论 -
百度搜索稳定性问题分析的故事(下)
点击关注「百度Geek说」更多技术干货等着你导读:百度搜索系统是百度历史最悠久、规模最大并且对其的使用已经植根在大家日常生活中的系统。坊间有一种有趣的做法:很多人通过打开百度搜索来验证自己的网络是不是通畅的。这种做法说明百度搜索系统在大家心目中是“稳定”的代表,且事实确是如此。百度搜索系统为什么具有如此高的可用性?背后使用了哪些技术?以往的技术文章鲜有介绍。本文立足于大家所熟悉的百度搜索系统本身,为大家介绍其可用性治理中关于“稳定性问题分析”方面使用的精细技术,以历史为线索,介绍稳定性问题分析过程中的困厄之原创 2021-07-06 10:30:00 · 269 阅读 · 0 评论 -
百度搜索稳定性问题分析的故事(上)
点击关注「百度Geek说」更多技术干货等着你导读:百度搜索系统是百度历史最悠久、规模最大并且对其的使用已经植根在大家日常生活中的系统。坊间有一种有趣的做法:很多人通过打开百度搜索来验证自己的网络是不是通畅的。这种做法说明百度搜索系统在大家心目中是“稳定”的代表,且事实确是如此。百度搜索系统为什么具有如此高的可用性?背后使用了哪些技术?以往的技术文章鲜有介绍。本文立足于大家所熟悉的百度搜索系统本身,为大家介绍其可用性治理中关于“稳定性问题分析”方面使用的精细技术,以历史为线索,介绍稳定性问题分析过程中的困厄之原创 2021-07-01 14:02:24 · 317 阅读 · 0 评论 -
社群编码识别黑灰产攻击实践
导读:所谓黑灰产,包含网络黑产、灰产两条产业链,随着互联网的飞速发展,网络黑灰产也在不断演变,当前网络黑灰产已经趋于平台化、专业化、精细化运作。基于黑灰产攻击特点,我们提出了一种基于社群编码的黑灰产攻击识别方法,社群发现部分基于图关系,编码部分引入大规模的图嵌入表示学习。相比于传统的图谱关系挖掘,可以更好的识别和度量未知攻击。而且我们还提出了基于异步准实时的工程化实现,对频繁变化的黑灰产攻击有更强的应变灵活性。全文4424字,预计阅读时间12分钟。一、背景所谓黑灰产,包含网络黑产、灰色两条产业链,随着互联网原创 2021-06-25 11:26:03 · 454 阅读 · 2 评论 -
PornNet:色情视频内容识别网络
导读: 色情视频内容已经严重危害互联网安全,色情内容常以图像和音频两种形式存在,本文介绍了基于图像和音频的色情视频内容识别方法。全文1653字,预计阅读时间5分钟。一、背景随着移动互联网的发展, 短视频成为人们日常娱乐的主要方式,每天有大量的用户通过互联网上传和下载短视频。但有些短视频中存在涉黄内容,这不但对青少年的心理健康产生严重影响,也是引起社会不安全的因素之一。色情视频的内容识别是个多模的问题,包括:色情图像识别和色情语音识别。在色情图像识别领域,尽管色情图像领域有人研究,但是色情图像识别仍原创 2021-06-22 11:02:01 · 8144 阅读 · 0 评论 -
百度爱番番与Servicemesh不得不说的故事
点击关注「百度Geek说」更多技术干货等着你导读:服务网格( Servicemesh )于 2018 年夏天随着 Istio1.0 的正式发布席卷全球,国内各大公司也遍地开花,其所带来的理念逐步为各方所接受并风靡。爱番番基于自身的痛点和 ToB 行业的特点,携手公司基础架构,于 2020 年 8 月底正式启动了 Servicemesh 项目,仅用 3 个月就快速完成了 Java 业务应用的全切,成为百度第一个将商用生产系统完全基于原生 Kubernetes + Istio 运行的产品。全文6492字,预计阅原创 2021-06-01 10:12:53 · 340 阅读 · 0 评论 -
聊聊微服务治理的落地问题 | Geek大咖说第二期
点击关注「百度Geek说」更多技术干货等着你导读:关于服务治理,业界的讨论比较多,但还没有一个统一的解释。从实践角度,很多从业者会把服务治理和Service Mesh绑定起来。而百度搜索引擎和推荐引擎的微服务治理,有着自己的特点和定义。Geek大咖说第二期,我们再次邀请到MEG推荐技术架构部的传玉老师,跟大家聊聊我们自己的微服务治理是怎么落地的,效果如何。全文3864字,预计阅读时间7分钟。嘉宾简介 :传玉推荐技术架构部技术专家。2012年起专注于搜索引擎与推荐引擎方向;2016年开始负责自有的资源调度和容原创 2021-05-27 11:21:01 · 177 阅读 · 0 评论 -
详解支撑7亿用户搜索的百度图片处理收录中台
点击关注「百度Geek说」更多技术干货等着你导读:在百度搜索中,主要由“搜索在线”和“搜索离线”两部分构成,“在线”服务主要用于响应用户请求,“离线”服务则将各种来源的数据转换处理后送入“在线”服务中。“搜索离线”的数据处理是一个典型的海量数据批次/实时计算结合的场景。全文4142字,预计阅读时间8分钟。 一、多模态检索背后的”离线“与“在线”在百度搜索中,主要由“搜索在线”和“搜索离线”部分构成,“在线”服务主要用于响应用户请求,“离线”服务则将各种来源的数据转换处理后送入“在线”服务中。“搜索原创 2021-05-18 13:58:40 · 329 阅读 · 1 评论 -
详解百度富媒体检索比对系统的关键技术
导读:百度富媒体检索比对系统是一套基于Ann(approximate nearest neighbor)检索和内容特征比对技术,旨在提供针对图像、音频、视频等多媒体资源的相似检索系统。包括离线训练、建库,在线特征提取、检索。目前百度富媒体检索比对系统除了承接了百度FEED所有视频、图像的反作弊、下发去重以及关联推荐和黄反等业务,另外还支持了包括视频搜索、贴吧、文库在内的数十个业务方,支撑了千亿级数据规模。在数据规模、系统性能、召回率和准确度上都处于领先地位。全文5612字,预计阅读时间11分钟。一、背.原创 2021-05-11 14:35:51 · 571 阅读 · 0 评论