
百度
文章平均质量分 92
百度Geek说
这个作者很懒,什么都没留下…
展开
-
百度智能云向量数据库创新和应用实践分享
在大模型时代,数据库与大模型相互成就。我们也看到了很多新的趋势,从底层的 IaaS,模型会从云端扩展到端,PaaS 会从现在纯文本模型扩展到多模态,上层应用会从当前主流的 Copilot 扩展到 Agent,更充分利用大模型的自主决策能力。在向量检索这个场景中,存储的是非结构化数据,业务使用的越广泛,需要存储的数据就越多,因此在架构选型的时候,建议更早的预判到未来的业务增量,提前选择一个长期收益都很大的产品。我们会看到从客户场景角度,需要的是一个专业全面的能力的数据库,不是一个简单的插件可以完成的。转载 2024-09-12 10:06:09 · 401 阅读 · 1 评论 -
百度ToB垂类账号权限平台的设计与实践
百度 ToB 垂类账号权限平台( 以下简称平台 ),是专注于为百度 ToB 垂类各产品线提供通用账号权限服务的基础平台,所提供的服务涵盖了租户管理、账号管理、单点登录、权限管控、账号安全、企业资质。业务方将账号、权限相关服务托管给平台后可以专注于自身的业务研发。目前已经接入了爱番番、爱采购、寻客宝、出海易一期产品线总计超过 1000万的企业账号,为各 ToB 垂类业务提供一站式账号与权限解决方案,以下是简化版的业务架构图:原创 2022-04-13 17:12:56 · 1170 阅读 · 0 评论 -
日志中台不重不丢实现浅谈
日志数据的生命周期包含日志采集、接入、传输、应用等各个环节。数据的稳定性对于公司报表建设、决策分析、转化策略效果都有至关重要的影响。全文旨在介绍百度日志中台当前的现状,公司内部应用推广情况。尤其在数据准确性的建设上,进行深入的探讨。数据产生到最终业务应用中各个环节的稳定性建设,包括:数据上报时效性优化、接入持久化的思考、数据流式计算过程中的不重不丢建设等。原创 2022-04-07 16:02:55 · 2838 阅读 · 0 评论 -
百度程序员开发避坑指南(前端篇)
日常工作开发中,遇到哪些坑是让你印象深刻且具有挑战的,它们是怎么产生的,我们该如何避免?本期我们带来与前端开发相关的三个问题:一次网页资源加载问题的定位过程;CSS中的z-index层叠覆盖问题;CSS3 transform 属性对 position 的影响,希望能为你的技术提升助力。原创 2022-04-07 15:45:46 · 5342 阅读 · 0 评论 -
视觉Transformer中的输入可视化方法
视觉Transformer的输入可视化方法,正广泛应用于百度内容理解和内容风控相关业务中,帮助研究人员构建效果更好的模型。百度内容策略团队,基于Transformer的输入可视化方法分析风控色情图像分类模型的误检数据,定向设计数据处理策略,在保持色情图像召回不变的情况下误检相比base下降76.2%,极大的提升了模型的准确性。全文2760字,预计阅读时间7分钟一、可视化含义与意义自2012年AlexNet出现以来,卷积神经网络逐渐成为图像分类、目标检测、语义分割等常见视觉任务中效果最好的方法之一,引起原创 2022-03-30 13:08:35 · 4723 阅读 · 1 评论 -
客户画像赋能百度推广生态实践
百度推广是一个典型2B、2C结合的商业场景:一方面百度推广为客户(广告主)服务,为其提供易用的广告平台(广告投放系统、商机/订单系统等等),并获取优质的内容和服务能力;另一方面百度推广将客户的这些服务能力通过广告的形式提供给用户(网民),满足其娱乐/教育/购物等个性化需求,并在此过程中提升百度整体的商业价值。其中2C侧的画像「用户画像」已经相对比较成熟,并广泛应用于检索策略、营销赋能、观星盘、生态洞察等等场景,而2B侧的画像「客户画像」却往往被人所忽略。然而事实上,客户画像同样能发挥巨大的商业价值。下面笔者原创 2022-03-24 21:35:10 · 924 阅读 · 0 评论 -
深入理解 WKWebView (渲染篇) —— DOM 树的构建
当客户端 App 主进程创建 WKWebView 对象时,会创建另外两个子进程:渲染进程与网络进程。主进程 WKWebView 发起请求时,先将请求转发给渲染进程,渲染进程再转发给网络进程,网络进程请求服务器。如果请求的是一个网页,网络进程会将服务器的响应数据 HTML 文件字符流吐给渲染进程。渲染进程拿到 HTML 文件字符流,首先要进行解析,将 HTML 文件字符流转换成 DOM 树,然后在 DOM 树的基础上,进行渲染操作,也就是布局、绘制。最后渲染进程通知主进程原创 2022-03-22 14:38:07 · 7217 阅读 · 0 评论 -
百度一线工程师浅谈日新月异的云原生
云原生不但推动了互联网技术的快速进化,也在企业数字化转型、服务上云方面起到了越来越重要的作用,在研发质效、资源成本等方面起到了显著作用。云原生的技术生态过去几年也快速发展,越来越多的基础技术设施成为事实上的标准,进一步的降低了各个企业上云的门槛,可以说云原生正在加速重塑整个技术生态。01云原生催生了越来越多的研发范式云原生基础设施的成熟,使得很多的传统研发模式成为历史,新的研发范式层出不穷。比如随着 Node.js 的流行,前端工程师可以用自己最熟悉的语言来写服务端的代码,开始由前端向全栈的方向转变.原创 2022-03-18 09:47:49 · 216 阅读 · 0 评论 -
GDP Streaming RPC 设计
GDP (Go Develop Platform)是百度内使用的 RPC 框架,具备完善的 RPC Client 和 RPC Server 能力,可以用来开发 API、Web 及后端服务等各种应用。GDP Streaming RPC 是基于 GDP RPC 能力开发的流式 RPC 框架,在实现功能基础上设计的一套面向流传输场景的传输框架,提供了流式传输应用场景的方案。百度内使用流式 RPC 方案首选为 baidu-rpc (开源项目为 brpc)streaming,GDP str原创 2022-03-08 15:48:34 · 2667 阅读 · 0 评论 -
Android包体积优化上篇- 资源混淆优化
什么时候进行包体积优化?一般在app初创期时,由于业务代码较少,包体积也不大,相应这个时候对包体积的优化收益也较少。当业务逐渐成熟功能,迭代逐渐变多,包体积也会逐渐增加。增加包体积主要影响如下几个方面:1: 如果针对app,会影响到下载转化率,但手百内部直播属于插件,所以不存在转化率的问题,存在插件的下载时长问题,进而在一定程度上影响插件冷启首屏;2: 渠道商合作的要求,这个要求只在app里面,如果是插件不受其影响,app的体积越大,渠道商的资费会更高,如要求更大的ROM空间,更长的安装时间,这些都极原创 2022-03-01 14:18:03 · 2301 阅读 · 0 评论 -
前端SSR的落地实践
全文3268字,预计阅读时间8分钟目录:一、名词解释二、业务背景:新增服务市场业务线三、困境:服务端的渲染由后端主导,前端只负责产出静态(浏览器端执行)js文件四、重新开始:前端也能做服务端渲染,js也能在服务端生成html1:引入Node.js做服务渲染层2:确定SSR技术方案node-vue-ssr五、新的挑战:Node.js和SSR的加入,同构逻辑冗杂六、合理分层:拆解不同端的复杂度,一次开发多端生效,提高开发效率七、配置化开发:每一层开发单元如何工作传递给下一层.原创 2022-02-22 14:31:27 · 1330 阅读 · 0 评论 -
各项结果排名第一,百度内容技术架构团队在国际向量检索大赛BigANN中斩获佳绩
首届国际向量检索大赛BigANN是由人工智能领域全球顶级学术会议NeurIPS发起,旨在提升大规模ANN的研究创新和生产环境中的落地应用。虽是首届大赛,但因NeurIPS的极高知名度和权威性,吸引了众多知名企业和顶尖大学的同台竞技。本届比赛已于12月NeurlPS’21会议期间公布结果。百度内容技术架构团队自研ANN算法PUCK参加其中4个项目,评分均排名第一。原创 2022-02-17 11:29:57 · 1659 阅读 · 0 评论 -
如何编写sdk?
在平时工作中,我们会把通用的代码,合并到一个通用的SDK中,增加大家工作效率,本文主要分享我们在编写SDK时候的准入标准以及相关编码思想。首先需要回答,为什么要编写SDK?1. 避免重复造轮子2. 减少线上bug概率1.1 避免重复造轮子好的sdk可以帮助团队省时省力,将相同的功能抽象到一个通用sdk中,前人栽树后人乘凉。1.2 减少线上bug概率1. 经过大家共同的优化出bug的可能性较低,即使出bug,也只需要修改sdk即可;2. 若每个代码库都实现一遍原创 2022-02-17 11:00:51 · 1371 阅读 · 0 评论 -
百度APP视频播放中的解码优化
全文3514字,预计阅读时间26分钟一、背景在全民视频的时代,百度APP中视频播放是十分重要的业务。随着 5G 的到来,视频播放已经不满足以前的标清/高清,超清乃至于 4K 已经是旧时王谢堂前燕飞入寻常百姓家。越来越清晰的视频源,越来越复杂的视频编码,对 APP 的视频解码能力也有越来越高的要求。与此同时,大家的手机性能越来越好,很多手机都逐步提供了强悍的硬件解码能力;而软件解码发展多年,也有其不可替代的优势。所以,如何合理利用手机的软/硬件解码能力,充分发挥其各自优势,为用户们提供更加优质的视..原创 2022-02-08 11:39:08 · 3367 阅读 · 0 评论 -
百度搜索中台新一代内容架构:FaaS化和智能化实战
百度搜索中台内容计算架构为在线提供了数十亿的异构且有丰富特征和信号的优质原材料。我们以 Serverless 理念为指引,通过FaaS化和智能化的系统性建设,构建了新一代内容数据计算系统,实现了业务研发效率、资源成本和架构稳定性维护性的显著提升。本文从搜索中台内容架构演进过程中遇到的问题入手, 分析系统设计思路,然后详细介绍具体实践方案。全文10719字,预计阅读时间7分钟一、背景搜索中台内容计算架构支持了数十个业务线的上百个检索场景,每个场景的数据都有一定的差异性,之前这些差异性都是由业务同学通过自原创 2022-01-13 11:21:46 · 2194 阅读 · 0 评论 -
深入理解百度在离线混部技术
【百度云原生导读】服务器资源利用率较低,TCO(IT 基础设施的总拥有成本)逐年上涨,对于拥有大量机器资源的公司来说无疑是一个头疼的问题。混部技术就是在这种情况下应运而生,目前,混部技术在业界还属于比较小众的领域,只有一些资源量级较大的公司在研究、发展混部技术,以期获得收益。对于百度而言,通过应用混部技术,主混部集群数十万台,提升CPU利用率到40+%,累计节约了数十亿人民币。目前百度容器引擎产品 CCE 已支持在离线混部,并完成了大规模业务落地,本文将带大家深入了解百度的在离线混部技术。1. 什原创 2022-01-06 15:21:25 · 434 阅读 · 0 评论 -
当技术重构遇上DDD,如何实现业务、技术双赢?
爱番番沟通基于百度商桥快速完成了产品功能和技术架构的从无到有,但同时也继承了百度商桥历史功能繁杂、技术架构陈旧的缺点。为了能更好地服务于爱番番沟通将来的产品演进,提高产研能效,需要从实际问题出发,聚焦主要矛盾,对产品架构和业务架构进行重构。原创 2022-01-06 11:08:40 · 1007 阅读 · 0 评论 -
接口文档自动更改?百度程序员开发效率MAX的秘诀
相信无论是前端还是后端开发,都或多或少地被接口文档折磨过。前端经常抱怨后端给的接口文档与实际情况不一致。后端又觉得编写及维护接口文档会耗费不少精力,经常来不及更新。其实无论是前端调用后端,还是后端调用后端,都期望有一个好的接口文档。但是随着时间推移,版本迭代,接口文档往往很容易就跟不上代码了,更会出现之前的同学没有把接口文档交接清楚就离职,留下一个繁重复杂的项目,重新啃起来异常艰难,不亚于自己从头写一遍。因此仅仅只通过强制来规范大家是不够的。我们研究了Swagger到Yapi的打通方法。有了它之后,我原创 2021-12-30 16:32:31 · 417 阅读 · 0 评论 -
百度智能云实战——静态文件CDN加速
在H5项目研发过程中,发现我们明显降低了H5的要求。我们将更多的精力投入到需求满足,交互体验上,却忽略了我们的基本底线,性能。H5的一些基本性能优化方式,如SSR、静态资源加速,在积压的需求面前,也被大家遗忘在角落。希望通过本文的阅读,能给大家提供一个依托百度智能云和CDN技术进行静态文件加速的方案,为H5优化做出一名后端RD的贡献。原创 2021-12-23 11:18:11 · 1336 阅读 · 0 评论 -
百度搜索中“鱼龙混杂”的加盟信息,如何靠AI 解决?
从粗放式流量覆盖到精细化用户时长提升的转变,以及构建个性化、场景化文案创意的生成,迫切需要一套自动化、系统化的智能内容生成解决方案,来缓解人工创作下的耗时长、成本高等问题。本文将从行业背景出发,全面介绍下招商加盟行业下内容场景的特点,最后重点介绍加盟星在招商加盟行业下探索的 AI 创作解决方案。原创 2021-12-14 13:33:37 · 1067 阅读 · 0 评论 -
全面解锁Kubernetes?百度爱番番技术实践全解析
百度爱番番为什么会选择 Kubernetes ?谁来帮我搞定 Kubernates 集群?迁移的工作量大么?有什么收益?那么接下来,我们将现身说法,针对大家可能关心的问题做个概述。原创 2021-12-09 10:39:01 · 458 阅读 · 0 评论 -
百度文库新一代文档阅读器,核心技术点全解析
文库有数十亿文档,包括 word、ppt、excel、txt 和 pdf 等十几种常见办公文档,核心技术是转码和展现,转码的目的是把不同文档进行解析转换成一套通用的数据格式,由后端实现,而展现是把文档数据进行渲染。在这之前,文库前端采用的HTML+CSS进行渲染,这种方式在后面的业务发展过程中遇到了阻力,比如很难实现文档导出长图、文档标记、关键字高亮、水印、文档内容分析、防复制等。原创 2021-12-07 10:39:25 · 757 阅读 · 0 评论 -
详解预训练模型在信息检索第一阶段的应用
百度Geek说 关注我们,带你了解更多百度技术干货。 69篇原创内容 ...原创 2021-11-30 10:56:27 · 2240 阅读 · 0 评论 -
百度商业大规模高性能全息日志检索技术全解
百度Geek说 关注我们,带你了解更多百度技术干货。 68篇原创内容 ...原创 2021-11-29 10:44:50 · 186 阅读 · 0 评论 -
短视频个性化Push工程精进之路
导读:短视频Push系统是一套支持百度内多款app及多业务场景的分布式Push系统,目前支撑着好看视频,直播,度小视,好看大字版等app的推送业务,提供基于用户基本特征的个性化推送,热门活动和热点事件的运营推送,基于关注关系或订阅关系的业务实时推送等场景的支持。旨在通过个性化推荐系统及运营编辑方式稳定高效的给用户通知栏消息推送自己喜欢的内容信息从而达到提高用户活跃度,提升用户留存的业务目标。全文5886字,预计阅读时间15分钟。背景:在这个信息爆炸的互联网时代,能够及时和准确获取信息是当今社会要解决的关键问原创 2021-11-16 14:17:07 · 2075 阅读 · 0 评论 -
基于etcd实现大规模服务治理应用实战
百度Geek说 关注我们,带你了解更多百度技术干货。 65篇原创内容 ...原创 2021-11-11 14:23:47 · 613 阅读 · 0 评论 -
质效中台助力实现质量度模型规模化落地
百度Geek说 关注我们,带你了解更多百度技术干货。 64篇原创内容 ...原创 2021-11-10 11:20:29 · 228 阅读 · 0 评论 -
百度爱番番数据分析体系的架构与实践
导读:讲述在业务快速迭代发展过程中,为了让大数据更好地赋能业务,高效的为用户提供有业务价值的数据产品和服务,百度爱番番的数据团队构建实时和离线大数据基础平台的心路历程,包括如何应对业务、技术、组织等方面的挑战和解决实际痛点过程中的思考与实践。全文9911字,预计阅读时间24分钟。一、前言作为一站式的公私域智能营销与销售加速器,爱番番既承载着百度内部生态的各类推广平台的线索数据(例如:搜索、信息流、基木鱼自建站等营销推广平台的业务沟通、询价收集、表单留资等用户行为形成的线索)的落潜、管控、跟进以及转化等业务能原创 2021-11-05 10:53:11 · 480 阅读 · 0 评论 -
托管页前端异常监控与治理实战
百度Geek说 关注我们,带你了解更多百度技术干货。 64篇原创内容 ...原创 2021-11-04 14:02:44 · 402 阅读 · 0 评论 -
iOS 崩溃日志在线符号化实践
导读:本文将介绍什么是符号化?如何做本地符号化?为什么做在线符号化?全文14328字,预计阅读时间28分钟。一、 什么是符号化?在日常开发中,应用难免会发生崩溃。通常,我们直接从用户导出来的崩溃日志都是未符号化或者部分符号化的,都是一堆十六进制内存地址的集合,可读性较差。未符号化或者部分符号化的崩溃日志对闪退问题的解决几乎毫无帮助,如下所示:Last Exception Backtrace:0 CoreFoundation 0x1ca4cd27c 0x1ca3b5000 + 11475161 li原创 2021-10-28 14:34:30 · 1361 阅读 · 1 评论 -
Flux架构思想在度咔App中的实践
百度Geek说 关注我们,带你了解更多百度技术干货。 61篇原创内容 ...原创 2021-10-28 10:42:03 · 1971 阅读 · 0 评论 -
好看视频Android重构——围绕于播放器的重构实践
百度Geek说 关注我们,带你了解更多百度技术干货。 55篇原创内容 ...原创 2021-09-23 14:50:48 · 316 阅读 · 0 评论 -
浅谈百度阅读/文库NA端排版技术
百度Geek说 关注我们,带你了解更多百度技术干货。 53篇原创内容 ...原创 2021-09-16 14:16:33 · 466 阅读 · 0 评论 -
一年数十万次实验背后的架构与数据科学
导读:人工智能时代,A/B Test实验是数据驱动型组织的核心依赖。一套好的实验系统能支撑产品快速迭代,用数据说话,辅助快速做出正确产品决策。那么如何保证几百上千人的团队在超复杂系统中保持高效迭代?如何在超大规模数据量下快速产出报表?如何降低抽样波动尽快产出置信的数据结论?本文主要从以上几个方面探讨A/B Test平台在实际生产环境的具体实践和思考。全文预计阅读时间 9分钟。推荐阅读:|百度短视频推荐系统的目标设计|百度信誉认证中台架构解析|图数据库在百度汉语中的应用|5分钟学会Flutter开发#文末福利原创 2021-09-09 10:51:36 · 108 阅读 · 0 评论 -
百度信誉认证中台架构解析
导读:百度信誉认证是以人工智能、企业大数据等技术能力为基础,搭建的面向企业、机构以及个人等主体的核验系统化服务平台,旨在为不同行业和业务领域提供身份识别、反欺诈、信息核验等系列产品能力及一体化解决方案。百度信誉认证,涵盖风控与增信两大核心服务,主要为信息分发平台、互动文娱平台、行业垂类、知识垂类、商业产品等提供合规的客户与可信的内容。其业务目标在于:围绕生产者及其提供的内容和服务,构建百度信誉认证生态,让用户放心的在百度获取信息和服务。全文5460字,预计阅读时间 12分钟。一、背景百度信誉认证的业务目标在原创 2021-08-31 10:33:15 · 495 阅读 · 0 评论 -
短视频go研发框架实践
百度Geek说 关注我们,带你了解更多百度技术干货。 45篇原创内容 ...原创 2021-08-19 11:24:20 · 548 阅读 · 0 评论 -
如何快速定位程序Core?
百度Geek说 关注我们,带你了解更多百度技术干货。 44篇原创内容 ...原创 2021-08-17 14:35:38 · 293 阅读 · 0 评论 -
千亿级模型在离线一致性保障方案详解
百度Geek说 关注我们,带你了解更多百度技术干货。 44篇原创内容 ...原创 2021-08-17 11:27:22 · 339 阅读 · 0 评论 -
百度BaikalDB在同程艺龙的成功应用实践剖析
百度Geek说 关注我们,带你了解更多百度技术干货。 41篇原创内容 ...原创 2021-08-10 10:44:36 · 495 阅读 · 0 评论 -
面向大规模商业系统的数据库设计和实践
百度Geek说 关注我们,带你了解更多百度技术干货。 40篇原创内容 ...原创 2021-08-05 11:10:19 · 603 阅读 · 0 评论