
数据库
文章平均质量分 93
百度Geek说
这个作者很懒,什么都没留下…
展开
-
百度智能云向量数据库创新和应用实践分享
在大模型时代,数据库与大模型相互成就。我们也看到了很多新的趋势,从底层的 IaaS,模型会从云端扩展到端,PaaS 会从现在纯文本模型扩展到多模态,上层应用会从当前主流的 Copilot 扩展到 Agent,更充分利用大模型的自主决策能力。在向量检索这个场景中,存储的是非结构化数据,业务使用的越广泛,需要存储的数据就越多,因此在架构选型的时候,建议更早的预判到未来的业务增量,提前选择一个长期收益都很大的产品。我们会看到从客户场景角度,需要的是一个专业全面的能力的数据库,不是一个简单的插件可以完成的。转载 2024-09-12 10:06:09 · 402 阅读 · 1 评论 -
日志中台不重不丢实现浅谈
日志数据的生命周期包含日志采集、接入、传输、应用等各个环节。数据的稳定性对于公司报表建设、决策分析、转化策略效果都有至关重要的影响。全文旨在介绍百度日志中台当前的现状,公司内部应用推广情况。尤其在数据准确性的建设上,进行深入的探讨。数据产生到最终业务应用中各个环节的稳定性建设,包括:数据上报时效性优化、接入持久化的思考、数据流式计算过程中的不重不丢建设等。原创 2022-04-07 16:02:55 · 2838 阅读 · 0 评论 -
百度程序员开发避坑指南(前端篇)
日常工作开发中,遇到哪些坑是让你印象深刻且具有挑战的,它们是怎么产生的,我们该如何避免?本期我们带来与前端开发相关的三个问题:一次网页资源加载问题的定位过程;CSS中的z-index层叠覆盖问题;CSS3 transform 属性对 position 的影响,希望能为你的技术提升助力。原创 2022-04-07 15:45:46 · 5342 阅读 · 0 评论 -
客户画像赋能百度推广生态实践
百度推广是一个典型2B、2C结合的商业场景:一方面百度推广为客户(广告主)服务,为其提供易用的广告平台(广告投放系统、商机/订单系统等等),并获取优质的内容和服务能力;另一方面百度推广将客户的这些服务能力通过广告的形式提供给用户(网民),满足其娱乐/教育/购物等个性化需求,并在此过程中提升百度整体的商业价值。其中2C侧的画像「用户画像」已经相对比较成熟,并广泛应用于检索策略、营销赋能、观星盘、生态洞察等等场景,而2B侧的画像「客户画像」却往往被人所忽略。然而事实上,客户画像同样能发挥巨大的商业价值。下面笔者原创 2022-03-24 21:35:10 · 924 阅读 · 0 评论 -
深入理解 WKWebView (渲染篇) —— DOM 树的构建
当客户端 App 主进程创建 WKWebView 对象时,会创建另外两个子进程:渲染进程与网络进程。主进程 WKWebView 发起请求时,先将请求转发给渲染进程,渲染进程再转发给网络进程,网络进程请求服务器。如果请求的是一个网页,网络进程会将服务器的响应数据 HTML 文件字符流吐给渲染进程。渲染进程拿到 HTML 文件字符流,首先要进行解析,将 HTML 文件字符流转换成 DOM 树,然后在 DOM 树的基础上,进行渲染操作,也就是布局、绘制。最后渲染进程通知主进程原创 2022-03-22 14:38:07 · 7217 阅读 · 0 评论 -
【技术加油站】揭露百度智能测试规模化落地
摘要:上一篇《【技术加油站】浅谈百度智能测试的三个阶段》,介绍了百度智能测试三阶段,本篇我们提出以挖掘场景为驱动的方式有序推进智能测试三阶段分节奏的规模化落地。场景从何而来,是我们首先就要面临的问题,为此还是从测试活动本质去寻找答案。测试活动其实大概可以分为测试输入、测试执行、测试分析、测试定位和测试评估五个步骤。这五步测试活动目标是不一样的,因此不能笼统对整体测试活动进行智能化,容易造成目标混乱,影响落地开展。我们开展的思路是:**某服务的某项测试中的某个测试活动为一个场景为试点,从而形成点线面体.原创 2022-03-18 09:22:27 · 207 阅读 · 0 评论 -
百度爱番番实时CDP建设实践
随着营销3.0时代的到来,企业愈发需要依托强大CDP能力解决其严重的数据孤岛问题,帮助企业加温线索、促活客户。但什么是CDP、好的CDP应该具备哪些关键特征?本文在回答此问题的同时,详细讲述了爱番番租户级实时CDP建设实践,既有先进架构目标下的组件选择,也有平台架构、核心模块关键实现的介绍。全文19135字,预计阅读时间26分钟一、CDP是什么1.1 CDP由来CDP(Customer Data Platform)是近些年时兴的一个概念。随着时代发展、大环境变化,企业在自有媒体增多的同时,客原创 2022-02-08 11:19:03 · 821 阅读 · 0 评论 -
百亿级监控场景大数据分位值计算实践
背景百度广告业务系统建立在分布式系统之上,面向商业服务,每天发生各类接口调用PV达到百亿次,产生TB级的监控数据,对监控系统的设计也提出了巨大的挑战。分位值对接口性能的敏感度高,在性能分析中具有很大价值。1.1 分位值是什么分位值是一组数据中排名在某个百分比的值。如:开机时360提示“您的电脑击败了全国80%的用户”,即代表启动时间在全国所有电脑中排名20%分位值。1.2 Why分位值?在接口性能分析中,分位值至关重要。因为许多极端请求都集中在99%分位值以上,数量少但原创 2022-01-20 14:58:00 · 2218 阅读 · 0 评论 -
百度搜索稳定性问题分析的故事(上)
点击关注「百度Geek说」更多技术干货等着你导读:百度搜索系统是百度历史最悠久、规模最大并且对其的使用已经植根在大家日常生活中的系统。坊间有一种有趣的做法:很多人通过打开百度搜索来验证自己的网络是不是通畅的。这种做法说明百度搜索系统在大家心目中是“稳定”的代表,且事实确是如此。百度搜索系统为什么具有如此高的可用性?背后使用了哪些技术?以往的技术文章鲜有介绍。本文立足于大家所熟悉的百度搜索系统本身,为大家介绍其可用性治理中关于“稳定性问题分析”方面使用的精细技术,以历史为线索,介绍稳定性问题分析过程中的困厄之原创 2021-07-01 14:02:24 · 317 阅读 · 0 评论 -
社群编码识别黑灰产攻击实践
导读:所谓黑灰产,包含网络黑产、灰产两条产业链,随着互联网的飞速发展,网络黑灰产也在不断演变,当前网络黑灰产已经趋于平台化、专业化、精细化运作。基于黑灰产攻击特点,我们提出了一种基于社群编码的黑灰产攻击识别方法,社群发现部分基于图关系,编码部分引入大规模的图嵌入表示学习。相比于传统的图谱关系挖掘,可以更好的识别和度量未知攻击。而且我们还提出了基于异步准实时的工程化实现,对频繁变化的黑灰产攻击有更强的应变灵活性。全文4424字,预计阅读时间12分钟。一、背景所谓黑灰产,包含网络黑产、灰色两条产业链,随着互联网原创 2021-06-25 11:26:03 · 454 阅读 · 2 评论 -
PornNet:色情视频内容识别网络
导读: 色情视频内容已经严重危害互联网安全,色情内容常以图像和音频两种形式存在,本文介绍了基于图像和音频的色情视频内容识别方法。全文1653字,预计阅读时间5分钟。一、背景随着移动互联网的发展, 短视频成为人们日常娱乐的主要方式,每天有大量的用户通过互联网上传和下载短视频。但有些短视频中存在涉黄内容,这不但对青少年的心理健康产生严重影响,也是引起社会不安全的因素之一。色情视频的内容识别是个多模的问题,包括:色情图像识别和色情语音识别。在色情图像识别领域,尽管色情图像领域有人研究,但是色情图像识别仍原创 2021-06-22 11:02:01 · 8144 阅读 · 0 评论 -
详解支撑7亿用户搜索的百度图片处理收录中台
点击关注「百度Geek说」更多技术干货等着你导读:在百度搜索中,主要由“搜索在线”和“搜索离线”两部分构成,“在线”服务主要用于响应用户请求,“离线”服务则将各种来源的数据转换处理后送入“在线”服务中。“搜索离线”的数据处理是一个典型的海量数据批次/实时计算结合的场景。全文4142字,预计阅读时间8分钟。 一、多模态检索背后的”离线“与“在线”在百度搜索中,主要由“搜索在线”和“搜索离线”部分构成,“在线”服务主要用于响应用户请求,“离线”服务则将各种来源的数据转换处理后送入“在线”服务中。“搜索原创 2021-05-18 13:58:40 · 329 阅读 · 1 评论 -
详解百度富媒体检索比对系统的关键技术
导读:百度富媒体检索比对系统是一套基于Ann(approximate nearest neighbor)检索和内容特征比对技术,旨在提供针对图像、音频、视频等多媒体资源的相似检索系统。包括离线训练、建库,在线特征提取、检索。目前百度富媒体检索比对系统除了承接了百度FEED所有视频、图像的反作弊、下发去重以及关联推荐和黄反等业务,另外还支持了包括视频搜索、贴吧、文库在内的数十个业务方,支撑了千亿级数据规模。在数据规模、系统性能、召回率和准确度上都处于领先地位。全文5612字,预计阅读时间11分钟。一、背.原创 2021-05-11 14:35:51 · 571 阅读 · 0 评论 -
百度商业大规模微服务分布式监控系统——凤睛
导读:作为凤睛早期的接入方、后期的核心成员,笔者经历了整个项目前后四年的变迁,看过项目的艰难开端、中期的默默积累以及后期的蓬勃发展。每一次架构的变迁都带着技术浪潮的烙印,也看到项目成员利用有限资源来解决实际问题而持续不断的创新。凤睛是百度商业业务系统的性能监控系统(APM),它侧重于对Java应用的监控,基本接入了百度绝大部分Java应用(覆盖数千个业务应用,数万个容器)。它能够对主流中间件框架( Spring Web、RPC、数据库、缓存等)进行自动埋点,实现全栈式性能监控和全链路追踪诊断,为百度各业.原创 2021-04-27 15:02:59 · 187 阅读 · 0 评论