
(采访者: Matthew Berman)
很多人想通过在自己的聊天机器人上堆砌更多功能来试图超越 ChatGPT,但他们完全没抓住重点。聊天界面的归属权之争已经结束,赢家已定。
——Perplexity CEO Aravind Srinivas
Matthew Berman (MB):是什么促使您构建自己的网页浏览器?
Aravind Srinivas (AS):我想说,这个想法的起源是... 最终大多数用户查询都会通过浏览器上的搜索框进行。这甚至远在我们考虑代理(agents)或其他任何东西之前。如今世界上大多数搜索查询的入口点是什么?大概是每天大约150亿次。这就是谷歌目前的查询量。我估计其中很大一部分,可能70%到80%(具体数字我不确定),流量都流经 Chrome、Safari 或谷歌浏览器上的搜索框(或URL栏)。
MB:对,地址栏。
AS:它被称为多功能地址栏(Omnibox)。这里甚至有个历史原因说明谷歌当初为什么要做谷歌工具栏(现在已不存在,因为它已整合成一个搜索栏)。过去,浏览器会有一个URL框,然后在书签栏下方有一个谷歌工具栏,让你可以在任何页面上直接搜索谷歌,因为那时认为URL栏只应用于导航(输入URL),而搜索是分开的。现在这种区分不存在了,你可以把所有东西都输入到一个框里,所以叫“多功能地址栏”(Omnibox)... 推出谷歌工具栏让谷歌的流量增加了5倍之类,这帮助他们赚取更多广告收入,他们可以付钱给其他桌面软件客户端,让它们强行在本地浏览器上安装谷歌工具栏。这样,即使他们不用付钱给微软,只要有人安装了其他桌面客户端,他们就能把谷歌工具栏推送到IE上,获得大量流量。
谷歌工具栏对谷歌就是如此重要。有趣的是,负责工具栏工作的人是桑达尔·皮查伊(Sundar Pichai)。有个历史时刻,微软推送了一个IE更新补丁,目的就是移除谷歌工具栏,保留MSN之类的。谷歌当时慌了,急忙与所有OEM厂商达成协议,保留没有这个补丁的旧版IE。这都是桑达尔做的,就是那时他们意识到:必须打造自己的浏览器,不能受制于微软。
MB:我之前不知道这事。
AS:是的,谷歌从未公开承认过这事,但我认为很多前谷歌员工都记录过。类似的事件也发生在我们身上... 我们做过一个Chrome扩展,可以将Perplexity设为默认搜索引擎。我自己就遇到过:在Chrome更新后,它突然就没了。我会去Chrome商店看这个扩展怎么了,显示“此扩展因本次更新被自动卸载,因为它可能窃取您的搜索数据之类”,各种随机的理由。然后它就不能按我们想要的方式工作了。我们还有一个侧边栏扩展(不是显式的侧边栏),让你可以就页面内容提问,但我们无法实现所有想做的功能。
所以,很明显,在某个时刻我们需要自己的客户端,掌控自己的命运。但这对我们这样的公司来说是个巨大的分心,我们本应专注于核心产品。很多人把搜索整合进自己的AI里,所以你必须改进自己的搜索服务,以免变得无关紧要。而浏览器本身就是一个需要大量投入、耗时数月的项目。为什么还要做它?很多人劝我不要做。但对我来说,关键点是:你能从进攻和防守两方面,而不仅仅是防守侧,来做这个决定。
到目前为止我说的都是防守。进攻则是:有些事情你只能在浏览器上做,其他地方做不了。这就是查询(Query)、AI和搜索的下一个方向:代理(Agents)。第一个真正的代理产品其实是Deep Research(我们能进行网络研究并做事),后来我们做了Labs(实际上可以构建仪表板、网站、分析以及许多Web应用)。我们已经开始看到这些推理模型的能力:它们能认真思考10分钟,做出需要你花几个小时的东西。想象一下,把这种能力用于日常浏览任务,从不同标签页中提取上下文信息,比如对你的Slack、Notion或Google Docs进行深度研究,处理你的100封邮件,查看你的日历并调整会议安排——所有这些个人或行政助理会为你做的事情。
如果你是小企业主,比较商品价格并为你的商品定价,这能让你获得套利空间(相比花5-10小时做这事的人,或雇一个小团队全职做这个),或者根据人们在Reddit上的评论定制你的营销信息。这些事情都会花费你大量时间,无法用我们传统的方法可靠地完美爬取网络信息来完成。而拥有打开标签页、按需研究、提取必要信息,并将所有这些编排成用户可用的输出(去控制标签页完成任务)的能力,我们认为这只有在我们完全拥有客户端并以最优雅的方式集成AI时才能实现。因此,打造浏览器既是防守也是进攻的理由。这就是我们在去年年底决定开始做这个的原因,花了我们大约8个月时间才发布。
这个时间线相当疯狂,从零到发布只用了8个月。当然,我得承认,肯定有人在你的评论区说:“哦,这只是Chromium的分支,他们不是从头构建的。”是的,它是基于Chromium的分支,但话说回来,所有东西不都是基于Linux的分支?我们都是在巨人的肩膀上,尊重谷歌开源Chromium库的工作。我们在其上构建,并希望也能贡献其中。我们不只是消费者... 实际上,我们在司法部对谷歌的诉讼中作证... OpenAI曾推动从谷歌收购Chrome,我们当时论证谷歌不应该被拆分,Chrome应该留在谷歌内部,原因之一就是我们认为谷歌一直是开源(Open Source)的良好管理者,让OpenAI(与开源相反)拥有Chromium毫无意义... 我们认为我们必须赢得运营Chromium或Chrome的权利,为数十亿人提供服务是项巨大的工作。所以我们肯定是在Chromium之上构建的,这大大加快了开发时间线。但仅就基本浏览功能(可靠工作、导入登录信息、完成所有基本任务)所需的质量测试和Bug修复,工作量仍然巨大。
我们不仅做了这些,还确保了代理功能在一定程度上运行良好,让人们感到惊艳。这就是我对这次发布感到非常自豪的原因(只用了8个月)。我仍不能说它已完成,我们需要确保它能每天为一百万人稳定工作,然后才能扩展。所以还有很多基础设施工作要做。但我对目前的起点非常满意。
MB:我第一次安装时... 首先,我们在录制前我就说过,过程完全无缝,拿到了我所有的书签和认证信息... 当我开始使用代理时,我注意到一些与使用托管在云端的代理环境的不同之处。在那种环境里,环境在云端生成,你每次都得从头开始... 但在Comet里,我已经登录了。而且当我在任务中途觉得“哦,现在该让我的代理接手了”,这种体验在完全托管的版本中我认为是不可能的。
AS:是的,我认为没人会想要一个完全托管在别人服务器上的客户端版本,这风险极高。
MB:为什么这么说?为什么你不想让登录版本的客户端在第三方应用或别人的服务器上?

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



