在 QCon SF 2024 上,张菲发表了题为“搜索:从线性到多元宇宙”的演讲,涵盖了人工智能驱动的搜索的三个趋势和技术:多模态交互、个性化和人工智能代理模拟。
Pinterest 的软件工程师张首先介绍了人工智能作为主要搜索工具的增长统计数据:从 2024 年 1 月占人口的 1% 到 2024 年 10 月的 8%。她表示,预计这一数字将达到到 2027 年,这一比例将达到 60%。她提到了一些使其对搜索有用的人工智能功能,例如,它能够快速扫描评论或使用视觉描述查找项目。
然后,她探讨了人工智能搜索多模式交互的趋势;与纯文本查询的传统搜索不同,人工智能模型还可以接受图像、视频或语音。她引用了多篇研究论文,其中一篇是关于Meta 的 Chameleon模型的,并对多模态交互的架构进行了高度概述。最常见的策略是将所有输入模态映射到相同的嵌入空间,就像 Meta 的ImageBind模型所做的那样。
这带来了下一个挑战:用户希望以“自然和直观的方式”实时迭代和完善他们的搜索。张举了寻找太阳镜的例子。用户可以首先指定价格和运输限制。搜索人工智能返回几张图像,然后用户选择一张并要求颜色相同但形状不同的图像。张概述了解决此问题的交互驱动架构。
该架构由两部分组成。首先是视觉转换器,它可以理解图像特征及其自然语言描述。接下来是 T5 语言模型,包括编码器和解码器,用于处理自然语言交互。 Zhnag 提出使用 T5 编码器-解码器而不是更常见的仅解码器模型,因为它可以“同时处理嵌入和文本”,而且还因为它可以有效地进行微调。
张随后讨论了基于用户活动历史的搜索的个性化。她概述了 Pinterest 的PinnerFormer,这是一个基于 Transformer 的模型,可根据用户过去一年的历史记录预测未来 20 天的操作。她还讨论了一个类似的模型,来自 Meta 的分层顺序转换单元(HSTU)。接下来,她回顾了将这些系统投入生产所面临的挑战;特别是,它们需要lambda 架构,该架构具有独立的实时和批量数据处理管道。
她提出的第三个趋势是代理模拟,特别是用于测试搜索系统。在这种情况下,人工智能代理模拟真实用户与系统的交互。与传统的测试方法相比,这可以快速且大规模地完成,从而提供有关搜索系统行为的快速反馈。她提到这对于红队和规模测试也可能有效。
张以对未来的展望结束了她的演讲。首先,她指出,如果智能体开始为人类处理更多搜索任务,搜索结果很可能会针对智能体进行优化。她的下一个预测是关于设备上的智能:因为我们的移动设备拥有大量个人数据,所以它们可以“创建具有隐私的超个性化体验”。最后,她谈到了关于 AGI 的争论:学习还是知识?她个人的看法是,两者是交织在一起的,但智能系统不仅仅是检索信息,还可以“概括、推理,还可以创新”。