本文是LLM系列文章,针对《BASES: Large-scale Web Search User Simulation with Large Language Model based Agents》的翻译。
BASES:基于大型语言模型的Agent的大规模Web搜索用户模拟
摘要
由于大型语言模型(LLM)的卓越能力,开发用于可靠用户模拟的基于LLM的代理变得可行。考虑到真实用户数据的稀缺性和局限性(如隐私问题),本文对网络搜索进行了大规模的用户模拟,以改进对用户搜索行为的分析和建模。特别地,我们提出了BASES,这是一种新的用户模拟框架,具有基于LLM的代理,旨在促进对网络搜索用户行为的全面模拟。我们的模拟框架可以大规模生成独特的用户档案,从而导致多样化的搜索行为。为了证明BASES的有效性,我们基于中英文两种人类基准进行了评估实验,证明BASES可以有效地模拟大规模的类人搜索行为。为了进一步适应网络搜索的研究,我们开发了WARRIORS,这是一个新的包含网络搜索用户行为的大规模数据集,包括中文和英文版本,可以极大地支持信息检索领域的研究。我们的代码和数据将很快公开发布。