文章主要内容
本文聚焦于大语言模型(LLMs)在规划任务中可能出现的幻觉问题,提出一种基于自适应压力测试(AST)和蒙特卡洛树搜索(MCTS)的黑箱检测方法,旨在系统评估LLMs在不同提示扰动下的鲁棒性,具体内容如下:
- 手动扰动案例研究:在自动驾驶场景中,通过手动调整提示中的传感器细节(如移除位置、速度信息)、添加噪声或随机化文本顺序,发现LLMs(如DeepSeek、Llama)的决策会因扰动而产生不一致,甚至出现幻觉行为(如生成不可行的变道动作)。
- 自适应压力测试框架:将提示扰动建模为MDP问题,利用MCTS搜索最优扰动策略,通过最大化LLMs输出的动作多样性(作为不确定性代理指标),自动发现导致模型高不确定性的场景和提示。
- 实验验证:在高速公路驾驶环境中,对Llama、Dolphin等开源LLMs进行离线压力测试,生成扰动树并分析模型敏感性。结果表明,AST能有效识别模型不可靠的场景,且离线分析可在运行时生成影响模型不确定性的提示,辅助实时信任评估。