目录
院, XX智能交通系统研究中心
摘要
背景:随着城市轨道交通网络的日益复杂,传统客服系统(如关键词匹配的问答系统和固定流程的工单系统)面临巨大压力。它们难以处理复杂、多轮的非标准查询,导致用户体验不佳和运营效率低下。
方法:本文提出一种基于大语言模型的自主智能体框架(LLM-based Autonomous Agent for Rail Transit, LAART)。该框架将乘客查询解析为一系列可执行的动作,通过工具调用与外部系统(如实时票务、列车时刻表、监控系统和工单数据库)进行交互。其核心创新在于一个动态任务解决与对话管理模块,它能够根据实时交互信息,自主决策是调用工具、进行澄清性提问,还是直接生成自然语言回应,从而实现任务解决与开放域对话的无缝融合。
结果:我们在一个仿真的轨道交通环境中构建了评估基准,包含10类复杂场景(如:行程规划中断、多乘客票务处理、异常事件上报等)。实验表明,LAART在任务完成率上达到94.2%,显著高于基于流程树的传统对话系统(71.5%)和仅进行工具调用的基线智能体(85.1%)。在用户体验评估中,LAART生成回应的相关性和自然度也获得了最高分。
结论:LAART框架证明了大型语言模型作为轨道交通客服“大脑”的可行性。它不仅能高效准确地解决复杂问题,还能提供人性化、上下文感知的交互体验,为构建下一代智能轨道交通客服系统提供了可行的技术路径。
关键词:智能交通系统;智能客服;大语言模型;自主智能体;工具调用;任务导向对话
1. 引言
城市轨道交通是城市公共交通的动脉。然而,其网络的扩张、运营的复杂化以及乘客对个性化服务需求的增长,对现有客服系统构成了严峻挑战。当前系统主要面临三大瓶颈:
-
僵化性:基于规则或流程树的系统无法处理预设路径之外的查询。
-
信息孤岛:票务、时刻表、监控、设施状态等信息分散在不同系统中,客服系统难以进行全局感知和决策。
-
缺乏人性化交互:系统回应生硬,无法进行多轮上下文对话,尤其在处理模糊、不完整的乘客请求时体验不佳。
近年来,大语言模型在开放域对话和复杂推理方面展现出惊人能力。同时,智能体的研究,特别是让其学会使用工具来扩展能力边界,已成为一个重要方向。将LLM作为智能体的“大脑”,使其能够规划、调用工具并与环境交互,为解决上述瓶颈提供了新思路。
然而,直接将通用LLM智能体应用于轨道交通领域存在挑战:
-
领域知识依赖性:需要对轨道交通的专有概念、规则和流程有精确理解。
-
决策可靠性:在涉及票务、行程等关键信息时,回答必须100%准确,不能“幻觉”。
-
任务与闲聊的融合:需要在一个对话流中,同时处理“查询下一班车”(任务)和“车厢空调太冷了”(抱怨/上报)等多种意图。
为此,本文提出LAART框架。我们的主要贡献如下:
-
提出了一个面向轨道交通领域的工具增强型LLM智能体框架,实现了对复杂查询的端到端理解与执行。
-
设计了一个动态任务-对话决策机制,使智能体能够根据上下文,自主在工具调用、澄清提问和开放对话间切换。
-
构建了一个轨道交通客服仿真评估基准,并进行了充分的实验,证明了我们方法的有效性和优越性。
2. 相关工作
2.1 任务导向型对话系统
传统系统通常采用管道式结构:自然语言理解、对话状态跟踪、策略学习和自然语言生成。这些系统严重依赖标注数据和精心设计的语义槽,泛化能力弱。我们的工作摒弃了这种固定结构,采用LLM作为统一的理解与决策中心。
2.2 大语言模型与工具调用
研究如Toolformer [1] 和Gorilla [2] 探索了让LLM学习调用API。ReAct [3] 框架将“推理”和“行动”结合起来,提升了智能体的推理能力。本文的工作是ReAct范式在轨道交通这一垂直领域的深化与应用,我们定义了领域专用的工具集,并设计了更复杂的动作空间。
3. LAART框架
LAART框架由四个核心组件构成。
3.1 领域专用工具集
我们为智能体装备了一系列可调用的工具函数:
-
query_timetable(station, line, direction): 查询时刻表。 -
calculate_fare(origin, destination, passenger_type): 计算票价。 -
report_facility_issue(location, issue_type, description): 上报设施故障并生成工单。 -
search_knowledge_base(query): 检索最新的运营政策、票务规则。 -
get_real_time_service_alert(): 获取实时运营异常信息。
3.2 对话上下文与智能体状态
系统维护一个结构化的对话历史,包括过去的用户话语、系统行动(包括工具调用及其结果)和智能体的内部推理。
3.3 核心决策模块(创新点)
这是LAART的“大脑”。对于每一轮用户输入 U_t,该模块执行以下步骤:
-
意图与约束识别:LLM分析
U_t和对话历史,识别用户的核心意图(如“规划行程”、“购买车票”、“投诉”)以及关键约束条件(如时间、金额、乘客类型)。 -
推理与规划:LLM基于识别出的信息,进行逐步推理。例如:“用户需要从A站到B站。首先,我需要查询A到B的实时车次。其次,我需要计算票价。最后,如果用户没有指定时间,我需要推荐最近的一班车。”
-
行动决策:LLM从以下动作中选择一个执行:
-
CallTool(tool_name, parameters): 当缺少关键信息且可通过工具获取时。 -
AskForClarification(question): 当意图模糊或约束条件缺失时(如“您指的是单程票还是日票?”)。 -
GenerateResponse(response): 当已有足够信息可以直接回答,或对话属于开放域闲聊时。
-
-
执行与观察:如果选择调用工具,系统执行该工具并将结果
R_t返回给智能体。 -
循环或回应:智能体根据工具结果判断任务是否完成。若未完成,回到步骤2继续规划;若完成,则生成最终的自然语言回应。
这个过程形成了一个 “思考-行动-观察” 的循环,直到问题被解决。
4. 实验与评估
4.1 实验设置
-
基准:我们构建了一个包含200个测试对话的基准,覆盖10个复杂场景。
-
基线系统:
-
Pipeline-DST: 基于规则的自然语言理解与对话状态跟踪的传统管道系统。
-
Tool-Calling-Baseline: 一个简化版智能体,其决策模块只判断是否需要调用工具,缺乏深入的推理规划能力。
-
LAART (Ours): 我们提出的完整框架。
-
-
评估指标:
-
任务完成率:对话是否成功解决了用户的最终需求。
-
对话轮次:平均完成一个任务所需的对话轮数。
-
人工评分:聘请领域专家对系统回应的准确性、有帮助性和自然度进行5分制评分。
-
4.2 结果与分析
表1:主要实验结果
| 系统 | 任务完成率 (%) | 平均对话轮次 | 准确性 (人工) | 自然度 (人工) |
|---|---|---|---|---|
| Pipeline-DST | 71.5 | 4.8 | 3.2 | 2.5 |
| Tool-Calling-Baseline | 85.1 | 3.5 | 4.1 | 3.8 |
| LAART (Ours) | 94.2 | 2.9 | 4.7 | 4.5 |
分析:
-
任务完成率:LAART显著优于基线,这得益于其强大的推理和规划能力,能够处理那些需要多个工具调用和中间决策的复杂任务。
-
对话轮次:LAART效率最高,因为它能更智能地决定何时需要提问,何时可以直接调用工具,减少了不必要的交互。
-
人工评分:LAART在准确性和自然度上均获最高分。这表明其不仅可靠,还能提供更接近人类的交流体验。
5. 结论与展望
本文提出了LAART,一个基于大语言模型的自主智能体框架,用于赋能轨道交通客服。通过将LLM的通用推理能力与领域专用工具相结合,并引入动态任务-对话决策机制,LAART能够理解并执行复杂的乘客请求,提供准确、高效且自然的客服体验。
未来工作包括:
-
多模态交互:集成视觉和语音模态,处理例如“拍一张设施损坏照片并上报”的请求。
-
持续学习:设计机制使系统能够从与乘客的实际交互中持续学习和改进。
-
主动服务:利用实时数据预测乘客可能的需求,提供主动提醒和服务(如“您常坐的线路目前有延误,建议改乘”)。
LAART框架为构建下一代“会思考、会行动”的轨道交通客服系统奠定了坚实的基础。
参考文献
[1] Schick, T., et al. (2023). Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv preprint arXiv:2302.04761.
[2] Patil, S., et al. (2023). Gorilla: Large Language Model Connected with Massive APIs. arXiv preprint arXiv:2305.15334.
[3] Yao, S., et al. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. arXiv preprint arXiv:2210.03629.
[4] ... (其他相关文献)
1333

被折叠的 条评论
为什么被折叠?



