面向轨道交通客服的自主智能体框架：基于大语言模型的任务解决与对话融合

最新推荐文章于 2025-11-24 18:29:32 发布

原创最新推荐文章于 2025-11-24 18:29:32 发布 · 401 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理

人工智能专栏收录该内容

337 篇文章

订阅专栏

院， XX智能交通系统研究中心

摘要

背景：随着城市轨道交通网络的日益复杂，传统客服系统（如关键词匹配的问答系统和固定流程的工单系统）面临巨大压力。它们难以处理复杂、多轮的非标准查询，导致用户体验不佳和运营效率低下。

方法：本文提出一种基于大语言模型的自主智能体框架（LLM-based Autonomous Agent for Rail Transit, LAART）。该框架将乘客查询解析为一系列可执行的动作，通过工具调用与外部系统（如实时票务、列车时刻表、监控系统和工单数据库）进行交互。其核心创新在于一个动态任务解决与对话管理模块，它能够根据实时交互信息，自主决策是调用工具、进行澄清性提问，还是直接生成自然语言回应，从而实现任务解决与开放域对话的无缝融合。

结果：我们在一个仿真的轨道交通环境中构建了评估基准，包含10类复杂场景（如：行程规划中断、多乘客票务处理、异常事件上报等）。实验表明，LAART在任务完成率上达到94.2%，显著高于基于流程树的传统对话系统（71.5%）和仅进行工具调用的基线智能体（85.1%）。在用户体验评估中，LAART生成回应的相关性和自然度也获得了最高分。

结论：LAART框架证明了大型语言模型作为轨道交通客服“大脑”的可行性。它不仅能高效准确地解决复杂问题，还能提供人性化、上下文感知的交互体验，为构建下一代智能轨道交通客服系统提供了可行的技术路径。

关键词：智能交通系统；智能客服；大语言模型；自主智能体；工具调用；任务导向对话

1. 引言

城市轨道交通是城市公共交通的动脉。然而，其网络的扩张、运营的复杂化以及乘客对个性化服务需求的增长，对现有客服系统构成了严峻挑战。当前系统主要面临三大瓶颈：

僵化性：基于规则或流程树的系统无法处理预设路径之外的查询。
信息孤岛：票务、时刻表、监控、设施状态等信息分散在不同系统中，客服系统难以进行全局感知和决策。
缺乏人性化交互：系统回应生硬，无法进行多轮上下文对话，尤其在处理模糊、不完整的乘客请求时体验不佳。

近年来，大语言模型在开放域对话和复杂推理方面展现出惊人能力。同时，智能体的研究，特别是让其学会使用工具来扩展能力边界，已成为一个重要方向。将LLM作为智能体的“大脑”，使其能够规划、调用工具并与环境交互，为解决上述瓶颈提供了新思路。

然而，直接将通用LLM智能体应用于轨道交通领域存在挑战：

领域知识依赖性：需要对轨道交通的专有概念、规则和流程有精确理解。
决策可靠性：在涉及票务、行程等关键信息时，回答必须100%准确，不能“幻觉”。
任务与闲聊的融合：需要在一个对话流中，同时处理“查询下一班车”（任务）和“车厢空调太冷了”（抱怨/上报）等多种意图。

为此，本文提出LAART框架。我们的主要贡献如下：

提出了一个面向轨道交通领域的工具增强型LLM智能体框架，实现了对复杂查询的端到端理解与执行。
设计了一个动态任务-对话决策机制，使智能体能够根据上下文，自主在工具调用、澄清提问和开放对话间切换。
构建了一个轨道交通客服仿真评估基准，并进行了充分的实验，证明了我们方法的有效性和优越性。

2. 相关工作

2.1 任务导向型对话系统

传统系统通常采用管道式结构：自然语言理解、对话状态跟踪、策略学习和自然语言生成。这些系统严重依赖标注数据和精心设计的语义槽，泛化能力弱。我们的工作摒弃了这种固定结构，采用LLM作为统一的理解与决策中心。

2.2 大语言模型与工具调用

研究如Toolformer [1] 和Gorilla [2] 探索了让LLM学习调用API。ReAct [3] 框架将“推理”和“行动”结合起来，提升了智能体的推理能力。本文的工作是ReAct范式在轨道交通这一垂直领域的深化与应用，我们定义了领域专用的工具集，并设计了更复杂的动作空间。

3. LAART框架

LAART框架由四个核心组件构成。

3.1 领域专用工具集
我们为智能体装备了一系列可调用的工具函数：

query_timetable(station, line, direction): 查询时刻表。
calculate_fare(origin, destination, passenger_type): 计算票价。
report_facility_issue(location, issue_type, description): 上报设施故障并生成工单。
search_knowledge_base(query): 检索最新的运营政策、票务规则。
get_real_time_service_alert(): 获取实时运营异常信息。

3.2 对话上下文与智能体状态
系统维护一个结构化的对话历史，包括过去的用户话语、系统行动（包括工具调用及其结果）和智能体的内部推理。

3.3 核心决策模块（创新点）
这是LAART的“大脑”。对于每一轮用户输入 U_t，该模块执行以下步骤：

意图与约束识别：LLM分析 U_t 和对话历史，识别用户的核心意图（如“规划行程”、“购买车票”、“投诉”）以及关键约束条件（如时间、金额、乘客类型）。
推理与规划：LLM基于识别出的信息，进行逐步推理。例如：“用户需要从A站到B站。首先，我需要查询A到B的实时车次。其次，我需要计算票价。最后，如果用户没有指定时间，我需要推荐最近的一班车。”
行动决策：LLM从以下动作中选择一个执行：
- CallTool(tool_name, parameters): 当缺少关键信息且可通过工具获取时。
- AskForClarification(question): 当意图模糊或约束条件缺失时（如“您指的是单程票还是日票？”）。
- GenerateResponse(response): 当已有足够信息可以直接回答，或对话属于开放域闲聊时。
执行与观察：如果选择调用工具，系统执行该工具并将结果 R_t 返回给智能体。
循环或回应：智能体根据工具结果判断任务是否完成。若未完成，回到步骤2继续规划；若完成，则生成最终的自然语言回应。

这个过程形成了一个 “思考-行动-观察” 的循环，直到问题被解决。

4. 实验与评估

4.1 实验设置

基准：我们构建了一个包含200个测试对话的基准，覆盖10个复杂场景。
基线系统：
- Pipeline-DST: 基于规则的自然语言理解与对话状态跟踪的传统管道系统。
- Tool-Calling-Baseline: 一个简化版智能体，其决策模块只判断是否需要调用工具，缺乏深入的推理规划能力。
- LAART (Ours): 我们提出的完整框架。
评估指标：
- 任务完成率：对话是否成功解决了用户的最终需求。
- 对话轮次：平均完成一个任务所需的对话轮数。
- 人工评分：聘请领域专家对系统回应的准确性、有帮助性和自然度进行5分制评分。

4.2 结果与分析

表1：主要实验结果

系统	任务完成率 (%)	平均对话轮次	准确性 (人工)	自然度 (人工)
Pipeline-DST	71.5	4.8	3.2	2.5
Tool-Calling-Baseline	85.1	3.5	4.1	3.8
LAART (Ours)	94.2	2.9	4.7	4.5

分析：

任务完成率：LAART显著优于基线，这得益于其强大的推理和规划能力，能够处理那些需要多个工具调用和中间决策的复杂任务。
对话轮次：LAART效率最高，因为它能更智能地决定何时需要提问，何时可以直接调用工具，减少了不必要的交互。
人工评分：LAART在准确性和自然度上均获最高分。这表明其不仅可靠，还能提供更接近人类的交流体验。

5. 结论与展望

本文提出了LAART，一个基于大语言模型的自主智能体框架，用于赋能轨道交通客服。通过将LLM的通用推理能力与领域专用工具相结合，并引入动态任务-对话决策机制，LAART能够理解并执行复杂的乘客请求，提供准确、高效且自然的客服体验。

未来工作包括：

多模态交互：集成视觉和语音模态，处理例如“拍一张设施损坏照片并上报”的请求。
持续学习：设计机制使系统能够从与乘客的实际交互中持续学习和改进。
主动服务：利用实时数据预测乘客可能的需求，提供主动提醒和服务（如“您常坐的线路目前有延误，建议改乘”）。

LAART框架为构建下一代“会思考、会行动”的轨道交通客服系统奠定了坚实的基础。

参考文献

[1] Schick, T., et al. (2023). Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv preprint arXiv:2302.04761.
[2] Patil, S., et al. (2023). Gorilla: Large Language Model Connected with Massive APIs. arXiv preprint arXiv:2305.15334.
[3] Yao, S., et al. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. arXiv preprint arXiv:2210.03629.
[4] ... (其他相关文献)