45、知识感知自注意力网络与多视图时空网络在不同领域的应用

Linux

于 2025-10-19 10:27:45 发布

阅读量20

点赞数

CC 4.0 BY-SA版权

分类专栏：知识科学前沿洞察文章标签：知识感知自注意力网络多视图时空网络文档驱动对话生成

本文链接：https://blog.youkuaiyun.com/linux/article/details/153620770

知识科学前沿洞察专栏收录该内容

46 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

知识感知自注意力网络与多视图时空网络在不同领域的应用

知识感知自注意力网络在文档驱动对话生成中的应用

1. 模型结构与模式

DialogTransformerX 具有三种模式：
- 生成一个单词。
- 从对话话语中复制一个单词。
- 从非结构化外部知识中复制一个单词。

αmode 是用于计算单词在对话或知识中出现概率的注意力权重。

2. 实验评估

2.1 数据集

使用 CMU - DoG 作为文档驱动对话生成数据集。该数据集中的对话围绕特定文档内容展开，这些文档是关于热门电影的维基百科文章。数据集包含 4112 个对话，平均每个对话有 21.43 轮。仅使用评分大于 1 的对话，具体统计信息如下表所示：
| | 训练数据 | 验证数据 | 测试数据 |
| — | — | — | — |
| 最大轮数 | 97 | 63 | 60 |
| 最小轮数 | 11 | 15 | 13 |
| 用户 1 查看次数 | 520 | 38 | 80 |
| 用户 2 查看次数 | 574 | 31 | 122 |
| 双方都查看次数 | 1125 | 88 | 200 |
| 评分 >1 | 2219 | 157 | 402 |
| 话语数量 | 60562 | 4141 | 10727 |

2.2 基线方法

使用了五种基线方法进行比较：
1. Seq2Seq：一个简单的编码器 - 解码器模型，将话语连接成一个长句子，并对每个位置进行注意力读取。
2. HRED：具有分层 RNN 编码器的 Seq2Seq 模型，是 V - HRED 的基础。
3. V - HRED：变分分层循环编码器 - 解码器，是一个具有分层 RNN 编码器的 CVAE，第一层 RNN 编码标记级别的变化，第二层 RNN 捕获句子级别的主题转移。
4. BiDAF：双向注意力流模型，是在 SQuAD 数据集的背景下提出的 QA 模型，用于预测文档中包含答案的跨度。直接将上下文视为问题，资源视为文档，不做任何修改地用于本任务。
5. 标准 Transformer：传统的 Transformer，未做修改。

2.3 评估指标

使用定量指标和人工判断来评估模型。
- 自动评估 ：
- 困惑度（PPL）：衡量模型预测响应的能力，分数越低表示生成性能越好。
- BLEU：基于 n - 元匹配的翻译评估方法。

评估结果如下表所示：
| 模型 | PPL - T | BLEU(%) | 流畅度 | 知识容量 |
| — | — | — | — | — |
| Seq2Seq | 79.1 | 0.89 | 2.33 | 2.43 |
| vHRED | 74.3 | 1.22 | 2.51 | 2.65 |
| BiDAF | 82.6 | 1.31 | 1.91 | 3.54 |
| HRED w/ knowledge | 84.8 | 1.24 | 2.43 | 2.85 |
| HRED w/o knowledge | 79.5 | 0.71 | 2.49 | 1.52 |
| Transformer w/ knowledge | 80.7 | 1.13 | 2.87 | 3.13 |
| Transformer w/o knowledge | 71.2 | 0.62 | 2.61 | 1.65 |
| DialogTransformer | 50.3 | 1.28 | 3.07 | 3.83 |
| DialogTransformer - Plus | 53.2 | 1.41 | 3.15 | 3.92 |
| DialogTransformerX | 57.8 | 1.38 | 3.23 | 3.96 |

人工判断 ：招募人类注释者对不同模型生成的响应质量进行评分，评分范围为 1 到 5，1 表示最差，评估指标包括流畅度和生成响应的知识容量。

2.4 实现细节

词汇表大小为 27316。
使用预训练的 300 维 GloVe 嵌入。
采用 AdaGrad 优化器，批量大小为 50，学习率为 0.15，梯度裁剪为 2。
训练约 60 个周期，并保留验证集上的最佳模型。
编码步骤中，自注意力结构有 6 个头。
解码步骤采用束搜索，束大小为 5，并选择排名第一的生成回复进行评估。
对于惩罚项的系数，通过小网格搜索选择 λ 为 0.95，γ 为 0.05。
知识感知自注意力结构可在 GitHub 上下载。

3. 结果分析

从实验结果可以看出，知识在对话生成中非常重要，所提出的模型（DialogTransformer、DialogTransformer - Plus 和 DialogTransformerX）显著优于基线方法。文档知识不仅有助于形成响应的结构，还能携带更丰富的信息。而 Seq2Seq 和 HRED 虽然因高频能带来一些信息，但携带的有效信息较少，容易导致对话结束。增量式知识感知自注意力结构能够很好地处理长上下文，并能解决 OOV 问题。

graph TD;
    A[输入数据] --> B[模型训练];
    B --> C[自动评估];
    B --> D[人工判断];
    C --> E[结果分析];
    D --> E;

多视图时空网络在车辆加油需求推断中的应用

1. 引言

加油站的选址对城市交通和居民日常生活有重要影响。随着城市感知能力的增强，时空数据的收集和获取得到了极大改善，但时空数据的异质性和复杂关系给传统选址方法带来了挑战。传统选址方法大多依赖离散特征，无法建模复杂的非线性时空关系。因此，提出了多视图时空网络来解决这些问题。

2. 相关工作

2.1 选址相关工作

传统选址方法主要采用定性的访谈、观察和调查方法。
新的选址分析方法利用丰富的社交媒体数据，如 Facebook 和 Foursquare，以及百度地图的搜索查询数据。
部分研究使用移动电话数据进行户外广告展示位置选择，或使用直觉模糊投影方法解决电动汽车充电站选址问题。但这些方法多将选址任务视为多标准决策问题，不适合处理城市时空数据。

2.2 时空数据分析相关工作

传统方法分别处理时间序列数据和空间数据，如 ARIMA 及其变体常用于交通预测。
深度学习在时空分析问题上的应用取得了进展，如 ST - ResNet 用于城市人群流量预测，神经注意力模型用于城市空气质量推断，DMVST - Net 用于出租车需求预测，DST - GCNNs 用于交通流量预测。但车辆加油需求推断是一个全新的应用领域，相关研究较少。

3. 预备知识

3.1 相关定义

车辆加油数据 ：当司机到加油站给汽车加油时，会生成加油记录。特定加油站的加油数据通过时间间隔 t 内的总加油量来衡量。
POI ：兴趣点代表一个特定位置，有名称、类别、坐标和几个辅助属性。用 Dp 表示城市中所有 POI 的集合。
道路网络 ：道路网络 Dr 由城市中一组相连的道路段组成。每个道路段包含道路数量、高架桥、交叉路口、立交桥、车道和街道等特征。
气象数据 ：气象数据集 Dm 包括城市的区域级气象记录。Dt m 表示时间段 t 内的实时气象信息，如天气、温度、压力、湿度。
加油需求 ：加油需求定义为特定加油站每个时间点的加油量。

3.2 问题陈述

需求推断问题旨在根据直到时间间隔 t 的数据，预测时间间隔 t + 1 时现有加油站以及城市中任何其他位置的加油需求。除了历史时间需求数据，还纳入了 POI 特征、道路特征、气象特征和加油站之间的距离等外部特征。

4. 提出的多视图时空网络

4.1 特征提取

气象特征 Xm ：加油站的加油状态容易受到气象因素影响，考虑天气、温度、压力、湿度四个气象特征。其中天气是具有 12 个类别的分类特征，采用独热编码表示；其他为数值特征，将其值归一化到 [0, 1] 范围。每个区域定期（如每 1 小时）提取特征，Xmt 表示时间段 t 内的气象特征集合。
道路网络特征 Xr ：道路网络条件会影响加油站的加油状态，考虑道路段、高架桥、交叉路口、立交桥、道路、车道和街道七个道路网络特征。通过测量区域内每个类别的上述特征数量来捕捉道路网络的密集程度。
POI 特征 Xp ：直观上，有许多住宅区和 CBD 的区域对车辆加油的需求往往更高。由于 POI 能很好地捕捉位置特征，因此利用 POI 数据进行车辆加油需求推断。

graph TD;
    A[输入数据] --> B[气象特征提取];
    A --> C[道路网络特征提取];
    A --> D[POI 特征提取];
    B --> E[特征融合];
    C --> E;
    D --> E;
    E --> F[模型训练];

综上所述，知识感知自注意力网络在文档驱动对话生成中展现出良好的性能，而多视图时空网络为车辆加油需求推断提供了有效的解决方案，这两种方法都在各自的领域中具有重要的应用价值。

4.2 网络结构

多视图时空网络采用端到端的结构，结合前馈全连接层（FC）和长短期记忆网络（LSTM）来建模空间和时间特征，并捕捉深度特征交互。具体结构如下：
- 空间特征建模 ：使用前馈全连接层处理提取的气象特征 (X_m)、道路网络特征 (X_r) 和 POI 特征 (X_p)，将不同类型的特征转换为统一的特征表示，以捕捉空间特征之间的关系。
- 时间特征建模 ：利用 LSTM 对时间序列数据进行建模，捕捉时间上的依赖关系。LSTM 能够处理长序列数据，并记忆长期的时间信息，适合处理车辆加油需求随时间变化的情况。
- 特征融合与输出 ：将空间特征和时间特征进行融合，通过全连接层输出预测的车辆加油需求。

4.3 训练过程

训练多视图时空网络的步骤如下：
1. 数据预处理 ：对输入的气象数据、道路网络数据和 POI 数据进行清洗和归一化处理，确保数据的质量和一致性。
2. 特征提取 ：按照前面介绍的方法分别提取气象特征 (X_m)、道路网络特征 (X_r) 和 POI 特征 (X_p)。
3. 构建训练集和验证集 ：将处理后的数据划分为训练集和验证集，用于模型的训练和评估。
4. 模型训练 ：使用 AdaGrad 优化器对模型进行训练，设置批量大小为 50，学习率为 0.15。训练过程中，通过最小化预测值与真实值之间的损失函数来更新模型参数。
5. 模型评估 ：在验证集上使用评估指标（如均方误差、平均绝对误差等）评估模型的性能，选择性能最优的模型。

5. 实验结果

在真实世界的车辆加油数据集上进行实验，将多视图时空网络与一些现有的方法进行比较，结果如下表所示：
| 方法 | 均方误差 | 平均绝对误差 |
| — | — | — |
| 传统时间序列方法 | 较高 | 较高 |
| 其他深度学习方法 | 中等 | 中等 |
| 多视图时空网络 | 较低 | 较低 |

从实验结果可以看出，多视图时空网络在车辆加油需求推断任务上表现优于传统时间序列方法和其他深度学习方法。这表明该网络能够有效地捕捉时空数据中的复杂关系，提高需求推断的准确性。

graph TD;
    A[数据预处理] --> B[特征提取];
    B --> C[构建训练集和验证集];
    C --> D[模型训练];
    D --> E[模型评估];
    E --> F[结果分析];

6. 总结与展望

多视图时空网络通过联合建模空间和时间特征，有效地解决了车辆加油需求推断中的复杂问题。该网络能够充分利用城市时空数据中的信息，提高需求推断的准确性，为加油站的选址提供了有力的支持。

未来的工作可以从以下几个方面展开：
- 扩展知识来源 ：将常识知识图谱中的知识融入到模型中，进一步丰富模型的知识储备，提高模型的泛化能力。
- 引入强化学习机制 ：探索使用强化学习来优化模型的训练过程，使模型能够更好地适应不同的场景和需求。
- 多领域应用 ：将多视图时空网络应用到其他领域，如物流配送、能源管理等，拓展其应用范围。

总之，知识感知自注意力网络和多视图时空网络在不同领域都展现出了良好的性能和应用前景。随着技术的不断发展和研究的深入，这些方法有望在更多领域发挥重要作用，为解决实际问题提供有效的解决方案。