50、AIDA-Bot 2.0：借助知识图谱增强对话式智能体以分析研究格局-优快云博客

本文链接：https://blog.youkuaiyun.com/css33/article/details/150434781

AIDA-Bot 2.0：借助知识图谱增强对话式智能体以分析研究格局

在科研领域，分析研究格局的复杂动态并从科学文献中挖掘最新见解，对研究人员、政府和商业组织都至关重要。全球领先的学术出版商Springer Nature（SN）在这一领域发挥着重要作用。他们的计算机科学出版物涵盖170多种期刊，每年约有900卷会议论文集，因此需要持续监测学术格局，为战略决策提供依据。

1. 背景与动机

SN依靠强大的数据管道整合大规模学术数据集，并基于先进的数据挖掘和机器学习解决方案提供分析功能。语义网和知识图谱技术在这一基础设施中起着关键作用，自2014年起，SN与开放大学合作探索语义技术的应用，开发了许多工具并集成到工作流程中。

2020年，合作开发了AIDA Dashboard，这是一个基于Academia/Industry DynAmics（AIDA）知识图谱的网络应用程序，允许用户根据一系列综合分析评估和比较期刊与会议。然而，AIDA Dashboard存在局限性，主要关注期刊和会议，且仅报告固定的预计算分析，无法让用户对所有描述的实体（如研究人员、文章、组织等）进行特定查询。因此，开发了基于对话式智能体的AIDA - Bot，其第一个原型于2021年在ISWC上展示。

2. AIDA知识图谱管道

SN的数据云基础设施基于Google BigQuery和Google Vertex AI Workbench，用于定义复杂的数据管道，集成不同数据源，定期更新并通过机器学习模型进行分类和信息提取。

为了更全面详细地表示计算机科学研究动态，创建并维护了AIDA知识图谱。它集成了多种数据源，如OpenAlex、DBLP、ROR、DBpedia、CSO和INDUSO，描述了计算机科学领域的出版物和专利。当前版本的AIDA知识图谱描述了2500万篇出版物和800万项专利，聚焦于八个主要类别：论文、专利、作者、隶属关系、期刊、会议、主题和工业部门，通过22种独特关系相互关联。

生成AIDA知识图谱的管道包括以下步骤：
1. 数据准备 ：下载并准备所有相关数据源。
2. 数据集成 ：整合OpenAlex和DBLP的研究论文，使用DOI和标题相似度进行统一。
3. 主题标注 ：利用CSO分类器根据计算机科学本体对所有研究文档进行主题标注。
4. 组织类型确定 ：使用OpenAlex的ROR ID确定文档是由学术机构、工业组织还是合作完成。
5. 工业部门标注 ：对于工业作者创建的文档，利用DBpedia上的隶属关系描述，将其映射到INDUSO中的相关工业部门。

AIDA知识图谱公开可用，采用CC - BY 4.0许可，可通过SPARQL进行查询。目前专注于计算机科学领域，正在扩展到其他学科。

3. AIDA - Bot 2.0架构

AIDA - Bot 2.0由两个主要模块组成：问题理解模块和响应生成模块。

3.1 问题理解模块

该模块的主要任务是分析用户输入，识别四种预定义查询类型（计数、列表、描述和比较），并将问题转换为知识图谱上的正式查询。与之前版本相比，AIDA - Bot 2.0支持使用多达三个过滤器的复杂查询。

具体步骤如下：
1. 关键术语提取 ：使用命名实体识别（NER）技术，借助spaCy库提取关键术语，包括名词、名词短语、命名实体和引号中的复合表达式。去除冗余和无关的词汇，如表示问题的词汇和实体类型的词汇。
2. 实体识别 ：在AIDA知识图谱中搜索关键术语，确定相关实体及其类型。
3. 问题生成 ：使用模板动态生成语法，产生所有可自动转换为知识图谱查询的兼容请求。每个查询类型有多个模板，可支持多种问题表述。
4. 相似度计算 ：计算用户输入问题与生成问题之间的相似度，采用句子嵌入和余弦相似度。如果相似度超过阈值，则将最相似的生成问题作为用户查询的代表。
5. 信息传递 ：将关键术语、实体、实体类型和查询类型等信息传递给响应生成模块。

以下是部分查询类型的简单模板示例：
1. count < sub c > {}
2. list the <super> {num} <sub l> {}
3. describe {}
4. compare {} vs {}

3.2 响应生成模块

该模块根据用户请求是否匹配生成的查询，分为两种情况处理：
1. 匹配情况 ：如果用户请求匹配生成的查询，生成等效查询并在AIDA知识图谱上运行，检索相关数据。使用针对特定查询类型的响应模板生成自然语言响应，并调整单复数术语，确保答案的语法正确性和连贯性。
2. 未匹配情况 ：如果用户问题未匹配生成的查询，则将其作为“开放问题”处理。从AIDA知识图谱中检索包含相关关键术语的论文集，使用问答模型根据论文摘要生成响应。如果查询未返回论文，通常是因为用户请求超出了知识图谱的覆盖范围。

下面是AIDA - Bot 2.0架构的mermaid流程图：

graph TD;
    A[用户输入] --> B[问题理解模块];
    B --> B1[关键术语提取];
    B1 --> B2[实体识别];
    B2 --> B3[问题生成];
    B3 --> B4[相似度计算];
    B4 --> C{是否匹配};
    C -- 是 --> D[响应生成模块 - 匹配情况];
    D --> D1[生成等效查询];
    D1 --> D2[运行查询];
    D2 --> D3[使用响应模板生成响应];
    C -- 否 --> E[响应生成模块 - 未匹配情况];
    E --> E1[检索相关论文];
    E1 --> E2[使用问答模型生成响应];

4. 优势与改进

与AIDA - Bot 1.0相比，AIDA - Bot 2.0有显著改进：
- 新颖的语法方法 ：采用基于语法的方法识别问题类型，能够处理多种问题表述。
- 多过滤器支持 ：支持使用多达三个过滤器的复杂查询，提供更灵活的查询方式。
- 开放问题回答 ：能够通过总结相关文章信息回答开放问题，确保响应基于事实信息，可验证和纠正。

5. 评估

对AIDA - Bot 2.0的准确性和可用性进行了评估：
- 比较评估 ：十名研究人员向AIDA - Bot 2.0和三种替代解决方案提出15个问题，并对响应进行排名。
- 用户研究 ：邀请五名资深计算机科学研究人员进行用户研究，深入评估AIDA - Bot 2.0的可用性和实用性。

评估结果表明，AIDA - Bot 2.0的新功能提供了更准确的信息和出色的用户体验。

综上所述，AIDA - Bot 2.0是一个利用大规模知识图谱在研究领域提供可靠答案的新型对话式智能体，其混合架构在处理预定义和开放问题方面有显著改进，通过评估和用户研究证明了其有效性和实用性。未来，AIDA知识图谱将扩展到更多学科，AIDA - Bot 2.0也将不断优化和发展。

AIDA-Bot 2.0：借助知识图谱增强对话式智能体以分析研究格局

6. 应用案例

AIDA - Bot 2.0在实际应用中展现出了强大的功能，以下是一些具体的应用场景：

6.1 研究人员的信息获取

研究人员可以利用AIDA - Bot 2.0快速获取特定领域的研究信息。例如，一位计算机视觉领域的研究人员想要了解当前该领域引用量最高的五篇论文，他可以向AIDA - Bot 2.0提出“List the top 5 papers about computer vision with the most citations”的问题。AIDA - Bot 2.0会通过问题理解模块识别出这是一个“列表”类型的查询，然后将其转换为知识图谱上的正式查询，在AIDA知识图谱中检索相关信息，并通过响应生成模块生成自然语言响应，为研究人员提供所需的论文列表。

6.2 编辑团队的决策支持

编辑团队在策划特刊或书籍时，需要评估研究热点和潜在的作者。他们可以使用AIDA - Bot 2.0来获取相关信息。比如，编辑团队想要了解在人工智能和机器学习领域有哪些活跃的研究人员，他们可以询问“A list of active researchers in the fields of artificial intelligence and machine learning”。AIDA - Bot 2.0会处理这个问题，从知识图谱中筛选出符合条件的研究人员信息，为编辑团队的决策提供支持。

6.3 商业组织的市场分析

商业组织可以借助AIDA - Bot 2.0进行市场分析，了解行业动态和竞争对手的研究情况。例如，一家科技公司想要了解其竞争对手在区块链技术方面的研究成果，他们可以向AIDA - Bot 2.0询问“Describe the research achievements of our competitors in blockchain technology”。AIDA - Bot 2.0会根据知识图谱中的信息，为公司提供相关的研究成果描述。

7. 与其他技术的对比

在自然语言处理领域，有许多技术可以用于回答用户的问题，如大型语言模型（LLMs）。以下是AIDA - Bot 2.0与大型语言模型（以GPT 4.0为例）的对比：

对比项	AIDA - Bot 2.0	GPT 4.0
信息准确性	基于大规模知识图谱，回答基于事实信息，可验证和纠正，减少了“幻觉”问题	可能会产生不基于事实知识的文本，存在“幻觉”现象，在科学领域的准确性有限
领域针对性	专注于研究领域，能够提供特定领域的专业信息	通用性强，但在特定领域的专业性不如AIDA - Bot 2.0
查询灵活性	支持预定义和开放问题，通过语法方法处理多种问题表述，支持多过滤器查询	可以处理各种类型的问题，但对于复杂的领域特定查询可能不够精准

8. 技术挑战与解决方案

尽管AIDA - Bot 2.0取得了显著的成果，但在实际应用中仍然面临一些技术挑战：

8.1 知识图谱的更新与扩展

随着科学研究的不断发展，知识图谱需要及时更新和扩展，以包含最新的研究成果和信息。解决方案是建立定期的数据更新机制，利用自动化工具从各种数据源中收集和整合新的数据，并将其添加到知识图谱中。同时，不断扩展知识图谱的覆盖范围，从计算机科学领域扩展到其他学科。

8.2 自然语言理解的准确性

自然语言具有多样性和歧义性，准确理解用户的问题仍然是一个挑战。为了提高自然语言理解的准确性，AIDA - Bot 2.0采用了基于语法的方法，结合命名实体识别和相似度计算技术。此外，还可以通过收集更多的用户反馈，不断优化问题理解模块的算法和模板。

8.3 问答模型的性能优化

在处理开放问题时，问答模型的性能直接影响到响应的质量。可以通过使用更先进的深度学习模型，如基于Transformer架构的模型，来提高问答模型的性能。同时，增加训练数据的规模和多样性，对问答模型进行持续的训练和优化。

9. 未来展望

AIDA - Bot 2.0作为一个具有创新性的对话式智能体，在研究领域有着广阔的应用前景：

9.1 跨学科研究支持

随着知识图谱的不断扩展，AIDA - Bot 2.0将能够支持跨学科研究。研究人员可以通过它获取不同学科之间的交叉研究信息，促进跨学科合作和创新。

9.2 个性化服务

未来，AIDA - Bot 2.0可以根据用户的历史查询记录和偏好，提供个性化的服务。例如，为用户推荐感兴趣的研究论文、研究人员或研究机构，提高用户获取信息的效率和满意度。

9.3 与其他系统的集成

AIDA - Bot 2.0可以与其他科研管理系统、文献检索系统等进行集成，实现数据的共享和交互。这样，用户可以在不同的系统中无缝使用AIDA - Bot 2.0的功能，提高科研工作的整体效率。

下面是AIDA - Bot 2.0未来发展的mermaid流程图：

graph LR;
    A[AIDA - Bot 2.0当前状态] --> B[知识图谱更新与扩展];
    B --> C[跨学科研究支持];
    A --> D[自然语言理解优化];
    D --> E[个性化服务];
    A --> F[问答模型性能提升];
    F --> G[与其他系统集成];

总之，AIDA - Bot 2.0通过利用大规模知识图谱，为研究领域提供了一种可靠、高效的信息获取方式。随着技术的不断发展和完善，它将在科研、商业等领域发挥更加重要的作用。