《基于人工智能的问题回答（QA）帮助分析自然语言的需求》论文笔记

本文链接：https://blog.youkuaiyun.com/shenghuo12582/article/details/135912365

文章探讨了QAssist，一种使用自然语言处理技术的问答系统，它通过信息检索和机器阅读理解在软件需求规格和特定领域语料库中寻找答案。实验结果显示，BM25在文档检索方面表现最佳，而ALBERT在答案提取上最为精准。QAssist在实际应用中显示出在专业领域如航空航天的优越性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景：由于预先用自然语言（ NL ）编写，需求容易出现各种缺陷：不一致和不完整

解决方法：QAssist - 问答，提供自动化的援助

不完整：应定期计算航天器的湿质量（具体频率）

不一致：导航摄像系统应仅用于探测慧星核 / 航天器应使用导导航摄像系统进行小行星探测

QAssist：

QAssist 将 NL 中提出的问题作为输入，在文档集合中将可能包含问题答案的文本段落列表作为输出返回。

QAssist 采用自然语言处理（ NLP）来检索两个相关文本段落列表：一个来自软件需求规格 SRS，另一个来自特定领域的语料库。在每一段中，所提问题的可能答案都被突出显示。当特定领域的语料库不存在时，QAssist 会自动构建一个，使用给定 SRS 中出现的短语作为种子术语。

QA 解决方案分两个阶段工作，信息检索（ IR ）与机器阅读理解 (MRC）

信息检索(IR)：

IR方法被设计为根据文档与查询的相关性对文档进行排名，传统的检索方法包括词频-逆文档频（TF-IDF）和Okapi最佳匹配（BM 25）。

TF-IDF根据其在文档中的出现频率相对于其在整个文档集合中的频率，为文档中出现的每个术语分配复合权重。

词频 TF(w,d)=词w在文档d中出现次数/文档d的总词语数

逆文档频率度量了一个词语在整个文档集合中的重要性。IDF值越大，表示词语在整个文档集合中越不常见，因此在文档中的重要性越高。

逆文档频率 IDF(w,D)=ln（文档集合D中的总文档数/（包含词w的文档数+1））

$TF-IDF(w,d,D)=TF(w,d)\times IDF(w,D)$

这些权重用于将文本序列转换为数学向量。在此之后，查询和文档都被表示为向量，查询被视为（短）文档。使用相似性度量来计算相关性。

BM 25是使用相关性反馈来改进TF-IDF权重的概率模型,BM 是Best Match最佳匹配的缩写，25指的是第25次算法迭代。

机器阅读理解MRC: 模型从文本段落中提取给定问题的可能答案，MRC通常使用预先训练的语言模型

Language Models (LMs)： LM在大量文本上进行预训练，以学习上下文信息，语言的语义，以及单词之间的句法和语义关系。可以通过微调LM来使用这些学习到的知识来解决下游NLP任务。

方法：

step1: 计算q与D中每个文档之间的相关性，从所得到的排序列表中，选择最相关的c个文档。

step2:分别拆分给定的SRS和最相关的语料库文档d，自动生成文本段落的两个列表TS和TD。

step3:与从每个TS和TD中找到与q最相关的k个文本段落。我们分别用RS和RD表示

step4:应用READER从RS和RD中的每个文本段落中提取一个可能的答案。可能的答案在中突出显示，并与RS和RD一起作为QAssist的输出呈现。

QA实现：使用Transformers 3.0.1库实现了NLP管道（包括分词器和句子分割器）。

使用Scikitlearn 1.0.2 实现了传统的IR方法和TF-IDF矢量化，

使用BM 25 0.2.2库实现了BM 25。

语言模型包括来自BeIR 的基于IR的模型DistilBERT-base-tas-b和MiniLM-L-12-v2以及来自HuggingFace 的基于MRC的模型ALBERT-large v1.0，BERT-large-uncased，DistilBERT-basecased，ELECTRA-base，MiniLM-uncased和RoBERTa-base。

使用Wikipedia 1.4.0库提取维基百科的语料库。

使用NLTK 3.2.5 来预处理SRS和语料库文档中的文本进行问题生成。

应用T5-base-question-generator和BERT-base-cased-qaevaluator自动生成和评估问答对。这两个模型都来自HuggingFace。

REQuestA（QA数据集）：

三个应用领域：航空航天，国防和安全

REQuestA中的问题和答案来自两个不同的来源：输入SRS和围绕输入SRS的内容自动创建的域特定语料库。

问题-答案对列表生成：

(a)预处理：目标是识别一组概念，这些概念在下一步中用于分析输入SRS的域。应用了REGICE。

(b)领域分析：目标是构建一个最小的特定领域语料库。使用SRS提取的概念：为每个概念计算TF-IDF分数，删除任何通用概念，按照TF-IDF分数的降序对概念进行排序，并选择前50个概念，将这些概念称为关键字使用每个关键字查询Wikipedia并找到匹配的文章，从匹配的文章中随机选择一个子集用于下一步。

(c)拆分：将SRS和Wikipedia文章自动拆分为一组文本段落。

(d)答案对生成：给予一段文字作为QG模型的输入，该模型首先从文章中提取一个随机答案，然后自动生成一个相应的问题。

研究问题：

RQ1：哪个检索器在查找与给定问题最相关的文本时具有最高的准确性？

EXPI：

评估了四种替代RETRIEVERS：

传统的RETRIEVERS TF-IDF

BM 25

DistilBERT密集RETRIEVER

将BM 25与MiniLM交叉编码器配对的重新排序RETRIEVER

使用IR文献中常用的两个评估指标：

recall@k（R@k），评估包含给定问题（q）的正确答案的文档（或文本段落）是否在由检索器产生的前k个文档（或段落）的排名列表中。