《基于人工智能的问题回答(QA)帮助分析自然语言的需求》论文笔记

文章探讨了QAssist,一种使用自然语言处理技术的问答系统,它通过信息检索和机器阅读理解在软件需求规格和特定领域语料库中寻找答案。实验结果显示,BM25在文档检索方面表现最佳,而ALBERT在答案提取上最为精准。QAssist在实际应用中显示出在专业领域如航空航天的优越性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景:由于预先用自然语言( NL )编写,需求容易出现各种缺陷:不一致和不完整
解决方法:QAssist - 问答,提供自动化的援助
不完整:应定期计算航天器的湿质量(具体频率)
不一致:导航摄像系统应仅用于探测慧星核 / 航天器应使用导导航摄像系统进行小行星探测
QAssist:
QAssist NL 中提出的问题作为输入,在文档集合中将可能包含问题答案的文本段落列表作为输出返回。
QAssist 采用自然语言处理( NLP)来检索两个相关文本段落列表:一个来自软件需求规格 SRS,另一个来自特定领域的语料库。在每一段中,所提问题的 可能答案都被突出显示。当特定领域的语料库不存在时,QAssist 会自动构建一个,使用给定 SRS 中出现的短语作为种子术语。
QA 解决方案分两个阶段工作,信息检索( IR )与机器阅读理解 (MRC)
信息检索(IR)
IR方法被设计为根据文档与查询的相关性对文档进行排名,传统的检索方法包括词频-逆文档频(TF-IDF)和Okapi最佳匹配(BM 25)。
     TF-IDF根据其在文档中的出现频率相对于其在整个文档集合中的频率,为文档中出现的每个术语分配复合权重。
      词频    TF(w,d)=词w在文档d中出现次数/文档d的总词语数
     逆文档频率度量了一个词语在整个文档集合中的重要性。IDF值越大,表示词语在整个文档集合中越不常见,因此在文档中的重要性越高。
      逆文档频率  IDF(w,D)=ln(文档集合D中的总文档数/(包含词w的文档数+1))
       TF-IDF(w,d,D)=TF(w,d)\times IDF(w,D)
     这些权重用于将文本序列转换为数学向量。在此之后,查询和文档都被表示为向量,查询被视为(短)文档。使用相似性度量来计算相关性。
      BM 25是使用相关性反馈来改进TF-IDF权重的概率模型,BM 是Best Match最佳匹配的缩写,25指的是第25次算法迭代。
机器阅读理解MRC: 模型从文本段落中提取给定问题的可能答案,MRC通常使用预先训练的语言模型
Language Models (LMs): LM在大量文本上进行预训练,以学习上下文信息,语言的语义,以及单词之间的句法和语义关系。可以通过微调LM来使用这些学习到的知识来解决下游NLP任务。
方法:
        step1: 计算q与D中每个文档之间的相关性,从所得到的排序列表中,选择最相关的c个文档。
        step2:分别拆分给定的SRS和最相关的语料库文档d,自动生成文本段落的两个列表TS和TD。
        step3:与从每个TS和TD中找到与q最相关的k个文本段落。我们分别用RS和RD表示
        step4:应用READER从RS和RD中的每个文本段落中提取一个可能的答案。可能的答案在中突出显示,并与RS和RD一起作为QAssist的输出呈现。
QA实现:使用Transformers 3.0.1库实现了NLP管道(包括分词器和句子分割器)。
               使用Scikitlearn 1.0.2 实现了传统的IR方法和TF-IDF矢量化,
               使用BM 25 0.2.2库实现了BM 25。
               语言模型包括来自BeIR 的基于IR的模型DistilBERT-base-tas-b和MiniLM-L-12-v2以及来自HuggingFace 的基于MRC的模型ALBERT-large v1.0,BERT-large-uncased,DistilBERT-basecased,ELECTRA-base,MiniLM-uncased和RoBERTa-base。
              使用Wikipedia 1.4.0库提取维基百科的语料库。
              使用NLTK 3.2.5 来预处理SRS和语料库文档中的文本进行问题生成。 
              应用T5-base-question-generator和BERT-base-cased-qaevaluator自动生成和评估问答对。这两个模型都来自HuggingFace。
REQuestA(QA数据集):
      三个应用领域:航空航天,国防和安全
      REQuestA中的问题和答案来自两个不同的来源:输入SRS和围绕输入SRS的内容自动创建的域特定语料库。
      问题-答案对列表生成:
      (a)预处理:目标是识别一组概念,这些概念在下一步中用于分析输入SRS的域。应用了REGICE。
     (b)领域分析:目标是构建一个最小的特定领域语料库。使用SRS提取的概念:为每个概念计算TF-IDF分数,删除任何通用概念,按照TF-IDF分数的降序对概念进行排序,并选择前50个概念,将这些概念称为关键字使用每个关键字查询Wikipedia并找到匹配的文章,从匹配的文章中随机选择一个子集用于下一步。
     (c)拆分:将SRS和Wikipedia文章自动拆分为一组文本段落。
     (d)答案对生成:给予一段文字作为QG模型的输入,该模型首先从文章中提取一个随机答案,然后自动生成一个相应的问题。
研究问题 :
RQ1:哪个检索器在查找与给定问题最相关的文本时具有最高的准确性?
         EXPI:
        评估了四种替代RETRIEVERS:
                传统的RETRIEVERS TF-IDF
                BM 25
                DistilBERT密集RETRIEVER
                将BM 25与MiniLM交叉编码器配对的重新排序RETRIEVER
        使用IR文献中常用的两个评估指标:
                recall@k(R@k),评估包含给定问题(q)的正确答案的文档(或文本段落)是否在由检索器产生的前k个文档(或段落)的排名列表中。
                归一化的贴现累积增益@k(nDCG@k),不仅考虑相关文档(或段落)的存在,而且考虑其排名。
        结果:
     BM 25是最好的文档检索器,具有完美的召回率,重新排序RETRIEVER是最好的段落检索器。
 
RQ2:哪个阅读器(READERS)在提取给定问题的可能答案时产生最准确的结果?
        EXPII:
        替代READERS:ALBERT,BERT,DistilBERT,ELECTRA,MiniLM和RoBERTa。
        使用准确度(A)来比较READERS的表现,准确度(A)计算为READERS正确回答的问题数除以问题总数。
       结果:ALBERT提供了最好的整体权衡
RQ3:QAssist是否在实际时间内运行?(是否能正常应用)
与广泛搜索引擎(google...)的比较:专业和专有材料领域QA更佳
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值