基于深度学习的需求工件中用例场景检测方法
在自然语言处理(NLP)和软件工程领域,从需求文档中准确识别用例场景(UCS)是一项具有挑战性但至关重要的任务。本文将介绍一种基于机器学习的方法,用于区分需求文档中的用例陈述和其他内容。
1. 相关技术基础
- 文本分类与神经网络 :深度神经网络(DNN)在文本分类中结合了特征提取和分类。循环神经网络(RNN)常用于NLP,它能识别输入的渐进特征并预测下一个最可能的结果。然而,RNN存在偏向性,近期的词比早期的词更重要,这在捕捉整个文档语义时可能降低效率。为解决这一问题,长短期记忆网络(LSTM)被提出。双向神经网络(BNN)由两个LSTM组成,能同时利用前后文信息,适用于词性标注等任务。
- 迁移学习 :迁移学习是利用在大量数据集上训练的深度学习模型来处理新数据集上的类似任务。词嵌入是从大量文本数据中提取的预训练词向量表示,已在不同语言任务中取得了良好效果。常见的上下文无关神经嵌入有Word2vec和Glove。2018年,一些重要的模型如ULMFiT、ELMO、GPT和BERT的出现,成为许多NLP任务的分水岭。BERT是第一个无监督的深度双向语言表示模型,通过简单文本数据集学习,其新的预测任务包括掩码语言模型(Masked LM)和下一句预测(Next Sentence Prediction),在下游NLP任务中表现优于ELMo和OpenAI GPT。
2. 相关工作
软件需求通常用自然语言编写,这增加了规范中出现歧义、不一致、错误和不完整等问题的可能性。UML模型虽可缓解自然语言的局限性,但从自然语言
超级会员免费看
订阅专栏 解锁全文

202

被折叠的 条评论
为什么被折叠?



