自然语言需求中的领域概念识别方法
1. 引言
在软件开发过程中,自然语言需求是系统和软件需求表达的主要方式。构建领域模型是从自然语言需求向精确规范过渡的重要步骤。通过明确捕捉应用程序领域的关键概念和关系,领域模型不仅作为改善应用程序利益相关者之间沟通的有效工具,还作为详细需求和设计阐述的基础。然而,对于大型系统,手动构建领域模型是一项繁重的任务。因此,自动化辅助工具变得至关重要。本文将详细介绍一种基于自然语言处理(NLP)的自动化方法,用于从不受限制的需求中提取领域模型,重点关注领域概念的识别。
2. 候选概念的初步标记
识别领域概念的第一步是从需求陈述中提取名词短语(NPs)。这些名词短语最初被视为候选概念。具体来说,如果依赖关系的源端或目标端是代词,则该端被视为代词所指的概念。例如,考虑以下需求陈述:
需求陈述示例
"The simulator shall connect only to those networks for which the IP addresses have been specified."
在这个例子中,名词短语 “simulator”、”networks” 和 “IP addresses” 被视为候选概念。如果依赖关系的源端或目标端是代词(如 “their” 或 “it”),那么该端将被视为代词所指的概念。例如,”its” 通过共指消解指向 “simulator”。
3. 规则的应用
为了识别领域概念,我们使用了一系列规则,这些规则来源于现有文献和技术实践。表1列出了总共五条