自然语言处理助力领域模型提取:方法与工业评估
1. 引言
自然语言(NL)在表达系统和软件需求方面具有广泛应用。构建领域模型是从非正式需求向精确规范过渡的重要步骤。领域模型不仅有助于改善利益相关者之间的沟通,还为详细需求和设计的阐述奠定了基础。然而,对于大型系统,手动构建领域模型是一项繁重的任务,尤其是在工业环境中,时间和资源有限的情况下,工程师往往将领域建模推迟到需求足够稳定之后。
自然语言处理(NLP)技术的发展为自动化领域模型提取提供了可能。通过利用NLP技术,可以自动识别需求文档中的关键概念和关系,从而减轻工程师的手动工作负担。本文将介绍一种基于NLP的自动化方法,用于从不受限制的需求中提取领域模型,并对其在工业环境中的应用进行评估。
2. 现有技术状况
领域模型提取的相关文献已经提出了多种方法,这些方法大多依赖于特定的句子模式或结构。然而,工业需求文档通常没有严格的结构限制,因此现有方法在实际应用中的效果有限。表1总结了从现有文献中提取的规则,这些规则根据它们提取的信息的性质(概念、关联、泛化、基数和属性)被组织成四个类别。
表1:现有的领域模型提取规则
规则ID | 描述 | 示例 |
---|---|---|
A1 | 需求中的所有名词短语是候选概念 | 模拟器, 日志消息, 数据库, 监控接口 |
A2 |