信息系统业务逻辑自动化与领域模型重用
1. 信息系统业务逻辑自动化
1.1 信息系统发展需求与机器学习应用
复杂地域系统的发展需要大规模信息系统(IS),这些系统要能在功能需求的异质性和可变性条件下有效工作。信息系统的各个组件会因满足这些需求而不断进化和变化。多源空间信息系统(MSIS)发展中的一个关键问题是系统能否快速适应功能需求的变化(如新业务功能的出现)。
机器学习是解决这一问题的一个有前景的方法。尽管机器学习存在一些已知的局限性,但现代机器学习模型,特别是深度人工神经网络(ANN),在解决越来越广泛的问题上表现出色。这让我们期望机器学习不仅能作为解决特定数据分析任务的手段,还能在更广泛的意义上实现系统功能,在信息系统架构中占据更重要的位置。
1.2 数据编程解决数据标注问题
深度学习在新应用问题中面临的最大限制是缺乏适合训练机器学习模型的高质量标注数据集。数据编程(DP)方法是解决这一问题的新途径,它是弱监督学习的一种实现方式,通过简单的软件构造(标注函数,LFs)实现数据集的自动标注。
数据编程方法的一些关键特性使其能够很好地应对 MSIS 的异质性、大规模和可变性问题:
- 标注函数创建简单,且能在其框架内编程任意(异构)逻辑。
- 能够快速自动生成考虑噪声的训练集。
- 可以重用标注函数来标记新数据。
在数据编程中,实际编程工作简化为创建相对简单的标注函数,这减少了对高技能程序员开发信息系统功能的需求,在很大程度上实现了“无编程编程”的关键原则。在此基础上,还提出了基于本体形式化的领域知识自动生成标注函数的技术。采用这种方法,领域专家无需进行编程(即