统计关系学习:新兴领域的探索与应用
1. 概述
传统统计学习大多假定数据以高维空间中的点来表示。对于孤立任务,如人脸检测或邮件分类,可构建低层次特征并借助标准向量表示工具解决问题。然而,这种抽象掩盖了数据的丰富逻辑结构,而这对解决更复杂的问题至关重要。
我们不仅希望检测图像中的人脸,还想识别出人脸所属的人物身份、动作等信息;对于邮件,我们期望判断其是否为垃圾邮件,还能识别邮件的具体请求或邀请内容。因此,我们需要开发能够对数据的对象 - 关系结构进行有效且稳健推理的形式化方法、模型和算法。
处理真实数据时,不可避免地需要处理因噪声和信息不完整而产生的不确定性。在关系问题中,不确定性体现在多个层面,包括对象属性、类型、数量、身份以及关系的成员、类型和数量等。解决关系学习任务需要对这些不确定性进行复杂处理。
为应对这些挑战,一系列统计模型应运而生,旨在以紧凑直观的方式表达概率模型,反映数据的关系结构,并支持高效的学习和推理。这些模型主要基于图形模型、概率语法和逻辑公式的组合。
2. 关系学习的简要历史
早期机器学习主要关注确定性逻辑概念的学习,采用逻辑表示法,但因处理噪声和大规模数据能力有限,逐渐失宠。在此期间,机器学习社区转向忽略数据关系方面的统计方法,如神经网络、决策树和广义线性模型,这些方法在低级视觉和自然语言处理中取得了显著的准确性提升,但重点在于命题或属性值表示。
然而,归纳逻辑编程(ILP)社区是个例外。ILP 社区专注于从关系数据中学习一阶规则,最初主要关注程序合成,近年来则致力于从大型数据库中发现有用规则,这些规则常用于预测并可能具有概率解释。ILP 在多个应用领域取得了成功,如发现致突
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



