无监督语言学习在OpenCog中的应用
1. 引言
在自然语言处理领域,无监督语言学习技术致力于让系统在无监督的情况下学习语言。人类的语言习得能力与智力紧密相关,且大部分语言习得过程是在松散监督下完成的。然而,现有的机器学习技术在达到人类儿童的语言水平时,需要更多的努力和训练数据。
当前的自然语言处理应用通常需要形式语法或带注释的语料库作为输入,但创建这些语法成本高昂,导致许多语言缺乏高质量的语法。此外,文本挖掘和信息提取等自然语言处理应用依赖于基于模式的方法进行分类、实体提取和归因,因此识别文本模式对于这些应用至关重要。无监督地推断这些模式的技术可以使自然语言处理应用更便宜、更快、更精确和高效。
该研究还与“婴儿图灵测试”相关,旨在让人工智能系统通过经验或教学训练,最终具备通过经典图灵测试的能力。研究基于将语言结构表示为图的“层”,并使用最小生成树(MST)方法生成的统计解析来学习语法。
2. 背景
在无监督学习未注释语料库时,不确定是否能成功,但仍希望在此方向上取得进展,以学习大部分语法和一些语义。同时,语法和语义类别之间没有明确的界限,某些语义类别可能会影响语法。为解决问题,做出以下简化和放松:
- 受控语料库 :使用不同复杂度的语料库,包括:
- 概念验证海龟(POC - Turtle)语料库 :使用简单的海龟语言,句子复杂度限制为三个单词,遵循严格的主谓宾三元语法。
- 无歧义概念验证英语(POC - English - NoAmb)语料库 :手动创建的封闭语义空间,使用频率相近的少量
超级会员免费看
订阅专栏 解锁全文
776

被折叠的 条评论
为什么被折叠?



