自然语言理解技术入门
1. 自然语言理解基础
自然语言以语音和文字的形式存在,是我们与他人交流的方式。使用自然语言与他人交流的能力,是我们融入社会的重要组成部分。通常情况下,理解自然语言看似毫不费力,然而当我们因疾病、受伤或身处异国等原因而在使用语言时遇到困难,就会深刻体会到语言在我们生活中的重要性。
目前,我们还没有能够完全提取人类理解自然语言时所体验到的丰富含义的技术。不过,就特定目标和应用而言,当前的技术水平已经能够通过自然语言处理(NLP)帮助我们取得许多实际、有用且具有社会效益的成果。
1.1 自然语言的普遍性
口语和书面语无处不在且极为丰富。口语存在于人与人、人与智能系统的日常对话中,也存在于广播、电影和播客等媒体形式里。书面语则广泛分布在网络、书籍以及电子邮件等人与人的通信中,还存在于表单和数据库的自由文本字段中,这些内容可能在网上可获取,但未被搜索引擎索引(即隐形网络)。
所有这些语言形式经过分析后,都可以成为无数类型应用的基础。
1.2 全球语言考量
世界上存在数千种自然语言(包括口语和书面语),不过据 Babbel.com 称,世界上大多数人使用的是十大语言之一。在处理自然语言时,不同语言会给 NLP 应用带来不同的挑战:
- 分词问题 :例如中文的书面形式,单词之间没有空格,而大多数 NLP 工具依靠空格来识别文本中的单词。因此,处理中文时,除了识别空白字符外,还需要额外的步骤来分隔中文单词。
- 词形变化 :有些语言中,同一个单词有多种不同的形式,词尾变化能提供关于其特定属性
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



