自然语言处理与语义网技术详解
1. 自然语言处理概述
自然语言处理(NLP)是一个致力于处理、分析和理解自然语言的领域。在信息处理中,信息检索(IR)和信息提取(IE)是两个重要概念。信息检索主要根据查询检索相关的信息源(通常是文档)供人类检查;而信息提取则更进一步,从非结构化源(如文档)中获取信息,它关注处理非结构化文本以“理解”内容并按照特定结构提取数据。NLP 在信息提取中起着关键作用,实际上,“知识图”这一术语最早就是在 NLP 领域提出的,用于结构化和表示从科学文本中提取的知识。
NLP 应用(如信息提取)通常涉及三个主要任务:
- 语言处理
- 命名实体识别(NER)
- 关系提取
下面详细介绍语言处理中的各项任务:
- 分词(Tokenization) :将输入文本拆分为称为标记(tokens)的原子单元,标记通常对应于由空格分隔的单词、数字和符号。这是任何语言处理管道的第一步,因为更复杂的步骤以标记为输入。
- 句子分割(Sentence Splitting) :将文本分隔成句子,主要挑战是判断标点符号是句子结尾还是有其他用途。例如,句子分割器通常借助缩写列表来判断句号是句子结尾还是缩写(如“Ms.”)。
- 词性标注(Part - of - Speech Tagging) :为单词标记其语言类别,也称为词性(如名词、动词)。存在多种词性标注分类,如宾州树库(PTB)、布朗语料库和兰开斯特 - 奥斯陆/卑尔根语料库。
- 形态分析和词干提取(Morphologica
超级会员免费看
订阅专栏 解锁全文
23万+

被折叠的 条评论
为什么被折叠?



