自然语言处理中的文本特征解析
1. 词与标记的区分
在处理英语或类似语言时,基于空格和标点进行分词(同时处理一些特殊情况)能大致得到单词。不过,我们对“单词”的定义较为技术化,它源于书写方式。另一个更常见且更好的定义是:单词是“最小的意义单位”。按照这个定义,基于空格的分词方式存在问题。例如,“don’t”经空格和标点分割后仍是一个符号,但实际上它是“do not”两个单词的合并。英语分词器通常会处理这类情况。
一般来说,我们要区分单词和标记。分词器的输出称为标记,承载意义的单位称为单词。一个标记可能由多个单词组成,多个标记也可能构成一个单词,有时不同标记表示同一个底层单词。
2. 自然语言处理问题的特征
在自然语言处理中,由于单词和字母是离散的,特征常以指示符或计数的形式呈现。指示符特征根据条件是否存在取值为 0 或 1,例如文档中“dog”至少出现一次,对应特征值为 1,否则为 0;计数特征则根据事件发生的次数取值,如文本中“dog”出现的次数。
2.1 直接可观察的属性
- 单个单词的特征
- 基本属性 :当关注单个单词时,主要信息来源是组成单词的字母及其顺序,还有由此衍生的属性,如单词长度、拼写形式(首字母是否大写、是否全大写、是否含连字符、是否含数字等)、前缀和后缀(是否以“un”开头、是否以“ing”结尾等)。
- 外部信息关联 :还可参考外部信息,如该单词在大量文本中出现的次数、是否在美国常见人名列表中。 <
超级会员免费看
订阅专栏 解锁全文
6400

被折叠的 条评论
为什么被折叠?



