8、自然语言处理中的文本特征解析

自然语言处理中的文本特征解析

1. 词与标记的区分

在处理英语或类似语言时,基于空格和标点进行分词(同时处理一些特殊情况)能大致得到单词。不过,我们对“单词”的定义较为技术化,它源于书写方式。另一个更常见且更好的定义是:单词是“最小的意义单位”。按照这个定义,基于空格的分词方式存在问题。例如,“don’t”经空格和标点分割后仍是一个符号,但实际上它是“do not”两个单词的合并。英语分词器通常会处理这类情况。

一般来说,我们要区分单词和标记。分词器的输出称为标记,承载意义的单位称为单词。一个标记可能由多个单词组成,多个标记也可能构成一个单词,有时不同标记表示同一个底层单词。

2. 自然语言处理问题的特征

在自然语言处理中,由于单词和字母是离散的,特征常以指示符或计数的形式呈现。指示符特征根据条件是否存在取值为 0 或 1,例如文档中“dog”至少出现一次,对应特征值为 1,否则为 0;计数特征则根据事件发生的次数取值,如文本中“dog”出现的次数。

2.1 直接可观察的属性
  • 单个单词的特征
    • 基本属性 :当关注单个单词时,主要信息来源是组成单词的字母及其顺序,还有由此衍生的属性,如单词长度、拼写形式(首字母是否大写、是否全大写、是否含连字符、是否含数字等)、前缀和后缀(是否以“un”开头、是否以“ing”结尾等)。
    • 外部信息关联 :还可参考外部信息,如该单词在大量文本中出现的次数、是否在美国常见人名列表中。
    • <
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值