【NLP学习笔记】文本处理的常见操作

本文介绍了自然语言处理中的一些基本操作,包括断句、分词、词性标注、词性还原、识别停用词、解析依赖关系、命名实体识别和共指消解,并通过实例进行了详细解释。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

sentence segmentation(断句)

一般根据标点符号即可进行断句

tokenization(分词)

人类可以很快知道“我喜欢你”里面“我”是一个词,“喜欢”是一个词,“你”是另外一个词,但是机器不知道,所以要做分词。相比较于中文,英文更容易辨识词的属性,因为英语的句子由一个个单词组成,单词之间以空格隔开,因此用空格作为分词符。

parts-of-speech tagging(词性标注)

词性标注用来区别一个单词的词性,如动词、名词、形容词等。这个标注工作可以根据一个词性分类模型得出。

lemmatization(词性还原)

英语中不同词性的单词变行有很多,比如单复数、be动词原形、动词时态等,都还原成最初的样子。

identifying stop-words(识别停用词)

如“and”,“the”,“of”等这种高频词汇造成统计噪音的词,被称为stop Words,一般会被直接过滤掉。维基百科中说明,现在虽然停用词列表很多,但一定要根据实际情况进行配置。比如英语的the,通常情况下是停用词,但很多乐队名字有这个词,这个时候就不能作为停用词了。

dependency parsing(解析依赖关系)

解析句子中每个词之间的依赖关系,最终建立关系依赖书。树的root是关键动词,从关键动词开始,把整个句子中的词都联系起来。

named entity recognition(命名实体识别)

给名词打标签。比如某句话中有BeiJing,可以把它地理名称识别出

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值