自然语言处理基础——NLTK

大家好,今天跟大家介绍一下自然语言处理的基础的一些操作。

  1. Tokenize
  2. 词性标注
  3. 命名实体识别
  4. nltk频率统计
  5. 下载语料库

一、Tokenize
把句子分成有意义的小部件

import nltk
sentence = 'The imperial Palace is located in Bei Jing!'
tokens = nltk.word_tokenize(sentence)
print(tokens)
#运行结果如下:
#['The', 'imperial', 'Palace', 'is', 'located', 'in', 'Bei', 'Jing', '!']

二、词型归一化
1、词干提取
Stemming 词⼲提取:⼀般来说,就是把不影响词性的inflection的⼩尾巴砍掉如下例:
jumping 去ing = jump
maxium去ium=max

#词干提取
from nltk.stem.porter import PorterStemmer
porter_stemmer = PorterStemmer()
print(porter_stemmer.stem('running'))
print(porter_stemmer.stem('jumping'))
print(porter_stemmer.stem('walked'))
print(porter_stemmer.stem('reputation'))
print(porter_stemmer.stem('maxium'))
##运行结果:
#run
#jump
#walk
#reput
#maxium

2、

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值