使用NLTK+StanfordNLP进行文本特征提取

文章为自己的实践记录及总结,多有疏忽,恐有错误......

文本特征提取是基于特征向量的自然语言处理方法的基本技术,常用的提取自文本的特征主要包括词汇特征、位置特征、句法特征、语义特征。其中,词汇特征包括词性、上下文词汇、命名实体等;位置特征如命名实体之间的间隔距离;句法特征提取主要包括句法分析及依存句法分析。常用的特征获取工具有StanfordNLPLTP(哈工大社会计算与信息检索研究中心研发的语言技术平台),支持中英文在内的多种语言,目前nltk中提供了Standford NLP的几个功能:分词,词性标注,命名实体识别,句法分析,依存句法分析等,本文主要记录其安装使用方法。

词性标注 标注解释

# 分词,text_raw为单句
text = nltk.word_tokenize(text_raw)
# 去掉标点符号
english_punctuations = [',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%']
text = [w for w in text if w not in english_punctuations]
# 去或不去停用词
# filtered = [w for w in text if w not in stopwords.words('english')]
rfiltered = nltk.pos_tag(text)

命名实体识别

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值