- 博客(3)
- 资源 (9)
- 收藏
- 关注
原创 sanford ner
按照如下语句直接调用ner模块识别时报如下错误>>> from nltk.tag.stanford import NERTagger>>> st = NERTagger('stanford-ner-2014-06-16/classifiers/english.all.3class.distsim.crf.ser.gz','stanford-ner-2014-06-16/stanford-n
2016-03-22 19:59:04
772
原创 以文件为单位的分句、分词python封装脚本
利用nlpir进行分词时,需要考虑以下两个问题:1、如何分句、分段2、如何表示分词结果在网上找了几个分句的脚本,感觉都有问题,就只好自己写了,虽然比较简单,但如果要做到面面俱到还是需要仔细考虑,标注采用xml文件,包括article、paragraph、sentence三层结构,代码已注释,大家自己看吧,这个脚本经过了几次测试,应该可以应付大多数正常的文本文件,如果有问题,欢迎反馈。
2016-03-20 15:52:14
678
原创 使用nlpir分词工具时字符编码问题
在进行中文自然语言处理时,首先要注意字符编码的转换问题。我在使用nlpir分词工具时遇到如下问题:句子1:u'不断深化中缅睦邻友好和互利合作,符合两国和两国人民的根本利益。'句子2:'不断深化中缅睦邻友好和互利合作,符合两国和两国人民的根本利益。'两个句子的区别就在于句子1是解码后的unicode形式,句子2是utf-8编码,nlpir工具支持多种编码方式,但并不支持解码后的unico
2016-03-19 20:54:09
1413
mallet-2.0.8RC3
2016-04-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人