camelfire-优快云博客

原创 sanford ner

按照如下语句直接调用ner模块识别时报如下错误 >>> from nltk.tag.stanford import NERTagger >>> st = NERTagger('stanford-ner-2014-06-16/classifiers/english.all.3class.distsim.crf.ser.gz','stanford-ner-2014-06-16/stanford-n

2016-03-22 19:59:04 791

原创以文件为单位的分句、分词python封装脚本

利用nlpir进行分词时，需要考虑以下两个问题： 1、如何分句、分段 2、如何表示分词结果在网上找了几个分句的脚本，感觉都有问题，就只好自己写了，虽然比较简单，但如果要做到面面俱到还是需要仔细考虑，标注采用xml文件，包括article、paragraph、sentence三层结构，代码已注释，大家自己看吧，这个脚本经过了几次测试，应该可以应付大多数正常的文本文件，如果有问题，欢迎反馈。

2016-03-20 15:52:14 712

原创使用nlpir分词工具时字符编码问题

在进行中文自然语言处理时，首先要注意字符编码的转换问题。我在使用nlpir分词工具时遇到如下问题：句子1：u'不断深化中缅睦邻友好和互利合作，符合两国和两国人民的根本利益。' 句子2：'不断深化中缅睦邻友好和互利合作，符合两国和两国人民的根本利益。' 两个句子的区别就在于句子1是解码后的unicode形式，句子2是utf-8编码，nlpir工具支持多种编码方式，但并不支持解码后的unico

2016-03-19 20:54:09 1446