
自然语言处理
孜孜不倦的三花猫
这个作者很懒,什么都没留下…
展开
-
免费中文分词系统与资源收集
转自:http://www.cnblogs.com/pittzh/articles/1677637.html想要建立一个相对比较实用的“热点关键词库”。主要功能就是收集关键和对关键词进行归类! 搜集了一下,发现目前有不少平台的分词系统!比较知名的是中科院的中文分词系统(http://download.youkuaiyun.com/source/311639)SCWS简易中文分词系转载 2015-01-28 15:46:12 · 1535 阅读 · 0 评论 -
初学者如何查阅自然语言处理领域学术资料(转)
转载自http://blog.sina.com.cn/s/blog_574a437f01019poo.html昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地知道去哪儿了解最新科研动态了。我想这可能是初学者们共通的困惑,与其只告诉一个人知道,不如将这些Fo转载 2015-05-19 21:15:05 · 1223 阅读 · 1 评论 -
NLPIR2014配置及使用(C语言)
词法分析是自然语言处理的基础与关键。张华平博士在多年研究工作积累的基础上,研制出了NLPIR 分词系统,主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。NLPIR系统支持多种编码(GBK 编码、UTF8 编码、BIG5 编码)、多种操作系统(Windows,Linux, FreeBSD 等所有主流操作系统)、多种开发语言与平台(包括:C/C原创 2015-11-06 21:40:06 · 1765 阅读 · 0 评论 -
NLPIR分词乱码问题
NLPIR_Init()默认的编码格式是GBK,处理中文我们采用默认格式就好。如果要从txt文件中读取文本然后分词、词性标注,TXT文件的编码格式应该保存为ANSI。这样结果就不会出现乱码啦。原创 2015-11-07 11:23:39 · 2148 阅读 · 0 评论 -
python NLTK环境搭建
转载自:http://blog.youkuaiyun.com/huyoo/article/details/12188573nltk是一个python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具.1. nltk的安装资料1.1: 黄聪:Python+NLTK自然语言处理学习(一):环境搭建 htt转载 2015-11-15 15:48:21 · 672 阅读 · 0 评论 -
文本表示
转载自:http://hxraid.iteye.com/blog/765768要使得计算机能高效的处理真实文本,就必须找到一种理想的形式化表示方法,这种表示一方面能真实的反映文档内容(主题、领域或结构等),另一方面也要有对不同文档的区分能力。 目前文本表示通常采用向量空间模型(vector space model, VSM) 。VSM是20世纪60年代末期由G. Sal原创 2015-11-18 14:45:27 · 6439 阅读 · 0 评论 -
从贝叶斯方法谈到贝叶斯网络
从贝叶斯方法谈到贝叶斯网络转载自:http://blog.youkuaiyun.com/v_july_v/article/details/40984699?utm_source=tuicool&utm_medium=referral0 引言 事实上,介绍贝叶斯定理、贝叶斯方法、贝叶斯推断的资料、书籍不少,比如《数理统计学简史》,以及《统计决策论及贝叶斯分析转载 2015-11-28 10:53:05 · 6444 阅读 · 1 评论 -
中科院分词工具NLPIR初始化失败
前段时间下载了NLPIR还能用,结果过了几天就初始化失败了,为这个问题折腾了一下午,结果发现是NLPIR.user无效或过期,nlpir官网对工具包会定期更新,我之前下载的是20160304,最近发现更新到20160405,重新下载之后,覆盖掉原来的data文件就可以用啦,太坑啊。原创 2016-04-05 20:23:31 · 4018 阅读 · 0 评论 -
NLPIR中科院分词系统初始化失败
初始化失败通常是由于授权过期导致。从NLPIR的github网址下载最新的授权文件NLPIR.user,然后覆盖掉之前文件data中的NLPIR.user,重启系统即可使用。原创 2016-08-01 10:53:11 · 2247 阅读 · 0 评论