
自然语言处理
文章平均质量分 63
dushenzhi
个人主页:http://dushenzhi.top
展开
-
无约束最优化
估计有些读者看到这个题目的时候会觉得很数学,和自然语言处理没什么关系,不过如果你听说过最大熵模型、条件随机场,并且知道它们在自然语言处理中被广泛应用,甚至你明白其核心的参数训练算法中有一种叫LBFGS,那么本文就是对这类用于解无约束优化算法的Quasi-Newton Method的初步介绍。 事实上,这个系列的作者是我的师兄jianzhu,他在中文分词、语言模型方面的研究很深入,如果大家对于转载 2012-10-13 12:13:50 · 2154 阅读 · 0 评论 -
CRF详解
如果你只是想要简单的如何使用CRF++, 建议阅读 http://blog.youkuaiyun.com/Felomeng/article/details/4288492 。这里以一个具体的例子介绍CRF++的一些思想和代码的实现过程。就加入我们想利用CRF++来进行分词。一. 数据及其格式介绍Train.data中 F1 B-NP华 F2 I-NP人 F3 B-NP民 F4转载 2012-10-13 12:25:24 · 2782 阅读 · 1 评论 -
情感词生成
我们知道,在情感挖掘中,主要有情感分类(Sentiment Classification)和情感抽取(Opinion Extraction)。对于文档情感分类,一般是构造特征向量来进行分类或是聚类。也有通过计算文档中词的情感分数来获取文档的情感极性,然而这种方法用的不多,效果也不佳。但是对于句子级别的情感挖掘,由于特征少,情感分类效果没有那么理想,而句子的情感往往是由句子中的几个情感词决定。因而获转载 2013-03-28 21:26:20 · 5193 阅读 · 0 评论 -
Stanford Parser 详细使用参考
1、到斯坦福官方网站http://nlp.stanford.edu/software/lex-parser.shtml下载软件包,解压。2、在eclipse中新建一个java project,把解压得到根目录下的stanford-parser.jar和stanford-parser-2.0.4-models.jar(不同版本文件名可能有差异)两个包导入项目到项目引用包中,然后把解压得到根目录下原创 2012-11-17 23:11:23 · 7997 阅读 · 2 评论 -
情感对象抽取【opinion mining】
观点挖掘与情感分析在近十年得到快速发展,研究也因为应用的需求从最初的情感分类[1,2]发展到现在的各种研究方向如情感对象抽取、情感极性判断、情感持有者抽取、情感主体抽取等[3]。因为产品评论中存在着重要的商业情报(如产品的哪些特征具有什么优缺点,消费者是否喜欢,和其他竞争品比较怎么样),对其进行观点挖掘很有意义。这显然不仅需要抽取观点极性,还需要确定观点的对象。这就涉及到细粒度情感挖掘。对于情感对转载 2013-03-28 21:01:50 · 3208 阅读 · 0 评论 -
stanford segmenter加入自定义用户词典
用stanford segmenter在命令行的方式下对一个文本文件的句子进行分词处理,其中输入文件为:preprocess-$1.txt,输出文件为:$1_seged.txt,命令如下所示:java -mx1g -cp seg.jar edu.stanford.nlp.ie.crf.CRFClassifier -sighanCorporaDict data -load原创 2013-03-28 22:11:44 · 8981 阅读 · 3 评论