
NLP
文章平均质量分 80
MemRay
PhD在读,intereted in NLP、Deep Learning及其他AI问题。这里基本是个收藏夹 :D
展开
-
中科院分词ICTCLAS5.0 配置错误处理
转载自:http://gdhapple.blog.163.com/blog/static/12685791720122832029133/2012-03-08 15:48:15| 分类: Java | 标签:ictclas 错误 unsatisfiedlinkerror ctclas_init([b)z ictclas.log 错误一:转载 2013-10-29 17:20:48 · 7789 阅读 · 4 评论 -
语义分析的一些方法(中篇)
2 文本语义分析前面讲到一些文本基本处理方法。一个文本串,对其进行分词和重要性打分后(当然还有更多的文本处理任务),就可以开始更高层的语义分析任务。2.1 Topic Model首先介绍主题模型。说到主题模型,第一时间会想到pLSA,NMF,LDA。关于这几个目前业界最常用的主题模型,已经有相当多的介绍了,譬如文献[60,64]。在这里,主要想聊一下主题模型的应用以及最新进展(考虑到L转载 2015-10-08 10:58:52 · 1720 阅读 · 0 评论 -
语义分析的一些方法(上篇)
语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。wikipedia上的解释:In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents(or imag转载 2015-10-08 10:57:06 · 1551 阅读 · 0 评论 -
语义分析的一些方法(下篇)
3 图片语义分析3.1 图片分类图片分类是一个最基本的图片语义分析方法。基于深度学习的图片分类传统的图片分类如下图所示,首先需要先手工提取图片特征,譬如SIFT, GIST,再经由VQ coding和Spatial pooling,最后送入传统的分类模型(例如SVM等)。图23. 传统图片分类流程图传统方法里,人工特征提取是一个巨大的消耗性工作。而随着深度学习的进展,不转载 2015-10-08 11:00:35 · 1012 阅读 · 0 评论 -
词嵌套(词向量)简史
转载自:http://datartisan.com/article/detail/50.html当前自然语言处理最大的趋势是对词嵌套的使用,词嵌套是指由语义相关性所度量的相似性向量。这些向量不仅可以表示计算词语之间的相关性,同时它还是其他自然语言处理项目的基础,比如文本分类、文档聚类、词性标注、命名实体识别、情感分析,等等。从 ACL 和 EMNLP 等大型 NLP 会议的会议记录中我们可转载 2015-10-19 03:51:40 · 3022 阅读 · 0 评论 -
条件随机场文献阅读指南
与最大熵模型相似,条件随机场(Conditional random fields,CRFs)是一种机器学习模型,在自然语言处理的许多领域(如词性标注、中文分词、命名实体识别等)都有比较好的应用效果。条件随机场最早由John D. Lafferty提出,其也是Brown90的作者之一,和贾里尼克相似,在离开IBM后他去了卡耐基梅隆大学继续搞学术研究,2001年以第一作者的身份发表了CRF的经典论文转载 2014-09-16 00:13:30 · 1790 阅读 · 0 评论 -
关于斯坦福句法剖析器 -- 答网友
转载自:http://blog.sina.com.cn/s/blog_72d083c701017r9t.html 冯志伟有网友问我:Stanford parser 和Berkeley parser 是哪种类型的分析器?我觉得,Stanford parser基本上是一个词汇化的概率上下文无关语法分析器,同时也转载 2014-09-14 19:32:33 · 4939 阅读 · 0 评论 -
JGibbLDA:java版本的LDA(Latent Dirichlet Allocation)实现、修改及使用
转载自:http://hi.baidu.com/cesul/item/ae8a3fdca2a36252d73aae73一、概述JGibbLDA是一个java版本的LDA(Latent Dirichlet Allocation)实现,它使用Gibbs采样来进行快速参数估计和推断。LDA是一种由基于概率模型的聚类算法。该算法能够对训练数据(训练数据是这样一种记录的集合,它的每一转载 2013-11-18 21:17:12 · 20105 阅读 · 8 评论 -
ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注(2009-06-18 更新 可下载)
转载自:http://hi.baidu.com/huabk/item/9b0f4d5f0d970609e6c4a5cbICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注风暴红QxRed @ 2006-04-20 20:38下载地址http://sites.google.com/site/huabkdoc/中科院分词系统概述这几天看完了中科院分词程转载 2013-11-03 16:25:14 · 3518 阅读 · 0 评论 -
ICTCLAS 汉语词性标注集 中科院
汉语文本词性标注标记集Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。a 形容词 取英语形容词adjective的第1个字母。ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。b 区别词 取汉字“别”的声母。c 连词 取英语连词conju转载 2013-11-03 16:13:53 · 14521 阅读 · 2 评论 -
【Church - 钟摆摆得太远(5):现状与结论】
我的话:感觉作者是站在偏理性主义的中间点上写下了这篇文章。不得不说我本人是个典型实用主义驱动的人,但是又倾向于从理性逻辑的角度思考问题。虽说Chomsky和Minsky当年的理论在一定程度上capture reality,但是我并不是十分欣赏他们的理性结论,只是对现实一定程度上的规则抽象和建模,并不是真理。虽说联结主义并没有向人类智能可知论的方向推进多少(大脑机制依然是未知的),但起码是比转载 2016-01-29 11:06:27 · 1666 阅读 · 0 评论