
NLP
文章平均质量分 71
davidcqw
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
PRML阅读记(3)
继续啃PRML第八章:Basic notation:node --> random variable or group of random variableslink --> probabilistic relation shipnotation of random var and non-random var, observed and unobserved var原创 2014-05-04 15:21:14 · 625 阅读 · 0 评论 -
运行 Moses 期间遇到的问题
一. 处理原始语料,我用的语料是http://mitel.ict.ac.cn/mteval/data/train.xml.gz中的30万句对1. 用python里面的ElementTree 将XML文件解析出来并分成ch和en两个文件(注意,该语料本身是有问题的,有些标记没有匹配,需要先用正则进行修改。另外,需要先用notepad 将语料转换成utf-8,并在XML文件的第一行写上,再在p原创 2014-05-08 19:01:13 · 796 阅读 · 1 评论 -
Machine learning and Classifier from Wiki
Wiki真是一个好东西,什么知识点都列得清清楚楚,简直就是一本万能的书。。。learning and Classifier from Wiki" title="Machine learning and Classifier from Wiki" style="margin:0px; padding:0px; border:0px; list-style:none; color:rgb(50,62,转载 2014-05-08 19:10:22 · 1130 阅读 · 0 评论 -
有用的工具
以下工具绝大多数都是开源的,基于GPL、Apache等开源协议,使用时请仔细阅读各工具的license statementI. Information Retrieval1. Lemur/IndriThe Lemur Toolkit for Language Modeling and Information Retrievalhttp://www.lemurproject.org/转载 2014-05-08 18:26:18 · 1921 阅读 · 0 评论 -
NLP好文章
最近把一些在网上见到的自然语言处理的资源整理了一下,包括论文列表、软件资源和一些实验室主页、个人主页等,希望能对NLP研究者有所帮助,由于个人视野有限,目前只整理了这些,以后会持续更新。在此也感谢这些资源的提供者和维护者。转载请标明出处(http://blog.youkuaiyun.com/xuh5156/article/details/7437475)论文、博客1. Go转载 2014-05-08 18:28:54 · 1106 阅读 · 0 评论 -
关于混合高斯、EM和K-means
与k-means一样,给定的训练样本是,我们将隐含类别标签用表示。与k-means的硬指定不同,我们首先认为是满足一定的概率分布的,这里我们认为满足多项式分布,,其中,有k个值{1,…,k}可以选取。而且我们认为在给定后,满足多值高斯分布,即。由此可以得到联合分布。 整个模型简单描述为对于每个样例,我们先从k个类别中按多项式分布抽取一个,然后根据所对应的k个多值高斯分布中的一个生转载 2014-05-08 18:33:45 · 971 阅读 · 0 评论 -
Moses搭建过程遇到的一些问题与解决
本人是按照这个链接 http://blog.youkuaiyun.com/csdidi/article/details/6200513 来安装 Moses, 但在安装过程仍然出现很多问题,记录如下: 安装Moses的需要的工具有 GIZA++, mkcls, SRILM, 分词工具(我用的是ICTCLAS)1. 安装SRILM需要 gawk, make, tcl,提前安装,原创 2014-05-08 19:03:23 · 1087 阅读 · 0 评论 -
more tools
机器学习Support Vector MachineSVMlightAn implementation of Vapnik's Support Vector MachineLIBSVMA Library for Support Vector MachinesDecision TreeC4.5Th转载 2014-05-08 18:22:11 · 1113 阅读 · 0 评论 -
PRML阅读记(1)
最近刚刚看完Ng的machine learning,想再加一点料,于是拿起PRML,开始啃。。。第一章:Polynomial Curve Fitting:regression, error function, RMS(root-mean-square),overfitting Probability Theory:many distributio原创 2014-05-04 15:14:37 · 941 阅读 · 0 评论 -
PRML阅读记(2)
继续PRML第二章:Binary Variables:Bernouli Distribution, binomial distributionconjugate prior --> beta distributionMultinomial Variables:multinomial distributionconjugate prior -->原创 2014-05-04 15:18:37 · 940 阅读 · 0 评论 -
2012年03月26日
利用对数线性模型进行词对齐训练的整个过程:1、语料预处理用python解析xml,生成src, trg, ref, srcTest, trgTest 和 refTest。注意:由于本人是在linux下进行的预处理,所以要先将所有语料用notepad转换为与我的linux系统的编码相同(如uft-8),再将xml用dos2unix命令进行转换,,最后再用python解析,解析原创 2014-05-08 18:58:04 · 524 阅读 · 0 评论