
nlp
文章平均质量分 54
SAN_YUN
这个作者很懒,什么都没留下…
展开
-
自然语言处理文档集合
可爱的 Python: 自然语言工具包入门 http://www.ibm.com/developerworks/cn/linux/l-cpnltk/探索 Python、机器学习和 NLTK 库 http://www.ibm.com/developerworks/cn/opensource/os-pythonnltk/...原创 2013-05-26 10:28:48 · 206 阅读 · 0 评论 -
N-gram模型
更多参考:http://www.52nlp.cn/tag/n-gram N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而...原创 2013-12-06 11:34:59 · 198 阅读 · 0 评论 -
垃圾文本自动识别
做了一个小实验原创 2013-09-17 09:20:00 · 711 阅读 · 0 评论 -
Introduction to Topic Modeling learning
原文:http://chentingpc.me/article/?id=616 Topic Modeling(主题模型)是一个比较神奇的东西,之前听说过,没意识到它的重要性。直到唐总的点拨后重新认真看看,可以说文本挖掘的一个基础吧(比较 高级的基础?)。问题的输入是文档,输出是低维空间的主题,是unsupervised算法。基本经历发展是 LSI->pLSI->LDA-&g...原创 2013-10-30 10:49:26 · 235 阅读 · 0 评论 -
Latent Semantic Analysis(LSA/ LSI)算法简介
本文地址为:http://www.cnblogs.com/kemaswill/,作者联系方式为kemaswill@163.com,转载请注明出处。 1. 传统向量空间模型的缺陷 向量空间模型是信息检索中最常用的检索方法,其检索过程是,将文档集D中的所有文档和查询都表示成以单词为特征的向量,特征值为每个单词的TF-IDF 值,然后使用向量空间模型(亦即计算查询q的向量和每个文档di...原创 2013-10-30 11:02:50 · 494 阅读 · 0 评论 -
机器学习中的算法(2)-支持向量机(SVM)基础
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com 前言: 又有很长的一段时间没有更新博客了,距离上次更新已经有两个月的时间了。其中一个很大的原因是,不知道写什么好-_-,最近一段时间看了看关于 SVM(S...原创 2013-10-30 11:06:57 · 97 阅读 · 0 评论 -
和机器学习和计算机视觉相关的数学
感觉数学似乎总是不够的。这些日子为了解决research中的一些问题,又在图书馆捧起了数学的教科书。从大学到现在,课堂上学的和自学的数学其实不算少了,可是在研究的过程中总是发现需要补充新的数学知识。Learning和Vision都是很多种数学的交汇场。看着不同的理论体系的交汇,对于一个researcher来说,往往是非常exciting的enjoyable的事情。不过,这也代表着要充分了...原创 2013-10-30 11:22:06 · 110 阅读 · 0 评论 -
机器学习使用的数学知识
1.线性代数(LinearAlgebra): 我想国内的大学生都会学过这门课程,但是,未必每一位老师都能贯彻它的精要。这门学科对于Learning是必备的基础,对它的透彻掌握是必不可少的。我在科大一年级的时候就学习了这门课,后来到了香港后,又重新把线性代数读了一遍,所读的是 Introduction to Linear Algebra (3rd Ed.) by Gilbert Stran...原创 2013-10-30 11:30:35 · 240 阅读 · 0 评论