自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

雨石

关注程序语言、算法、数据结构,兴趣方向:机器学习,NLP

  • 博客(103)
  • 资源 (16)
  • 收藏
  • 关注

原创 核技法、软间隔分类器、SMO算法——斯坦福ML公开课笔记8

本篇对应斯坦福公开课的第8个视频,主要讲述了SVM(Support Vector Machine,支持向量机)的剩余部分。即核技法(Kernels)、软间隔分类器(softmargin classifier)、对SVM求解的序列最小化算法(Sequential Minimal Optimization,SMO)以及SVM的一些应用。

2013-08-06 22:35:11 11719

原创 最优间隔分类、原始/对偶问题、SVM对偶—斯坦福ML公开课笔记7

本篇笔记针对ML公开课的第七个视频,主要内容包括最优间隔分类器(Optimal Margin Classifier)、原始/对偶问题(Primal/Dual Problem)、svm的对偶问题,都是svm(support vector machine,支持向量机)的内容。

2013-08-05 22:25:31 16522

原创 NB多项式模型、神经网络、SVM初步—斯坦福ML公开课笔记6

本篇笔记针对斯坦福ML公开课的第6个视频,主要内容包括朴素贝叶斯的多项式事件模型(MultivariateBernoulli Event Model)、神经网络(Neural Network)、支持向量机(Support Vector Machine)的函数间隔(functionalmargin)与几何间隔(geometricmargin)。

2013-08-02 22:38:27 11612

原创 基于Map-Reduce的相似度计算

基于Map-Reduce的相似度计算不久前(6.29),参加了ChinaHadoop的夏季沙龙,听了人人的大牛讲了基于Map-Reduce的相似度计算的优化,感觉对Map-Reduce编程模型的理解又进一步加深了,在这里把该算法总结成博文,以期能够更加透彻的理解该算法。相似度的计算在文本的分类、聚类、推荐系统、反作弊中应用广泛。基于Map-Reduce的相似度计算顺应大数据的潮流,其算法思想值得借鉴。

2013-07-10 10:59:11 10364

原创 生成学习、高斯判别、朴素贝叶斯—斯坦福ML公开课笔记5

本篇博客为斯坦福ML公开课第五个视频的笔记,主要内容包括生成学习算法(generate learning algorithm)、高斯判别分析(Gaussian DiscriminantAnalysis,GDA)、朴素贝叶斯(Navie Bayes)、拉普拉斯平滑(Laplace Smoothing)。由于编辑公式繁琐,故博文大部分内容都是图片,如果网速不给力耍不开的话,欢迎去下载pdf版。

2013-07-09 20:11:45 21668 2

原创 牛顿方法、指数分布族、广义线性模型—斯坦福ML公开课笔记4

转载请注明:http://blog.youkuaiyun.com/xinzhangyanxiang/article/details/9207047最近在看Ng的机器学习公开课,Ng的讲法循循善诱,感觉提高了不少。该系列视频共20个,每看完一个视频,我都要记录一些笔记,包括公式的推导,讲解时候的例子等。按照Ng的说法,公式要自己推理一遍才能理解的通透,我觉得自己能够总结出来,发到博客上,也能达到这个效果,希

2013-06-30 16:55:41 21929 1

原创 局部加权回归、逻辑斯蒂回归、感知器算法—斯坦福ML公开课笔记3

转载请注明:http://blog.youkuaiyun.com/xinzhangyanxiang/article/details/9113681最近在看Ng的机器学习公开课,Ng的讲法循循善诱,感觉提高了不少。该系列视频共20个,每看完一个视频,我都要记录一些笔记,包括公式的推导,讲解时候的例子等。按照Ng的说法,公式要自己推理一遍才能理解的通透,我觉得自己能够总结出来,发到博客上,也能达到这个效果,希

2013-06-17 17:04:06 19631 2

原创 线性规划、梯度下降、正规方程组——斯坦福ML公开课笔记1-2

转载请注明链接:http://blog.youkuaiyun.com/xinzhangyanxiang/article/details/9101621最近在看Ng的机器学习公开课,Ng的讲法循循善诱,感觉提高了不少。该系列视频共20个,每看完一个视频,我都要记录一些笔记,包括公式的推导,讲解时候的例子等。按照Ng的说法,公式要自己推理一遍才能理解的通透,我觉得自己能够总结出来,发到博客上,也能达到这个效果

2013-06-15 15:58:02 28232 7

原创 机器学习经典书籍小结

机器学习经典书籍小结转载本博客请注明链接:http://blog.youkuaiyun.com/xinzhangyanxiang/article/details/9069045博客第一篇文章[1]是转载的,也算是开始写博客不经意的表露了自己对机器学习的兴趣吧!那篇文章总结了机器学习的一些经典算法的论文与数学基础理论的一些书籍,对于开始学习机器学习的话恐怕太过深入,正好最近在买书,看了很多经典书籍的总结

2013-06-09 23:52:26 9394 1

原创 常用Linux命令小结

常用Linux命令小结Linux下有很多常用的很有用的命令,这种命令用的多了就熟了,对于我来说,如果长时间没有用的话,就容易忘记。当然,可以到时候用man命令查看帮助,但是,到时候查找的话未免有些临时抱佛脚的感觉,挺浪费时间的,不如闲暇时间先把常用命令看看,有个初始印象,然后查阅的时候就有目的性了,自然也就用的快了。对于我来说,经过实习期间的锻炼,积累了不少linux常用命令,存在ever

2013-06-01 15:47:32 8019

原创 gdb使用小结

Gdb是linux编写C/C++程序时必不可少的调试工具,其功能比IDE要强大的多,因为用的少,总感觉记不住其中的诸多命令,用起来也不太爽。于是,搜了很多文章,感觉都说不清楚,直到发现了csdn上的这一篇,点击打开链接,简称为csdn dadalan,但是只看这篇文章的话会发现,越到后面越觉得说不清楚,主要原因在排版很差。我在查其中一个命令的参数的时候,发现原来这篇文章大部分都是来自这个链接点

2013-05-27 22:05:36 2296

原创 搜索引擎算法之初探——PageRank、DocRank

从文档集合中找出出现搜索词的文档,进一步可能是通过搜索词在文档中出现的次数来对文档排名,这种搜索就是信息检索(Information retrieval)。有很多现有的库可以很方便的就让我们做出来这些工作,其中最有名的当属Lucene了。当然,现在的搜索已不单单是索引了,而在于链接分析、用户点击分析和自然语言处理等方面,这些技术能大大的增强搜索的性能。基本搜索构建一个搜索引擎的基本步骤

2013-01-28 15:57:49 5706

原创 隐马尔科夫模型(HMM)及其扩展

转载请注明地址(http://blog.youkuaiyun.com/xinzhangyanxiang/article/details/8522078)学习概率的时候,大家一定都学过马尔科夫模型吧,当时就觉得很有意思,后来看了数学之美之隐马模型在自然语言处理中的应用后,看到隐马尔科夫模型竟然能有这么多的应用,并且取得了很好的成果,更觉的不可思议,特地深入学习了一下,这里总结出来。马尔科夫过程马

2013-01-20 14:59:07 37344

翻译 基于熵的回退语言模型剪枝

本论文中介绍了如何对语言模型进行剪枝,是该方面的经典论文,之前翻译的语言模型词典优化的论文中对抽取出的新词进行剪枝便用到了本论文中的思想。公式繁多,直接贴图了。大家有需要整个pdf的可以下载 原论文和翻译的pdf 。原文名:Entropy-based Pruning of Backoff Language Models原作者:Andreas Stolcke翻译   : 雨石

2013-01-05 22:18:10 4137 1

翻译 EM算法笔记(a note on the EM algorithm)

本论文使用一个具体的实例讲解了EM算法的整体流程,非常详细。这里跟大家分享下。原作者:ChengXiang Zhai翻译:    雨石由于csdn博客上写公式不方便,故将翻译好的文档截图传到博客上,想下载翻译的整篇pdf的同学请 猛击这里 。

2013-01-02 20:31:37 4543

原创 文本分类综述

之前一段时间弄过文本分类的事情,现在发个文总结一下。文本分类问题的定义是根据一篇文档的内容,从预定义的类别标号里选择相应的类别。中文文本分类的基本步骤是中文分词、特征提取、训练模型、预测类别等步骤,需要说明的是,基于统计的文本分类一般都需要有比较好的标注好的语料作为训练集,训练出模型,利用模型对未分类的文本进行分类。对中文文本的处理一个无法避免的步骤就是分词,中文不像英文那样,词与词之

2012-12-19 23:02:36 4959

原创 C++ 中各种map的使用

C++中有很多中key-value形式的容器,map/hash_map/unordered_map/vector_map。下面讲述各个map的使用及其区别。首先,map的基本使用方法如下:#include #include using namespace std;typedef std::map Map;typedef Map::iterator MapIt;int ma

2012-12-14 22:00:10 15805

原创 C++的性能检测

C++程序,性能检测十分重要,尤其是在调优的时候,发现程序运行的热点有助于分析。下面介绍一下我经常用的性能检测方法。首先,先贴出要测试程序的源码:#include #include #include #include #include using namespace std;#define MaxLen 100#define MaxNum 10000typedef

2012-12-11 23:40:45 6289 1

原创 cmake的使用练习

cmake是一个跨平台的开源的编译工具,它能够生成make文件,然后通过make命令编译C++,当然,其他make支持的语言也可以编译。此处不详述了。网上有一个cmake实践的博客,根据该博客可以一步步的熟悉cmake的用法,我已经上传到csdn上了,下载请猛击此处。通过自己建一个工程来学习cmake是最好的方式。在linux命令行下,管理一个C++工程是一个很繁琐的事情。cmake的出现,很

2012-12-11 21:43:03 3675

转载 如何学习机器学习的一点心得

转载自:http://blog.youkuaiyun.com/lcjpure/article/details/8069704结合自己的学习经历,总结一下如何学习机器学习。我自己的学习过程其实是非常混乱和痛苦的,一个人瞎搞现在也不知道入没入门。希望能对其他想自学机器学习而找不到方向的人有一点点帮助。一、可以读读一些科普性的,综述性的东西。南京大学周志华教授写的科普文章《机器学习和数据挖掘

2012-10-18 09:51:04 3415

原创 URL分析小结

今天总算得空,着手进行了一下自己想了很久的想法,虽然只实现了简易版(想法比较复杂,这次只是实现一个原型)。但是收获颇多。因此总结一下,权作笔记罢。想法:想法说起来很简单,凭借浏览器里的历史url,对自己的上网习惯进行分析。本次知识实现了一小部分,以后还要进行深入分析,敬请期待!!本次实现:本次使用python实现了对浏览器历史记录的简单的统计和生成pdf。知识:

2012-10-02 15:06:08 3571

原创 Ubuntu12.04下配置java环境总结

这两天,主要完成了ubuntu下配置java环境。之前曾经配置过,觉得很简单,对于半资深程序员来说,应该不算是难事,但是偏生俺对linux不太熟,所以配置过程几多波折也就在所难免。这篇博客就当做是笔记吧。波折之一——下载:下载速度超慢的说,以至于我在ubuntu下下载没成,又去windows下下载了很多次,不得不说,搜狗的校园加速确实使下载速度变快,比chrome还快。但是仍然下载不成,最后不

2012-09-24 19:19:08 2339

转载 机器学习论文与书籍推荐

今天在网上找到转载的《机器学习推荐论文与书籍》,看起来不错,无出处。搜索得知为水木社区某神童编写,可惜找不到原文链接。所以这里把里面的东西整理一下,收集打包至网盘(没有包含的标上了“缺”字),方便爱好研究的朋友~(因本人才疏学浅,如有查找错误,还请见谅……)基本模型HMM (Hidden Markov Models,隐含马尔可夫模型)[1] A Tutorial on Hidd

2012-07-29 21:56:35 6497

常用linux命令小结

我自己总结的linux常用命令,来源于日常积累的各种网页博客。因为不耐烦反复的查,索性自己总结了一个pdf,里面包括常用的linux命令,包括gcc,grep,tar,sed,find,screen,nohup,scp等,另外还有一些常用的文本处理命令如cat,split,head,tail,uniq,wc,more,less等。

2013-06-01

a note on the EM——论文翻译

本资源中包含两个文件,一个是a note on the EM论文的英文版,还有一个是我的翻译文档。

2013-01-02

斯坦福机器学习公开课6-8

内含三个pdf文件,分别在博客http://blog.youkuaiyun.com/stdcoutzyx中有对应的文章,主要讲述了支持向量机的内容,包括最优间隔分类器、对偶问题、序列最小化算法等等,另外,笔记6中还包括了部分朴素贝叶斯和神经网络的内容。

2013-08-06

斯坦福机器学习公开课笔记1-5

来源于博客:http://blog.youkuaiyun.com/xinzhangyanxiang/article/details/9285001,汇总了五篇博文,主要针对斯坦福ML公开课的1-5

2013-07-09

机器学习公开课笔记1-12

本资源是机器学习公开课笔记的pdf版。其内容均已发表到blog中,blog地址:http://blog.youkuaiyun.com/stdcoutzyx。资源中包含1-12的课程内容。

2014-02-22

论文笔记_一种结合推荐对象间关联关系的社会化推荐算法

本资源是论文《一种结合推荐对象间关联关系的社会化推荐算法》的笔记。该论文提出的算法是以PMF为框架基础的。资源包括两个文件,分别对应博客http://blog.youkuaiyun.com/stdcoutzyx/article/details/21416809和http://blog.youkuaiyun.com/stdcoutzyx/article/details/21347157

2014-03-17

中文语言模型的词典优化

该资源包含两个文件,其中一个是中文语言模型词典优化的英文论文,另一个是我的翻译。

2012-12-30

gdb使用资料

内含有两个文件,gdb使用命令总结与GDB调试命令手册。前者主要来自ubuntu wiki,是比较全的gdb介绍文档,我把它整理制作成为带目录的pdf,方便查阅。另外一个来自于百度文库的一个gdb命令集合,算是附加福利吧。

2013-05-27

隐马尔科夫模型及其扩展

本文是我的博客上的参考文献集博客pdf,博客文章地址是http://blog.youkuaiyun.com/xinzhangyanxiang/article/details/8522078 主要讲解HMM模型和维特比算法的。

2013-01-20

基于熵的回退语言模型剪枝

本资源包含两个文件,一个是entropy-based pruning of backoff langauge models 原论文,另外一个是我的翻译。

2013-01-05

codeigniter教程

教你怎么使用php中的CI框架,CI框架是开发php轻量级应用方面使用最广的框架

2012-07-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除