
机器学习
文章平均质量分 75
sanfendi
这个作者很懒,什么都没留下…
展开
-
机器学习笔记——贝叶斯学习
概率 理解概率最简单的方式就是把它们想像成韦恩图中的元素。首先你有一个包括所有可能输出(例如一个实验的)的全集,现在你对其中的一些子集感兴趣,即一些事件。假设我们在研究癌症,所以我们观察人们看他们是否患有癌症。在研究中,假设我们把所有参与者当成我们的全集,然后对任何一个个体来说都有两种可能的结论,患有或没有癌症。我们可以把我们的全集分成两个事件:事件"患有癌症的人"(表示为A),和"不患翻译 2014-04-29 19:50:56 · 3538 阅读 · 0 评论 -
Kaggle竞赛题目之——Digit Recognizer
Classify handwritten digits using the famous MNIST dataThis competition is the first in a series of tutorial competitions designed to introduce people to Machine Learning.The goal in this comp原创 2015-01-16 12:24:47 · 5802 阅读 · 1 评论 -
Kaggle竞赛题目之——Predicting a Biological Response
Predict a biological response of molecules from their chemical properties从分子的化学属性中预测其生物反应。The objective of the competition is to help us build as good a model as possible so that we can, as op原创 2014-11-24 17:24:00 · 5038 阅读 · 0 评论 -
Kaggle竞赛题目之——Titanic: Machine Learning from Disaster
The sinking of the RMS Titanic is one of the most infamous shipwrecks in history. On April 15, 1912, during her maiden voyage, the Titanic sank after colliding with an iceberg, killing 1502 out of 22原创 2014-11-25 19:47:00 · 5555 阅读 · 4 评论 -
外交部发言人发言语料抓取及简单分析
花了点时间,把外交部网站上的发言人表态一栏中的数据全部抓取下来,按照一定的格式保存于文件中,时间范围是2010-09-14~2014-06-18,如果跑在服务器上的话,可以做增量更新,即若有更新每天下载一篇新的文章。我国的外交部发言人制度是在1983年3月1日开始设立的,但是外交部网站上公布的数据好像只有我拿到的这些。文件格式如图:(声明:本人只是想把这些答记者问的对话当作自然语言原创 2014-06-19 16:44:15 · 5947 阅读 · 0 评论 -
一个简单的在线推荐系统的实现
推荐系统,主要采用对历史数据的分析计算,得到某种模型,对未来的数据进行预测。说到底,还是分类问题。Mahout,是一个可扩展的机器学习库,可用于单机,也可用于Hadoop。Mahout的API非常简单,实现一个推荐功能只需要如下的几行代码: DataModel model = new FileDataModel(new File(file));//建立数据模型 UserSimil原创 2014-06-15 11:18:07 · 5631 阅读 · 2 评论 -
一个简单的情感识别系统的实现
情感识别,主要就是正和负的识别,偶尔也有中性。类别比较少,所以相对于广义的文本分类来说,看起来要简单很多,特别是很多词汇都有很强的倾向性。当然这是针对某一特定的领域。一般的话,情感识别主要用于商品评论,因为不同的商品会有不同的术语之类的专门的某一词汇,所以如果将某一领域的数据集上学到的模型应用在另一个领域的话,可能效果会不很理想。Stephan Raaijmakers等的这篇文章[1]提出的是原创 2014-06-14 20:11:04 · 5992 阅读 · 0 评论 -
机器学习笔记——K-means
K-means是一种聚类算法,其要求用户设定聚类个数k作为输入参数,因此,在运行此算法前,需要估计需要的簇的个数。假设有n个点,需要聚到k个簇中。K-means算法首先从包含k个中心点的初始集合开始,即随机初始化簇的中心。随后,算法进行多次迭代处理并调整中心位置,知道达到最大迭代次数或中性收敛于固定点。k-means聚类实例。选择三个随机点用作聚类中心(左上),map阶段(右上)将原创 2014-05-25 15:54:24 · 2272 阅读 · 0 评论 -
机器学习笔记——SVM
SVM(Support Vector Machine),中文名为 支持向量机,就像自动机一样,听起来异常神气,最初总是纠结于不是机器怎么能叫“机”,后来才知道其实此处的“机”实际上是算法的意思。支持向量机一般用于分类,基本上,在我的理解范围内,所有的机器学习问题都是分类问题。而据说,SVM是效果最好而成本最低的分类算法。SVM是从线性可分的情况下最优分类面发展而来的,其基本思想可以用下图表原创 2014-05-17 16:14:57 · 2823 阅读 · 0 评论 -
机器学习笔记——决策树学习
决策树学习是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一棵决策树。表示法:把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。树上的每一个节点指定了对实例的某个属性(attribute)的测试,并且该节点的每一个后缀分支对应于该属性的一个可能值。分类实例的方法是从这棵树的根节点开始,测试这个节点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。然原创 2014-04-26 21:19:07 · 2504 阅读 · 0 评论 -
机器学习笔记——引言
学习的定义:对于某类任务T和性能度量P原创 2014-04-26 19:59:48 · 2108 阅读 · 0 评论 -
机器学习笔记——人工神经网络
人工神经网络(Artificial Neural Networks,ANN)提供了一种普遍而实用的方法从样例中学习值为实数、离散值或向量的函数。人工神经网络由一系列简单的单元相互密集连接构成,其中每一个单元有一定数量的实值输入(可能是其他单元的输出),并产生单一的实数值输出(可能成为其他单元的输入)。适合神经网络学习的问题:实例是很多“属性-值”对表示的目标函数的输出可能是离散原创 2014-04-27 12:07:54 · 2671 阅读 · 0 评论 -
机器学习笔记——皮尔逊相关系数
在学到相关性度量的时候,有一个系数用来度量相似性(距离),这个系数叫做皮尔逊系数,其实在统计学的时候就已经学过了,只是当时不知道还能用到机器学习中来,这更加让我觉得机器学习离不开统计学了。皮尔逊相关系数——Pearson correlation coefficient,用于度量两个变量之间的相关性,其值介于-1与1之间,值越大则说明相关性越强。两个变量之间的皮尔逊相关系数定义为两个原创 2014-05-06 20:33:21 · 13781 阅读 · 1 评论 -
Kaggle竞赛题之——Sentiment Analysis on Movie Reviews
Classify the sentiment of sentences from the Rotten Tomatoes dataset题目链接:https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews越来越喜欢iPython notebook了。以下所有工作都可以在一个页面上完成,FireFox支持比Chrome原创 2015-01-18 13:49:48 · 7418 阅读 · 2 评论