
机器学习入门
skywalkerVVV
牛逼的背后都是傻逼的坚持
展开
-
机器学习入门 之 《集体智慧编程》 寻找特征值
在贝叶斯分类中,我们使用的最小单位是一个词 比如 football,lady。 其实一些类别的文章他的主要特征应该是一个词组或者几个单词的组和。我们叫做一个feature以文本分类来说:现在我们手里边有的数据是:文章-word的矩阵 matrixA(article)比如 word1 word2 word3 文章A 0原创 2012-12-26 12:39:52 · 817 阅读 · 0 评论 -
机器学习入门 之 《集体智慧编程》 KNN算法
knn算法:k nearest neighbors 也就是k个最近的邻居算法。它的大概意思是,在样本空间中,找到与待估计的样本最临近的K个邻居,用这几个邻居的类别来估计待测样本的类别(或者值)knn算法就是这么简单.knn算法 需要注意的地方1、需要将数据量化:比如一些非数值的参数量化为数值的参数2、需要一个distance函数以计算两个样本之间的距离原创 2012-12-26 12:39:50 · 910 阅读 · 0 评论 -
机器学习入门 之 《集体智慧编程》 贝叶斯分类(bayesian classification)
第一次听说机器学习 这四个字,是在杜军平老师的选修课上,当时他也就那么提了一下的东西,没想到在若干年后的今天让我如此滴着迷。贝叶斯分类(bayesianclassification)贝叶斯公式和全概率公式是《概率论》中的两个简单的公式:贝叶斯公式:P(A|B) = P(AB)/P(B) = P(B|A)P(A)/P(B)cat 代表文本类别 比如 娱乐,体育等等原创 2012-12-26 12:39:34 · 1544 阅读 · 0 评论 -
机器学习入门 之 《集体智慧编程》 聚类(clustering)
这里是两个非监督算法:聚类还是很有用滴:比如,对数据进行聚类,发现套套和啤酒靠得非常近,说明啤酒和套套放在一起可能会增加收入。比如哥们买一瓶酒的时候顺便买个套套,酒后很可能那个啥了。。。聚类首先要解决的是解决两个集合的的相似程度的问题。我们使用一个distance(v1,v2)来表示两个集合的相似程度,distance越小越相似v1,v2是两个向量,如果有非数值的参数可以想原创 2012-12-26 12:39:40 · 1027 阅读 · 0 评论 -
机器学习入门 之《集体智慧编程》 推荐系统
一、协同过滤 推荐系统比较简单的做法就是:要为一个人推荐他可能感兴趣的东西,通常在一群人中找到与他“相似”(比如年龄相差不大,地域相差不远,专业也相近等等)的人,然后推荐这个人没有接触到, 而与他相似的人喜欢的东西给他。二、量化 同样一些非数值的东西需要量化,比如是否喜欢篮球量化为0和1等等。 经过量化后,就得到一个向量的集合,每一个向量代表一个人,或者一原创 2012-12-26 12:39:43 · 1131 阅读 · 0 评论 -
《Pattern recognition and machine learning》第一章 笔记
看得蛋疼,痛并快乐着。《Pattern recognition and machine learning》 模式识别与机器学习 第一章 笔记http://download.youkuaiyun.com/detail/skywalkervvv/4982378原创 2013-01-10 18:39:35 · 1529 阅读 · 1 评论 -
机器学习入门 之《集体智慧编程》 决策树
要了解决策树,先了解两个概念都可以度量系统混乱程度1、信息熵信息论中的信息量和信息熵。信息量:信息量是对信息的度量,就跟温度的度量是摄氏度一样,信息的大小跟随机事件的概率有关。例如:在哈尔滨的冬天,一条消息说:哈尔滨明天温度30摄氏度,这个事件肯定会引起轰动,因为它发生的概率很小(信息量大)。日过是夏天,“明天温度30摄氏度”可能没有人觉得是一个新闻,因为夏天温度30摄氏度原创 2012-12-26 12:39:38 · 919 阅读 · 0 评论 -
机器学习入门 之 《集体智慧编程》 优化算法
优化算法在很多问题中用到,用以寻找最大值或者最小值,其实就是一个搜索问题在一个指定的搜索空间中,每一个点(也可以说是一个可能的solution)都可能是最小值。优化算法" name="image_operate_94481346039492668" alt="机器学习入门 优化算法" src="http://simg.sinajs.cn/blog7style/images/原创 2012-12-26 12:39:36 · 1223 阅读 · 0 评论