
machine learning
bt_czc30114
这个作者很懒,什么都没留下…
展开
-
ESL学习之kNN
在利用kNN进行分类时,我们是选择一个点的k个最近的neighbor的一些属性来估计当前点的属性。 kNN的一个局限性就在于当参数空间的维数p增大后,这k个neighbor更趋近于分布在离当前点较远的那部分。意思就是在一个半径为1的p维球体中,若存在k个点,那么这k个点更趋近于这个球体的边缘,这是为什么呢。 作为一个大概的理解,考虑在半径为0.5的地方,那么0.5半径以内的球体体积为exp(0原创 2013-12-10 13:02:16 · 1092 阅读 · 0 评论 -
Apriori和FPgrowth算法学习
这两天看了这两个算法,主要来源是机器学习实战。 1.Apriori算法 首先是两个定义 项集的支持度,定义为数据集中包含该项集的记录所占的比例。比如对于一个单独的item,那么item的支持度为item出现的数据集比上总的数据集,这里注意如果一个数 据条目中重复出现一个item多次,那么提取数据时只计算为1次,也就是我们并不关心某人买了两件商品0以及两件商品2的情况,只关心购买了商品0和商原创 2013-12-13 12:15:34 · 2230 阅读 · 0 评论 -
confidence weighted learning
这个算法原作者意思是在NLP中面对高维向量和数据稀疏时效果会不错,算法保持了当前预测向量w的均值和方差,并做优化。代码实现如下: #cw learning algorithm def get_phi(): '''confidence parameter phi''' import numpy as np from scipy import stats eta =原创 2013-12-17 18:53:44 · 1470 阅读 · 0 评论