
机器学习
zhangshuliai
这个作者很懒,什么都没留下…
展开
-
关联规则发现和新词发现
关联规则发现常常用在购物篮分析中。假设A和B同时被买的频率很高(支持度),买A的人同时买B的可能性也很高(置信度),则可以形成一条规则:A->B。表示买A的人也会买B。对于自然语言处理来说,分词非常关键,而分词都要依赖词库。新词每天都在产生,如果词库中不包含某一个新词,则这个词就不会被分出来,所以自动发现新词酒很关键了。现在的自然语言处理还达不到语义发现新词的能力,也就是说机器第一次看到一个新原创 2012-07-22 23:53:09 · 1387 阅读 · 0 评论 -
关联规则学习-笔记
第一步是要产生所有的频繁项集合,即满足一定支持度的项的集合。依次递归产生1项,2项,...,n-1项,n项。所有的k项由k-1项得到,并不需要列举所有的k项可能的组合,由于如果某k项为频繁项,则其所有的一个k个子k-1项必为频繁项。可按k-1项排序,只对相邻的两项做处理。如果相邻两项的前k-2项都相等,只有第k-1项不相等,则合并两项,得到新的k项为候选k项。如果相邻两k-1项的前k-2项不相原创 2012-10-16 21:07:38 · 1280 阅读 · 0 评论 -
个性化推荐和遗传算法
遗传算法包含两个步骤:1,变异;2,选择。算法在每次迭代的过程中选择对一些特征变异,然后再计算变异后的效果,好则保留变异特征。假如已经能够完全掌握用户的数据模型,个性化推荐第一要满足精确性,根据数据模型能保证最优化精确性。但是完全基于用户数据模型相当于只有遗传没有变异,推荐显得缺乏新颖性,并且也很难发现用户的变化(毕竟用户的兴趣点也一直在变)。而如果在每次推荐中都加入一些新元素,根据用户对这些原创 2012-09-17 21:09:44 · 751 阅读 · 0 评论 -
分类的特征选择
一篇文档中有很多个词,也就有很多个特征。特征太多会造成计算量大,并且有些特征还是噪音。特征选择一般按照信息增益依次选择。信息增益按照条件熵计算。假设不选择这个特征,熵是s1,选择后熵为s2,s1-s2即为条件熵。首先选择最大的信息增益的特征,再在最大信息增益特征的基础上选择次大的。这种方法很不错,但是也很难处理异或问题,比如特征t1的信息增益为0,特征t2的信息增益为0,但是t1和t2的联原创 2012-09-28 11:43:49 · 708 阅读 · 0 评论 -
分类的数据模型
1,生成模型:假设数据是由某种模型生成的。对于文本分类,假设有N类数据,每一类数据的都有一个概率,每一类数据的各个词项都会有一个分布。一篇文档就是由这个数据模型生成的。生成过程如下:首先随机选择一个类别,由于是随机选择,大类被选中的可能性更大;其次在这个类别中一个个随机选择词语,由于各个类别的词项分布不同,生成的文档的词项分布更接近于生成文档的模型。可以计算文档与各个模型的余弦相似度,得分最大的模原创 2012-09-28 11:04:17 · 1821 阅读 · 0 评论 -
过拟合
过拟合的根本原因是信息太少。信息可以从两方面得到。一是先验的假设。假设线性可分和假设n次多项式可分相比,前者假设了我们拥有了更多的信息。二是样本。一般来说,样本越多提供的信息越多。不过如果样本并不是随机抽取的,则样本多也不能代表信息多。比如分类中可以找多个特殊的点,这些点是最优分类器分错的点,用这些点来分类,效果会出奇的差。因为我们得到的全部是负信息。这里的负信息和前面的正信息(先验假原创 2012-09-27 16:25:25 · 815 阅读 · 0 评论 -
文本分类方法学习
让一个从没有接触过文本分类但是了解分类算法的人设计一个文本分类算法,他会怎么做?最简单的想法是对一个类里面所有的文章都分词,求出所有词的出现频率,构成一个向量,对向量归一化。拿到一篇新文章,要对其分类,可以分词此文章,组成一向量,然后和各个训练集里面的各个向量相乘求内积,内积最大的类即为新文档所属的类。这种算法有一个显而易见的问题,文档中大量出现的词实际上是一些如“的”“了”等词,这些词在原创 2012-07-26 22:18:40 · 2332 阅读 · 0 评论 -
聚类算法的评价方法
1,专家评价:把结果拿给专家坐判断,太耗人力2,熵:计算各个类的熵,根据聚类结果里面各个数据分类的分布,需要数据事先做好标签分类3,类纯度:取每个聚类里面最大的分类数据所占的比例,也需要数据事先做好标签分类4,计算类内关联度和类间散度5,让用户评价:在推荐系统中,需要聚类商品和聚类用户,根据推荐的效果来评价聚类算法原创 2012-07-25 22:19:08 · 1569 阅读 · 0 评论 -
几中聚类算法的优缺点比较总结
k均值:优点:1,简单,易于理解和实现;2,时间复杂度低缺点:1,需要对均值给出定义,2,需要指定要聚类的数目;3,一些过大的异常值会带来很大影响;4,算法对初始选值敏感;5,适合球形聚类层次聚类:优点:1,距离和规则的相似度容易定义,限制少;2,不需要预先制定聚类数;3,可以发现类的层次关系;4,可以聚类成其它形状缺点:1,计算复杂度太高;2,奇异值也能产生很大影响;3,算法原创 2012-07-25 20:27:06 · 20907 阅读 · 3 评论 -
聚类和关联规则发现
聚类都有两个前提:距离相近的实体更有可能是同一个类;A与B相似,B与C相似,则A与C相似的可能性很大。所以,在聚类算法中,距离的定义至关重要。考虑一下购物篮分析,试着给商品聚类。所知道的信息只有某些商品同时被买的记录,这也是关联规则发现所需要的最基本的信息。可以根据A和B出现在同一购物篮中的频率来定义距离,频率越高,则距离越小。人的生活包含吃喝嫖赌,去商场买东西,是要满足这些各个需求的原创 2012-07-25 11:24:02 · 2943 阅读 · 0 评论 -
分类算法的一点思考
分类算法可以用最基本的中学数学的求值问题这样表示:已知:一个数据集合Data,一个类别集合Class,对每一个data属于Data,存在标签class属于Class求:一个新的数据data2,求最佳的class21,最直接的算法是看看data2是否在Data中,如果在,就直接可以求出class2了。然而机器学习的关键并不是总结,而是预测,大量出现的data2是不存在于已知集合Dat原创 2012-07-23 20:01:32 · 480 阅读 · 0 评论 -
关联规则学习-序列模式挖掘
在关联规则中,把一个用户的一次交易看做一个模式,而在序列模式中,药考虑用户的多次交易。可以表示为。这表示在一段时间内,用户发生了3次交易,第一次购物为A和B,第二次为A和C,第三次为D。序列的顺序很重要,序列和就不相同。可以定义序列的父子关系,如果序列s1 = 是序列s2 = 的父序列,当且仅当存在1 序列s的数量可以用所有s的父序列出现的次数表示。序列模式的挖掘同关联模式一样,都是有k-原创 2012-10-16 23:42:34 · 4293 阅读 · 0 评论