
实战2:pg2dm-python
CopperDong
纯属巧合
展开
-
chapter7:朴素贝叶斯及文本---非结构化文本分类
非结构化数据包括邮件、推文、博文、新闻报道等对象。这些数据看上去(至少一眼看上去)并不能很清晰地通过表格来描述。一、一个文本正负倾向性的自动判定系统 这里的数据集称为训练语料库(training corpus)。语料库中的每条记录即使只是一段140个字符的推文,每个文档都标注了正面或负面类别 一种方法可以从文档的第一句开始,比如Puts the Thrill back in Thr原创 2017-10-06 16:49:43 · 593 阅读 · 0 评论 -
chapter5:分类的进一步探讨---算法评估及kNN
一、10折交叉验证(10-fold cross validation) 将数据集随机分成10份,使用其中9份进行训练而将另外1份用作测试。该过程可以重复10次,每次使用的测试数据不同二、留一法(Leave-One-Out) 在机器学习领域,n折交叉验证(n是数据集中样本的数目)被称为留一法。 它的一个优点是每次迭代中都使用了最大可能数目的样本来训练。 另一个原创 2017-10-05 20:28:39 · 590 阅读 · 0 评论 -
chapter4:内容过滤及分类---基于物品属性的过滤
协同过滤也称为社会过滤,利用了用户社区的力量来帮助进行推荐,它的难点,包括数据稀疏和扩展性带来的问题,另一个问题是基于协同过滤的推荐系统倾向于推荐已流行的物品,即偏向于流行事物。作为一个极端的例子,考虑一个全新乐队刚发布的专辑,由于乐队和专辑从没被人评价过或者没人购买过,因此它永远不会被推荐,这就是所谓的“冷启动”问题。会带来“富者越富”的效果 一种不同的推荐方法。考虑流音乐网站Pandor原创 2017-10-05 18:28:12 · 441 阅读 · 0 评论 -
chapter3:协同过滤-隐式评级及基于物品的过滤
前面提到,有一些证据表明,用户通常不使用细粒度的区分机制,而是倾向于要不给最高评分要不给最低评分。这种非此即彼的极端评级方式有时可能会导致结果无法使用。本章将考察对协同过滤的调优方法,以便更高效低产生更精确的推荐结果。 显示评级:指用户显示地给出物品的评级结果。如点赞/点差/评分 隐式评级:观察用户的行为来获得结果。如跟踪用户在纽约时报在线上的点击轨迹,对某个用户的点击行为观察几周原创 2017-10-04 16:19:08 · 1119 阅读 · 0 评论 -
chapter2:协同过滤
一、如何寻找相似用户 曼哈顿距离(Manhattan Distance) |x1 - x2 | + | y1 - y2 | 欧式距离 sqrt( (x1-x2)^2 + (y1-y2)^2 ) N维下的思考 ××× 一个缺陷 当没有缺失值时,曼哈顿距离和欧式距离非常好。缺失值的处原创 2017-10-04 14:08:57 · 695 阅读 · 0 评论 -
树回归
实际生活中很多问题都是非线性的,不可能使用全局线性模型来拟合任何数据 一种可行的方法是将数据集切分成很多份易建模的数据,然后利用线性回归技术来建模.如果首次切分后仍然难以拟合线性模型就继续切分.在这种切分方式下,树结构和回归法就相当有用. ID3的做法是每次选取当前最佳的特征来分割数据,并按照该特征的所有可能取值来切分,一旦按某特征切分后,该特征在之后的算法执行过程中将不原创 2017-10-10 09:27:19 · 368 阅读 · 0 评论 -
预测数值型数据:回归
一,标准回归函数from numpy import *def loadDataSet(fileName): #general function to parse tab -delimited floats numFeat = len(open(fileName).readline().split('\t')) - 1 #get number of fields原创 2017-10-09 21:13:57 · 666 阅读 · 0 评论 -
利用AdaBoost元算法提高分类性能
当做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见,这就是元算法(meta-algorithm)或者叫集成方法(ensemble method)背后的思路. 接下来我们将集中关注一个称作AdaBoost的最流行的元算法 优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调节 缺点:对离群点敏感原创 2017-10-09 18:37:59 · 430 阅读 · 0 评论 -
决策树
一, 信息增益H = - sum( p(xi) *log2(p(xi)) )from math import logimport operatordef createDataSet(): dataSet = [ [1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0,原创 2017-10-09 09:27:45 · 548 阅读 · 0 评论 -
使用FP-growth算法来高效发现频繁项集
在搜索引擎中输入一个单词或者单词的一部分,就会自动补全查询词项 FP-growd基于Apriori构建,但在完成相同任务时采用了一些不同的技术.这里的任务是将数据集存储在一个特定的称作FP树的结构之后发现频繁项集或频繁项对,即常在一块出现的元素项的集合FP树.这种做法是的算法的执行速度要快于Apriori,通常性能要好两个数量级以上.一,FP树 频繁模式(Frequent Pa原创 2017-10-07 21:22:12 · 625 阅读 · 0 评论 -
使用apriori算法进行关联分析
关联分析:从大规模数据集中寻找物品之间的隐含关系。目标包括两项:发现频繁项集和发现关联规则 主要问题在于,寻找物品的不同组合是一项十分耗时的任务,所需的计算代价很高,蛮力搜索方法并不能解决这个问题。一、关联分析 {尿布与啤酒} Apriori算法 优点:易编码实现 缺点:在大数据上可能较慢 适用数据类型:数值型或者标称型数据 频繁项集(fr原创 2017-10-07 19:21:52 · 1124 阅读 · 0 评论 -
chapter8:聚类---群组发现
一、k-means聚类原创 2017-10-06 20:06:00 · 654 阅读 · 0 评论 -
chapter6:概率及朴素贝叶斯--朴素贝叶斯
利用近邻算法,很难量化分类的置信度。而基于概率的分类算法---贝叶斯算法却不仅能够分类而且能够给出分类的概率,比如这个运动员80%的概率是一名篮球运动员 P(h)称为h的先验概率prior probability P(h | d)称为h的后验概率posterior probability一、贝叶斯定理二、朴素贝叶斯原创 2017-10-05 21:40:25 · 445 阅读 · 0 评论