
《机器学习实战》
文章平均质量分 79
《机器学习实战》读书笔记
Joy CR
欢迎关注我的公众号: 小秋的博客
https://blog.youkuaiyun.com/xiaoqiu_cr
https://github.com/crr121
https://segmentfault.com/u/chenrong_flying
联系邮箱:rongchen633@gmail.com
展开
-
将SVD应用于推荐系统
1、什么是SVDsingular value decomposition 奇异值分解,通过SVD实现从噪声数据中抽取相关特征2、SVD的应用2.1信息检索隐形语义索引LSI:latent semantic indexing隐形语义分析LSA:latent semantic analysis再LSA中,一个矩阵是由文档和词语构成,我们利用SVD对矩阵进行分解,就会得到多个奇异原创 2018-02-07 16:39:15 · 482 阅读 · 0 评论 -
list indices must be integers or slices, not tuple
File "E:\Python36\regtree.py", line 45, in chooseBestSplit if len(set(dataSet[:,-1].T.tolist()[0])) == 1: #exit cond 1TypeError: list indices must be integers or slices, not tuple在测试树回归的时候,一直原创 2017-12-26 17:10:48 · 2595 阅读 · 0 评论 -
构建FP-growth算法高效发现频繁项集
1、构建FP树1.1创建FP树的结构#创建FP树的数据结构#FP树的类定义class treeNode: def __init__(self, nameValue, numOccur, parentNode): self.name = nameValue self.count = numOccur self.nodeLink =原创 2018-02-05 17:28:59 · 420 阅读 · 0 评论 -
python3 .6 下 报错 RuntimeError: dictionary changed size during iteration
循环字典键值,删除不符合要求的键值对def createTree(dataSet, minSup=1): #create FP-tree from dataset but don't mine headerTable = {} #go over dataSet twice for trans in dataSet:#first pass counts frequency of转载 2018-01-25 11:44:17 · 455 阅读 · 1 评论 -
Apriori进行关联分析
一、术语解释关联分析:从大规模数据集中挖掘物品之间的隐含关系频繁项集:经常出现在一块的物品集合关联规则:暗示两种物品之间可能存在很强的关联关系项集支持度:数据集中包含该项集的记录比例(这里可以定义一个最小项集的支持度,筛选出那些项集出现次数不是那么多,项集支持度不是那么大的集合)关联规则{a}->{b}置信度:{a,b}的支持度/{a}的支持度二、目标与假设假设商店有4中商品:0 1 2 3而我们原创 2018-01-18 14:48:54 · 609 阅读 · 0 评论 -
k-均值聚类
1、k-均值聚类1.1、伪代码创建k个点作为起始质心(经常是随机选择)当任意一个点的簇分配结果发生改变时对数据集中的每个数据点. 对每个质心计算质心与数据点之间的距离将数据点分配到距其最近的簇对每一个簇,计算簇中所有点的均值并将均值作为质心1.2、核心代码from numpy import *#将数据集每一行按照tab符号分割,并转为float类型,原创 2018-01-09 18:11:32 · 628 阅读 · 0 评论 -
树回归-CART
1、树回归的提出背景线性回归需要拟合所有的样本(除了局部加权性回归),实际生活中大部分的问题是非线性的。所以需要将数据集进行切分成很多份容易建模的数据,然后利用线性回归的方法进行建模。但是一般一两次的切分仍然不能满足要求,所以就提出了树回归的方法2、CART(classification and regression trees) 分类回归树该算法不仅能用于分类,还能用于回归。2....原创 2018-01-03 14:33:25 · 488 阅读 · 0 评论 -
支持向量机SVM
SVM的优缺点优点:泛化错误率低,计算开销不大,结果容易解释缺点:对参数的调节和核函数的选择敏感,原始分类器不佳修改仅适用于处理二分类问题SVM的目的:找到一个超平面,也就是分类的决策边界,使得离超平面最近的点尽可能的远,而那些最近的点就是支持向量如何寻找最大间隔:分隔超平面的形式:原创 2018-01-03 14:32:43 · 372 阅读 · 0 评论 -
根据某列值进行样本的分类
根据某列值进行样本的分类'''dataSet:数据集feature:待划分的特征value:对应的特征值'''def binSplitDataSet(dataSet, feature, value): #dataSet[:,feature]取出该列特征值 #dataSet[:,feature] > value将大于value的值筛选出来,得到的是true,false的原创 2017-12-26 11:33:57 · 678 阅读 · 0 评论 -
Logistic回归
1、什么是回归已知数据集,求这些数据集的函数表达式的过程2、原创 2017-12-14 11:48:27 · 628 阅读 · 0 评论 -
决策树算法
1、决策树的工作原理(1)找到划分数据的特征,作为决策点(2)利用找到的特征对数据进行划分成n个数据子集。(3)如果同一个子集中的数据属于同一类型就不再划分,如果不属于同一类型,继续利用特征进行划分。(4)指导每一个子集的数据属于同一类型停止划分。2、决策树的优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关的特征数据原创 2017-12-07 21:08:34 · 661 阅读 · 0 评论 -
朴素贝叶斯分类器
1、加载训练数据集,用于训练分类器#加载数据集,用于训练分类器def loadDataSet(): # 分词后的数据,一共有六个向量 postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him',...原创 2017-12-12 18:13:53 · 488 阅读 · 0 评论