数据挖掘
lyn5284767
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
分级聚类
根据皮尔逊相关系数获取所有数据的相关性,相关性最强的进行聚类,一层层处理完毕数据。python代码:读取数据#读取数据def readfile(filename): lines = [line for line in open(filename)] # 列标题 colnames = lines[0].strip().split('\t')[1:] rowname...原创 2018-03-08 10:27:19 · 685 阅读 · 0 评论 -
径向基函数分类
大多数情况下,利用二维控件线性是无法分类的,这个时候就需要将维度提高,在更高阶的维度进行分类,径向基函数是变换到高纬度的方法之一。目前,最常用的径向基函数是高斯核函数,其公式如下: 其中,xc为中心点坐标,x为待分类的坐标,||x-xc||为欧几里得距离,σ为可调的宽度参数。python代码:#径向基函数,gamma=1/(2*σ)^2def rbf(v1,v2,gamma=10): ...原创 2018-04-12 16:04:56 · 2638 阅读 · 0 评论 -
第六章-6.6聚类
使用聚类进行分类,但是聚类个数未知,一般有两种解决方法:1,对不同的个数进行试验,计算每个类聚离中心距离和是多少,选择最小值作为类聚个数;2,选择较少的聚类个数,分类完成后,在聚类边界再建立一个中心,将此聚类分裂为两个,然后在根据需要判定是否继续分裂。接下来,将用效用类别衡量类聚的总体质量。...转载 2018-05-25 14:39:47 · 1108 阅读 · 0 评论 -
第六章-6.7贝叶斯网络
一个有向无环图,每一个节点表示一个属性,节点间用有向连接线连接。示例:假定,阴晴=rainy,温度=cool,湿度=high,刮风=true,计算玩的概率。根据上图可以算出 阴晴=rainy&play=no的概率为0.385,温度=cool&play=no&阴晴=rainy的概率为0.429,湿度=high&play=no&温度=cool的概率为0.25,刮...原创 2018-05-25 17:21:50 · 417 阅读 · 0 评论 -
第 七章-7.1属性选择
选择一个好的属性子集,有两种方法:1,根据数据的普遍特性做出一个独立评估,称为过滤;2,采用最终将要评估机器学习的算法评估子集,称为包装。用机器学习的方法进行分类的时候,经常会有无关属性和重复属性干扰,为了去除干扰,我们选择一个属性子集,子集与类属性有较大关联,但是自身内部无关联。两个属性A,B之间可以用对称不定性衡量: 其中,H为熵函数,H(A,B)为联合熵。...原创 2018-05-28 15:28:51 · 242 阅读 · 0 评论 -
第二章-2.3线性回归学习机
回归问题:根据给定的训练集 寻找一个实值函数f(x),以便用y=f(x)推断出任一模式x所对应的y值。先研究最简单的情况: 线性回归就是寻找一条直线,使训练点x离其最近。如果超平面y=(w.x)+b满足: 则该超平面就是一个硬-带超平面、求其最优值:1,平分最近点回归法得到最近点c、d分别为: 最后取得得到划分的超平面,令得到y=(w.x)+b2,最大间隔回归法...原创 2018-06-04 16:09:28 · 260 阅读 · 0 评论 -
第六章-6.3扩展线性模型
利用支持向量机把数据转化到超平面,成为线性模型。最大边际超平面是指最大限度分割两个类的超平面;类中距离最大边际超平面最近的点为支持向量。...原创 2018-05-24 10:19:05 · 763 阅读 · 0 评论 -
第二章-2.1分类问题的提出
以心脏病诊断为例,假设我们希望通过年龄和胆固醇水平两个指标来判定一个人是否患有心脏病。首先,我们输入已有的十个病例:这里,第一位病人数据为,y=-1,以此类推,把10位病人数据整理为: 接下来如果再有新的病人来,我们需要根据其年级和胆固醇水平来判定其是有有心脏病。这就是一个分类问题,可以转换到二维平面来进行:从图中可知可以选择一条合适的曲线(w.x)+b=0将两类分隔开,其中(w.x)是内积...原创 2018-05-29 10:07:17 · 267 阅读 · 0 评论 -
第二章-2.2线性分类学习机
如何构造线性分类学习机。1,平分最近法。如下图所示:我们应该找到两类凸壳最近点,做垂直平分线即可获得。上例的最近点是c,d两点,可以通过求解一个最优化问题来解决。已经训练集,其中,构造并求解最优化问题: 得到最优解集合,计算最邻近点,构造分化超平面,,其中,2,最大间隔法。如下图所示;要求最优的分类线,即求,间隔2/||w||的最大化,也即求1/2*||w||^2最小化,其最优化问题为: ...原创 2018-05-29 11:19:55 · 437 阅读 · 0 评论 -
第三章-3.2多项式空间和多项式核
一,有序齐次单项式空间2阶有序齐次单项式: 由此推广,可以得到d阶的有序齐次单项式: 由上式可知,如果n和d数据过大时,内积的运算量将会非常大。我们观察二阶有序齐次单项式,在H中做内积有: 我们定义函数: 由此我们推算到d阶的有序齐次单项式: 二,有序单项式空间类似的可以推导出,二阶有序单向式空间: 类似的推导到...原创 2018-06-05 15:01:42 · 10327 阅读 · 2 评论 -
决策树
决策树是一种二叉树,根据观测数据进行训练,以树状的形式对结果进行分类。分类方法包括:1,基尼不纯度用于衡量数据的混乱程度,用于计算某个数据的误差率。例如,有三个类,发生的概率为p(x)=2/9、p(y)=3/9、p(z)=4/9,其基尼不纯度为:2/9*(1-2/9)+3/9*(1-3/9)+4/9(1-4/9)python代码:def giniimpurity(rows): total=le...原创 2018-03-28 16:59:48 · 322 阅读 · 0 评论 -
线性分类
1,根据已有数据进行训练,寻找出分类线;2,根据分类,计算当前类的均值和及中心点C。3,利用点积进行分类,数据坐标为X,可以获得向量和。已知点积满足: ,可知,两个向量角度小于90则为正数接近归类为,,大于90则为负数,则归类为。4,归一化处理,将数据全部调整到0-1区间: (Now-MIN)/(MAX-MIN)...原创 2018-04-09 09:19:08 · 408 阅读 · 0 评论 -
K均值聚类算法
首先确定K个中心位置,将数据分配给最近的K值位置,再根据数据重新计算K值位置。python代码:import randomfrom math import sqrt#皮尔逊相关系数用于找寻相关度最高的博客def pearson(v1, v2): # 求和 sum1 = sum(v1) sum2 = sum(v2) # 求平方和 sum1Sq = s...原创 2018-03-08 11:09:39 · 350 阅读 · 0 评论 -
tanamoto系数
用于计算两个集合之间的相关度,计算公式为交集/并集。Python代码:def tanamoto(v1, v2): c1, c2, shr = 0, 0, 0 for i in range(len(v1)): if v1[i] != 0: c1 += 1 # 在 v1 if v2[i] != 0: c2 += 1 # 在 v2 i...原创 2018-03-08 14:49:47 · 272 阅读 · 0 评论 -
多维缩放
1,根据皮尔逊相关系数计算出所有点之间的距离,称之为目标距离。2,将所有点随机投放在二维界面(Xi,Yi),计算出随机点之间的距离,称为当前距离。3,计算误差值:(目标距离-当前距离)/当前距离。4,根据误差值按比例位移,直到误差值最小为止,获得所有点的二维图形。Python代码:def scaledown(data, distance=pearson, rate=0.01): n = l...原创 2018-03-08 16:03:14 · 435 阅读 · 0 评论 -
神经网络-反向传播
一文弄懂神经网络中的反向传播法——BackPropagation 最近在看深度学习的东西,一开始看的吴恩达的UFLDL教程,有中文版就直接看了,后来发现有些地方总是不是很明确,又去看英文版,然后又找了些资料看,才发现,中文版的译者在翻译的时候会对省略的公式推导过程进行补充,但是补充的又是错的,难怪觉得有问题。反向传播法其实是神经网络的基础了,但是很多人在学的时候总是会遇到一些问题,或者看到大篇的...转载 2018-03-16 10:54:03 · 309 阅读 · 0 评论 -
欧几里德距离
在偏好空间中距离越近的人偏好越接近。1/(1+sqrt(pow(x1-x2,2)+pow(y1-y2,2)))Python代码:#数据集合critics={'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5, 'Just My Luck': 3.0, 'Superman Returns': 3.5, 'You, Me ...原创 2018-03-02 14:20:54 · 374 阅读 · 0 评论 -
皮尔逊相关系数
两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:数学期望性质: 协方差: 方差: ...原创 2018-03-05 15:00:38 · 946 阅读 · 0 评论 -
排行推荐
根据皮尔逊系数计算出其他人与自己的相关性,再用相关性加权来获取推荐排行:∑(相关度*评分)/相关度和python代码:critics={'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5, 'Just My Luck': 3.0, 'Superman Returns': 3.5, 'You, Me and Dupree...原创 2018-03-05 15:54:28 · 173 阅读 · 0 评论 -
PageRnak算法
PageRank对网页排名的算法,曾是Google发家致富的法宝。以前虽然有实验过,但理解还是不透彻,这几天又看了一下,这里总结一下PageRank算法的基本原理。一、什么是pagerank PageRank的Page可是认为是网页,表示网页排名,也可以认为是Larry Page(google 产品经理),因为他是这个算法的发明者之一,还是google CEO(^_^)。PageRank算法计...转载 2018-03-14 14:49:09 · 353 阅读 · 0 评论 -
优化算法
随机搜索:利用随机数,随机选择组合,新解优于之前则结果进行替换。爬山算法:1,创建一个随机解; 2,获取周围临近解; 3,新解优于之前解,则进行替换,重复2过程; 4,如果周围没有更优解则结束。模拟退火算法:1,创建一个随机解; 2,创建一个随机跳跃值及跳跃...原创 2018-03-26 09:19:39 · 522 阅读 · 0 评论 -
第二章-2.3支持向量机分类
现实生活中,很多问题是无法在二维平面进行线性分类的,如下图所示:对图(a)进行分类,我们无法进行线性分类,但是可以用一个椭圆来划分: 现在,我们要做的工作,就是把这个非线性分类变换到线性分类上,: 映射后的公式为: 一个更为广泛的例子。设训练集为:,其中假定可以用平面的二次曲线: 来划分。这时,把二维空间,映射到6维空间的变换函数:通过变换函数,将二次曲线映射到六维空间的超...原创 2018-06-01 14:18:15 · 423 阅读 · 0 评论
分享