
数据挖掘
rolin-刘瑞
技术GEEK
展开
-
数据挖掘中的常用聚类算法-提纲
聚类相关的概念:相似性、距离度量(单连接、全连接、平均、质心、中心)、异常点算法分类:层次算法、划分算法层次算法:(凝聚、分裂)、谱系图的概念简单的凝聚算法——最近邻聚类:自增距离d至阀值、每次合并距离基于mst的层次凝聚聚类:从生成的mst上,根据距离合并簇分裂:基于mst的分裂,与上述mst凝聚相逆划分算法判定聚类转载 2014-04-14 11:45:00 · 6904 阅读 · 0 评论 -
一文弄懂神经网络中的反向传播法——BackPropagation
最近在看深度学习的东西,一开始看的吴恩达的UFLDL教程,有中文版就直接看了,后来发现有些地方总是不是很明确,又去看英文版,然后又找了些资料看,才发现,中文版的译者在翻译的时候会对省略的公式推导过程进行补充,但是补充的又是错的,难怪觉得有问题。反向传播法其实是神经网络的基础了,但是很多人在学的时候总是会遇到一些问题,或者看到大篇的公式觉得好像很难就退缩了,其实不难,就是一个链式求导法则反复用。如果转载 2017-07-23 15:50:28 · 6348 阅读 · 0 评论 -
推荐算法——非负矩阵分解(NMF)
一、矩阵分解回顾在博文推荐算法——基于矩阵分解的推荐算法中,提到了将用户-商品矩阵进行分解,从而实现对未打分项进行打分。矩阵分解是指将一个矩阵分解成两个或者多个矩阵的乘积。对于上述的用户-商品矩阵(评分矩阵),记为Vm×n,可以将其分解成两个或者多个矩阵的乘积,假设分解成两个矩阵Wm×k和Hk×n,我们要使得矩阵Wm×k和Hk×n的乘积能够还原原始的矩阵Vm×n:Vm×n≈转载 2017-07-08 17:12:36 · 7926 阅读 · 1 评论 -
S型函数:Sigmoid 函数
Sigmoid函数,即f(x)=1/(1+e-x)。神经元的非线性作用函数。(-x是幂数)人工神经网络的学习算法-BP算法 神经网络的学习是基于一组样本进行的,它包括输入和输出(这里用期望输出表示),输入和输出有多少个分量就有多少个输入和输出神经元与之对应。最初神经网络的权值(Weight)和阈值(Threshold)是任意给定的,学习就是逐渐调整权值和阈值使得网络的实际输出和转载 2017-07-07 18:16:07 · 20770 阅读 · 0 评论 -
特征选择 (feature_selection)
当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除移除低方差法外,本文介绍的其他方法均从相关性考虑。根据特征选择的形式又转载 2017-06-13 23:43:04 · 23123 阅读 · 1 评论 -
均方根值(RMS)+ 均方根误差(RMSE)+标准差(Standard Deviation)
1、均方根值(RMS)也称作为效值,它的计算方法是先平方、再平均、然后开方。 2、均方根误差,它是观测值与真值偏差的平方和观测次数n比值的平方根,在实际测量中,观测次数n总是有限的,真值只能用最可信赖(最佳)值来代替.方根误差对一组测量中的特大或特小误差反映非常敏感,所以,均方根误差能够很好地反映出测量的精密度。均方根误差,当对某一量进行甚多次的测量时,取这一测转载 2017-06-13 20:15:11 · 10161 阅读 · 0 评论 -
主成分分析(PCA)原理详解
一、PCA简介1. 相关背景主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。上完陈恩红老师的《机器学习与知识发现》和季海波老师的《矩阵代数》两门课之后,颇有体会。最近在做主成分分析和奇异值分解方面的项目,所以记录一下心得体会。转载 2017-07-04 22:30:01 · 7045 阅读 · 0 评论 -
浅谈协方差矩阵
一、统计学的基本概念统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述:均值:标准差:方差:均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],转载 2017-07-04 21:52:47 · 6355 阅读 · 0 评论 -
相似度算法种类
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分 类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。 为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2,转载 2017-06-12 23:36:38 · 17839 阅读 · 0 评论 -
word2vec 构建中文词向量
词向量作为文本的基本结构——词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐。良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等操作提供了便利,本文将详细介绍如何使用word2vec构建中文词向量。一、中文语料库本文采用的是搜狗实验室的搜狗新闻语料库,数据链接 http://www.sogou.com/labs/resource/转载 2017-07-12 23:05:30 · 10138 阅读 · 2 评论 -
使用 Spark MLlib 做 K-means 聚类分析
摘要: MLlib 是 Spark 生态系统里用来解决大数据机器学习问题的模块。本文将以聚类分析这个典型的机器学习问题为基础,向读者介绍如何使用 MLlib 提供的 K-means 算法对数据做聚类分析,我们还将通过分析源码,进一步加深读者对 MLlib K-means 算法的实现原理和使用方法的理解。引言提起机器学习 (Machine Learning),相信很多计算机从业者都会转载 2017-06-28 18:58:08 · 7963 阅读 · 0 评论 -
面试干货!21个必知数据科学面试题和答案
最近KDnuggets上发的“20个问题来分辨真假数据科学家”这篇文章非常热门,获得了一月的阅读量排行首位。但是这些问题并没有提供答案,所以KDnuggets的小编们聚在一起写出了这些问题的答案。我还加了一个特别提问——第21问,是20个问题里没有的。下面是答案。 Q1.解释什么是正则化,以及它为什么有用。回答者:Ma转载 2017-06-28 17:21:29 · 57145 阅读 · 0 评论 -
如果看了此文你还不懂傅里叶变换,那就过来掐死我吧【完整版】
12345678910作者:韩昊知乎:Heinrich微博:@花生油工人知乎专栏:与时间无关的故事 谨以此文献给大连海事大学的吴楠老师,柳晓鸣老师,王新年老师以及张晶泊老师。 转载的同学请保留上面这句话,谢谢。如果还能保留文章来源就转载 2017-06-02 17:54:53 · 6823 阅读 · 0 评论 -
希腊语 - 希腊字母表对应的意思 - 数据挖掘必备
1 Α α alpha a:lf 阿尔法2 Β β beta bet 贝塔3 Γ γ gamma ga:m 伽马4 Δ δ delta delt 德尔塔5 Ε ε epsilon ep`silon 伊普西龙6 Ζ ζ zeta zat 截塔7 Η η eta eit 艾塔8 Θ θ theta θit 西塔9 Ι ι iota aiot 约塔10 Κ κ kappa kap 卡帕原创 2017-01-17 17:52:10 · 11862 阅读 · 0 评论 -
大数据架构师之路-大数据产品大全
用户画像链接:原创 2016-02-29 15:05:28 · 6950 阅读 · 0 评论 -
皮尔逊相关度系数原理,以及java实现
皮尔森相关度算法解释以及实现原创 2014-12-12 16:53:47 · 12266 阅读 · 0 评论 -
统计学概念基础---数学期望,方差,标准差,协方差
1.基本概念数学期望就是平均值:均值公式:标准差:方差:均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。2.协方差二、为什么需要协方差标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,最简单的是大家上学时免不了要统计多个学科的考试成绩原创 2014-12-12 17:04:47 · 20081 阅读 · 0 评论 -
Mahout安装与配置,以及结果查看
Mahout是Hadoop的一种高级应用。运行Mahout需要提前安装好Hadoop。Hadoop的安装网上很多,并不复杂,这里不再讲述,接下来阐述怎么安装Mahout。1:下载二进制解压安装。到http://labs.renren.com/apache-mirror/mahout/0.7下载,我选择下载二进制包,直接解压及可。hadoop@ubuntu:~$ tar -zxvf转载 2014-04-14 11:49:20 · 7518 阅读 · 0 评论 -
神经网络基础
最近在看深度学习的东西,一开始看的吴恩达的UFLDL教程,有中文版就直接看了,后来发现有些地方总是不是很明确,又去看英文版,然后又找了些资料看,才发现,中文版的译者在翻译的时候会对省略的公式推导过程进行补充,但是补充的又是错的,难怪觉得有问题。反向传播法其实是神经网络的基础了,但是很多人在学的时候总是会遇到一些问题,或者看到大篇的公式觉得好像很难就退缩了,其实不难,就是一个链式求导法则反复用。如果转载 2017-07-23 15:55:48 · 6635 阅读 · 0 评论