wanghailong000-优快云博客

原创 TensorFlow简单学习1

使用TensorFlow 构建简单的线性模型，模型使用以及使用tensorboard显示直接上代码：#coding:utf-8import tensorflow as tfimport numpy as npfrom pip._vendor.requests.sessions import session# create a input placeholder to as a input s

2016-12-22 15:22:57 394

转载 k-means++

K-Means主要有两个最重大的缺陷——都和初始值有关： K 是事先给定的，这个 K 值的选定是非常难以估计的。很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适。（ ISODATA 算法通过类的自动合并和分裂，得到较为合理的类型数目 K）K-Means算法需要用初始随机种子点来搞，这个随机种子点太重要，不同的随机种子点会有得到完全不同的结果。（K-Means++算法

2016-12-13 10:24:29 550

原创 PCA 和 SVD

经常把PCA和SVD搞乱了，而且理解不是特别的深，特此记录，欢迎指正先扯点线性代数的知识：（1）设M是n阶方阵，如果对任何非零向量z，都有zTMz> 0，其中zT 表示z的转置，就称M正定矩阵。判定：如果M的特征值全部为正，则M也为正定矩阵。（2）一个n阶方阵A称为可逆的，或非奇异的，如果存在一个n阶方阵B，使得并称B是A的一个逆矩阵。不可逆的

2016-12-01 13:51:26 549

原创 mahout聚类结果的输出和可视化

1、在mahout中，org.apache.mahout.utils.clustering.ClusterDumper类可以将聚类结果输出，如果是打印在控制台，则可以使用： ClusterDumper clusterdumper=new ClusterDumper(sequentialfile,clusterpoints); clusterdumper.printClusters

2016-11-30 21:15:47 2665

转载贝叶斯线性回归/贝叶斯脊回归

参考资料：1、http://blog.youkuaiyun.com/daunxx/article/details/517250862、http://blog.youkuaiyun.com/dark_scope/article/details/85582443、http://blog.sina.com.cn/s/blog_6a72f8250101eln3.html

2016-11-29 10:27:14 3026

原创阅读资料

http://blog.youkuaiyun.com/daunxx/article/details/51725086#最大后验估计https://mqshen.gitbooks.io/prml/content/Chapter4/bayesian/laplace.htmlhttp://blog.sina.com.cn/s/blog_6a72f8250101eln3.html

2016-11-28 22:45:41 393

原创 mahout之canopy聚类算法

mahout中数据挖掘算法是运行在hadoop之上的分布式算法，可以分布式运行也可以在单机上运行。这篇博文是本人你学习mahout算法的开始，以下是个人对mahout中实现的canopy的理解，如果错误，欢迎纠正首先下载mahout-0.12的源码，解压后有个examples文件夹，该文件夹里面有对mahout算法使用的例子，打开\examples\src\main\java\

2016-11-24 17:41:46 987

原创 eclipse中maven项目配置日志输出

经常会忘记怎么在maven项目中正确配置日志输出配置，然后每次还要去查下，至此记录以备忘：1、在pom.xml文件夹下添加日志依赖： org.slf4j slf4j-api 1.7.5 org.slf4j slf4j-log4j12 1.7.12

2016-11-22 15:45:38 9345

转载机器学习之最小二乘法

最小二乘法：我们以最简单的一元线性模型来解释最小二乘法。什么是一元线性模型呢？监督学习中，如果预测的变量是离散的，我们称其为分类（如决策树，支持向量机等），如果预测的变量是连续的，我们称其为回归。回归分析中，如果只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，

2016-11-14 13:01:27 466

转载自编码器

自编码器是一种无监督学习的前馈神经网络，网络结构有三层：输入层、隐层和输出层：如图（图盗的）：其中输入层的神经元个数表示输入数据的维度，输出层的神经元个数表示输出数据的维度，因为自编码器的思想是使得输入等于输出，来进行参数训练，所以输入层的神经元个数等于输出层的神经元个数训练步骤：（1）初始化每一层的W矩阵和b向量，选择随机梯度下降的学习率，选择神经元

2016-11-09 17:45:56 452

原创 maven国内镜像

之前一直没有在setting.xml中添加镜像地址，用的是默认中央仓库地址，下载速度非常的慢，在添加hadoop-core-2.6.0时，还没有。然后就添加了国内镜像地址。1、打开eclipse->preferences->maven->user-setting查看你eclipse使用的本地maven的的配置文件的位置2、找到Setting.xml文件，打开文件，在页签中间添加如下:

2016-11-08 14:29:43 2179

wanghailong000的博客