
算法
文章平均质量分 60
刀砍磁感线
这个作者很懒,什么都没留下…
展开
-
scala实现Hash函数
在做spark graphx计算时,图的边表初始化,通常需要转化为 srcId,dstId,property 的形式,其中srcId,dstId 需要转化为数字以压缩数据,提高计算效率。即,在分布式spark程序中将字符串转化为正整数的问题。要想实现该功能,有两种方法,首先可以,先收集顶点表,然后逐个设置顶点编号,但是这种方法通常需要线性计算,费时费力。另外一种方法便是运用哈希函数的方式,把对应的原创 2015-04-29 18:59:47 · 6212 阅读 · 0 评论 -
梯度法(SGD)、拟牛顿法(LBFGS)与共轭梯度法(CG)
一、基本原理梯度法:由一阶泰勒级数展开式,f(x+dx) = f(x) + sum(i,df/dx(i)*dx(i)) + r(x,dx)。其中r(x,dx)为余项,当dx很小时,可忽略余项。推倒得迭代:x=x+dx=x-miu*dfx。优点:可收敛于一个极小值点。缺点:收敛速度慢,在梯度值小时尤为明显。学习率miu需要依据经验赋值。牛顿法: 由二阶泰勒级数原创 2015-07-14 18:15:26 · 11096 阅读 · 0 评论 -
分类算法中的ROC与PR指标
基本概念True Positives,TP:预测为正样本,实际也为正样本的特征数False Positives,FP:预测为正样本,实际为负样本的特征数(错预测为正样本了,所以叫False)True Negatives,TN:预测为负样本,实际也为负样本的特征数False Negatives,FN:预测为负样本,实际为正样本的特征数(错预测为负样本了,所以叫False)接着往下做做转载 2015-07-13 12:30:54 · 1634 阅读 · 0 评论 -
pca 主成分分析
1、数据标准化2、计算相关系数矩阵R3、计算特征值与特征向量4、选择主成分(信息贡献率累计大于70%)5、选取主成分特征向量,构造高维到低维的数据映射。原创 2015-05-25 18:20:12 · 690 阅读 · 0 评论 -
svd矩阵奇异值分解
matlab svd:s = svd(X)[U,S,V] = svd(X)[U,S,V] = svd(X,0)[U,S,V] = svd(X,'econ')s为 奇异值矩阵;u为 XXt 的对应特征向量;v为 XtX 的对应特征向量。 SVD的第一个作用之低秩近似(Low Rank Approximation):如果我们只保留前k个最大的奇异值,前k原创 2015-05-25 18:16:23 · 1477 阅读 · 0 评论 -
MATLAB卷积运算(conv、conv2、convn)
conv(向量卷积运算)所谓两个向量卷积,说白了就是多项式乘法。比如:p=[1 2 3],q=[1 1]是两个向量,p和q的卷积如下:把p的元素作为一个多项式的系数,多项式按升幂(或降幂)排列,比如就按升幂吧,写出对应的多项式:1+2x+3x^2;同样的,把q的元素也作为多项式的系数按升幂排列,写出对应的多项式:1+x。卷积就是“两个多项式相乘取系数”。(1+2x+3x原创 2015-06-26 17:04:33 · 46417 阅读 · 1 评论 -
数据预处理-归一化与z-score标准化
归一化:归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量。 在多种计算中都经常用到这种方法。线性函数转换:y=(x-MinValue)/(MaxValue-MinValue)说明:x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值。对数函数转换:y=log10(x)说原创 2015-06-25 11:32:30 · 74022 阅读 · 0 评论 -
集成学习方法
转自:http://mp.weixin.qq.com/s?__biz=MjM5MTQ4NzgwNA==&mid=207350122&idx=4&sn=3fc116b63661fec04b0e30e5a95edbf4#rd一、集成学习方法的思想前面介绍了一系列的算法,每个算法有不同的适用范围,例如有处理线性可分问题的,有处理线性不可分问题。在现实世界的生活中,转载 2015-06-19 13:48:04 · 2911 阅读 · 0 评论 -
svm支持向量机
支持向量机,是数据挖掘中的一项新技术。其借助最优化方法来解决机器学习问题。主要思想为:找到一个超平面,使得它能尽可能多的将两类数据点正确分开,同时,使两类数据点距离分类面最远。主要形式及变化方式:线性可分支持向量机,通过引入松弛变量,变为线性支持向量机;线性可分支持向量机,通过引入核函数,变为可分支持向量机;线性可分支持向量机,通过引入松弛变量、核函数,原创 2015-05-27 17:55:14 · 554 阅读 · 0 评论 -
UV分解
原理: 将 M(n*m) 分解为 U(n*d) V(d*m) 。目的: 最大化的拟合M已知点,以预测M的未知点。评估: 已知点的 RMSE (最小化误差平方和)。寻优: 梯度方法(也可其他)过拟合: 多次或组合方式原创 2015-05-25 18:29:54 · 6456 阅读 · 0 评论