
算法
余音丶未散
J2EE,机器学习,Hadoop,Spark,时间序列分析
展开
-
Cayley定理在组合数学中的应用
Cayley定理又称凯莱定理过n个有标志顶点的树的数目等于n^(n-2)可以实现将树转化成一个一一对应的序列,根据规则可以互相转化。第一步:树转化成一一对应的序列任给一颗有n个标号的树,逐个摘取标号最小的叶子直到剩下最后一条边为止叶子的相邻顶点形成一个序列,序列长度为n-2 (序列可以是重复出现的数)第二步:把序列转化成树a序列为叶子的相邻顶点形成的序列,b序列为1原创 2016-05-05 10:15:02 · 2152 阅读 · 0 评论 -
聚类与距离学习笔记
距离距离度量的基本性质非负性:d(x1,x2)>0 同一性:d(x1,x2)=0 当且仅当 x1=x2 对称性:d(x1,x2)=d(x2,x1) 直递性:d(x1,x3)<=d(x1,x2)+d(x2,x3)闵可夫斯基距离适用于有序属性 (eg:1,2),与数据的分布无关,具有一定的局限性,x过大y过小会放大x影响,需要做标准化,适用于假设数据各个维度互不相关。 闵氏距离的缺点主要有两个:原创 2017-02-07 12:23:50 · 3447 阅读 · 0 评论 -
gcForest算法理解
介绍gcForest(multi-Grained Cascade forest 多粒度级联森林)是周志华最新提出的新的决策树集成方法。这种方法生成一个深度树集成方法(deep forest ensemble method),使用级联结构让gcForest学习。 gcForest模型把训练分成两个阶段:Multi-Grained Scanning和Cascade Forest。Multi-Grain原创 2017-03-10 16:55:03 · 8175 阅读 · 6 评论 -
R语言随机森林
R语言随机森林回归树模型(CART)决策树是一种倒立的树结构,它由内部节点、叶子节点和边组成。其中最上面的一个节点叫根节点。 构造一棵决策树需要一个训练集,一些例子组成,每个例子用一些属性(或特征)和一个类别标记来描述。构造决策树的目的是找出属性和类别间的关系,一旦这种关系找出,就能用它来预测将来未知类别的记录的类别。这种具有预测功能的系统叫决策树分类器。其算法的优点在于:1)可以生成可以原创 2016-06-11 17:16:00 · 5499 阅读 · 0 评论 -
R多元线性回归
多元线性回归 统计建模与R软件-薛毅书p325选择自变量建立多元线性模型> data(swiss)> s=lm(Fertility~ .,data=swiss) #除因变量Fertility其他所有当自变量> print(s)模型汇总信息> summary(s) #查看相关性系数逐步回归:向前引入法:从一元回归开始,逐步增加变量,使指标值达到最优为原创 2016-05-31 15:56:18 · 1363 阅读 · 0 评论 -
R分类
分类传统意义下的分类:生物物种预测:天气预报决策:yes or no分类的传统模型常见分类模型与算法 线性判别法 距离判别法 贝叶斯分类器 决策树 支持向量机(SVM) 神经网络线性判别法(Fisher)G=c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2)x1=c(-1.9,-6.9,5.2,5.0原创 2016-05-31 16:17:37 · 1004 阅读 · 0 评论 -
基于R语言的模型组合
组合预测模型---基于R语言的模型组合 算术平均法、 最优权数法、 方差倒数法模型中各参数的 t 值均显著 ,且通过 F 检验和拟合忧度检验c=c(1:20)b=c-0.1a=c-0.3方差倒数法e1=sum((c-b)^2)e2=sum((c-a)^2)w1=(1/e1)/(1/e1+1/e2)w2=(1/e2)/(1/e1+1/e2)原创 2016-06-01 20:44:58 · 3203 阅读 · 1 评论 -
R聚类
聚类关键度量指标:距离距离的定义常用距离(薛毅书P469)绝对值距离 manhattan欧氏距离Euclide euclidean闵可夫斯基距离切比雪夫距离Chebyshev maximum马氏距离Lance和Williams距离 Lance canberra Williams minkowski离散变量的距离计算dist( )函数原创 2016-06-04 10:02:14 · 1546 阅读 · 0 评论 -
R主成分分析与因子分析
主成分分析通过将维把多个变量化成几个主成分的方法基本思想:设法将原先众多具有一定相关性的指标,重新组合为一组新的互相独立的综合指标,并代替原先的指标studentX1=c(148, 139, 160, 149, 159, 142, 153, 150, 151, 139,140, 161, 158, 140, 137, 152, 149, 145, 160, 156,151, 147原创 2016-06-11 17:17:55 · 1331 阅读 · 0 评论 -
R-xgboost模型
R-xgboost模型 是"极端梯度上升"(Extreme Gradient Boosting)的简称xgboost: 速度快效果好的boosting模型install.packages("xgboost")library(xgboost)data(agaricus.train, package='xgboost')data(agaricus.test, package='xgbo原创 2016-05-31 15:51:40 · 5079 阅读 · 0 评论 -
组合预测模型
组合预测模型---基于R语言的模型组合 组合预测模型的普遍形式为各个单项预测模型的加权平均, 因此组合预测模型的重点在于加权系数的确定。如果对各个单项预测模型的加权系数赋值合理, 那么整个组合预测模型的预测精度也会相应提高。目前常用的方法有算术平均法、 最优权数法、 方差倒数法等方差倒数法是 Bates 和 Granger 曾提出的, 其基本原理是: 首先计算各个单项预测模型的误差平方原创 2016-05-20 15:10:48 · 21204 阅读 · 7 评论 -
相似URL判定及字符串相似度距离
相似URL判定edit distance缺点 基于结构来判断URL相似度,去掉数字。字符串是否也需要去掉自身只保留结构,或者保留存在长度的结构,可以根据情况来灵活取舍。抽象一下特征 1、站点特征:如果两个url站点一样,则特征取值1,否则取值0; 2、目录深度特征:特征取值分别是两个url的目录深度是否一致; 3、一级目录特征:在这维特征的取值上,可以采用多种方法,比如如果一级目录名字相同则特原创 2017-08-28 08:29:41 · 3313 阅读 · 0 评论