
Machine Learning
zkq_1986
这个作者很懒,什么都没留下…
展开
-
【检索】groupwise scoring functions (GSF)分组评分函数
输入:一组文本输出:两两文本间的相对相关性。参考文献:Ai Q, Wang X, Golbandi N, et al. Learning groupwise scoring functions using deep neural networks[J]. 2019.原创 2020-03-17 19:52:30 · 552 阅读 · 0 评论 -
【机器学习】决策树之CART算法原理
CART生成算法(分类树) 在这里需要提一下基尼系数: 注意:基尼指数也表示样本的不确定性,基尼指数值越大,样本集合的不确定性越大。 算法实现步骤: 1)计算现有样本DD的基尼指数,之后利用样本中每一个特征AA,及AA的每一个可能取值aa,根据A>=aA>=a与A<aA<a将样本分为两部分,并计算Gini(D,A)Gini(D,A)值 2)找出对应基尼指数最小Gini(D,...转载 2018-04-03 14:27:09 · 428 阅读 · 0 评论 -
【机器学习】多标签分类multi-label classification总结
多标签学习算法分为量大类:1)改造数据适应算法2)改造算法适应数据1 改造数据(1)二分类用L个分类器,分别对应L个标签,进行训练。(2)标签排序+二分类利用“成对比较”(pairwise comparison),获得L(L-1)/2个分类器,然后利用投票,得到标签的排序。接着,利用二分类,补充标签排序的投票结果,提高准确性。(3)随机k标签从L个标签随机取得k个标签,重复n次,获得n个分类器。这...原创 2018-03-02 11:35:22 · 33818 阅读 · 3 评论 -
2016大数据创新大赛——机场客流量的时空分布预测模型解析
2016大数据创新大赛——机场客流量的时空分布预测模型解析大数据史记 2017-04-05 19:07:20 浏览3171 评论1大数据创新大赛 机场客流量 时空分布预测 时序模型摘要: 在大数据创新大赛上,来自浙江大学的SeaSide团队带来了关于机场客流量的时空分布预测的解决方案。SeaSide团队主要从时序模型、乘机流程、事件驱动、维度灾难四个方面转载 2018-03-15 19:51:51 · 7693 阅读 · 1 评论 -
系统聚类(层次聚类)
1 概述系统聚类,又称层次聚类,其大体步骤: 1)先将每个样本自成一类; 2)将所有类中距离最小的两个类合并为一类; 3)重复步骤2),直至最终仅剩一个类。 这样一种连续的过程可用一种类似于树状结构的类型即聚类谱系图(俗称树状图)来表示。 按类之间的距离计算方法划分,我们可将系统聚类分为6 离差平方和(Ward’s)原创 2016-08-02 15:19:59 · 6229 阅读 · 0 评论 -
【聚类】DBScan密度聚类
1 DBScan密度聚类算法(1)找到若干个核心对象。核心对象是指以该对象为核心,画一个给定半径r,至少包含给定阈值的样本数。 (2)分别从核心对象出发,找到该对象密度直达和可达的样本,归为一类。密度直达是指,以核心对象为中心,处在同一个半径之内的样本。密度可达是指,核心对象以密度直达的点为跳板可连接到的样本,这些跳板点同时需要也是核心对象。 (3)结束。原创 2016-11-14 19:16:18 · 515 阅读 · 0 评论 -
【机器学习】NP问题、P问题、NPC问题
NP的英文全称是Non-deterministic Polynomial的问题,即多项式复杂程度的非确定性问题。P类问题:所有可以在多项式时间内求解的判定问题构成P类问题。判定问题:判断是否有一种能够解决某一类问题的能行算法的研究课题。NP类问题:所有的非确定性多项式时间可解的判定问题构成NP类问题。非确定性算法:非确定性算法将问题分解成猜测和验证两个阶段。NPC问题:转载 2018-01-08 14:30:51 · 11959 阅读 · 0 评论 -
【机器学习】Logistic逻辑回归详解
1 Logistic回归模型公式推导原创 2017-12-15 17:31:59 · 252 阅读 · 0 评论 -
【机器学习】MAP最大后验估计和ML最大似然估计区别
MAP:maximun a posteriori 最大后验估计ML:maximun likelihood.1 MAPA maximum a posteriori probability (MAP) estimate is an estimate of an unknown quantity, that equals the mode of the posterior d原创 2017-10-16 21:50:38 · 5865 阅读 · 0 评论 -
【机器学习】GBDT算法原理
GBDT算法原理GBDT是集成学习中的一种方法,它将梯度作为后一棵树的输入,来学习出多颗树。通过多棵树的协作,完成一个泛化能力很强的综合学习器。具体的GBDT算法如下。算法:算法第1步初始化,估计使损失函数极小化的常数值,它是只有一个根节点的树。第2(a)步计算损失函数的负梯度在当前模型的值,将它作为残差的估计。对于平方损失函数,它就是通常所说的残差;对于一般损失函数,它就是残差的近似值。第2(b...原创 2018-04-03 17:03:57 · 335 阅读 · 0 评论 -
【机器学习】方差和偏差
高方差、低偏差对应过拟合。表示训练数据集和测试数据集上模型所表现出的泛化性能差别较大。低方差、高偏差对应欠拟合。方差是多个数据集训练出的多个模型间预测值的比较;偏差单个数据集中单个模型预测值与真实值之间的差异。对一个学习算法除了通过实验估计其泛化性能,还需要更好的了解泛化能力的原因,偏差-方差分解时解释算法泛化性能的一种重要的工具。 对于测试样本x,令yD为x在数据集中的标记(可能存在噪声导致标...转载 2018-04-04 14:42:40 · 308 阅读 · 0 评论 -
【机器学习】Ranking SVM原理
假定有x1,x2,x3三个点,查询q,对应的查询排序结果为x1,x2,x3。那么可获得新的点,即x1-x2,x1-x3, x2-x3, x2-x1,x3-x1,x3-x2,它们的标签分别为1,1,1,-1,-1,-1。有了数据点,以及标签,就领用传统的SVM,训练出超平面。在测试的时候,我们就把一个query的所有结果先构建所有可能的pair,然后输入到学习到的模型中,得到每个pair的相...原创 2019-01-09 20:03:00 · 2248 阅读 · 0 评论 -
【机器学习】两分布间距离的度量:MMD、KL散度、Wasserstein 对比
MMD:最大均值差异Wasserstein距离[1] 实验 数据来源Amazon review benchmark dataset. The Amazon review dataset is one of the most widely used benchmarks for domain adaptation and sentiment analysis. It is colle...原创 2019-01-10 15:00:31 · 8946 阅读 · 0 评论 -
【迁移学习】特征空间相同、概率分布不同的概念
特征空间相同,是指包含的特征个数一致。举个例子,一张图,经过不同光照、角度,裁剪等变形后,所得的特征空间还是相同,而它们的概率分布就发生变化。在迁移学习中,特征空间相同、概率分布不同,称为同构迁移。特征空间不同、概率分布不同,称为异构迁移。 ...原创 2018-12-19 11:45:03 · 3373 阅读 · 0 评论 -
【机器学习】图像中的降噪方法之一:低秩降噪
概述近几年,低秩矩阵恢复(LRMR)广泛用于图像处理用途图像恢复,比如去噪、去模糊等。一幅清晰的自然图像其数据矩阵往往是低秩或者近似低秩的,但存在随机幅值任意大但是分布稀疏的误差破坏了原有数据的低秩性。低秩矩阵恢复是将退化图像看做一组低维数据加上噪声形成的,因此退化前的数据就可以通过低秩矩阵来逼近。设B为模糊图像,根据低秩分解有B=I+N,其中I为清晰图像,是低秩的。N为噪声具有稀疏性。...原创 2018-12-17 11:04:52 · 5587 阅读 · 0 评论 -
【机器学习】交叉熵为什么能当损失函数
交叉熵为什么能当损失函数?因为最小化交叉熵与最小化KL散度等价。KL散度越小,说明两个分布越接近。下面证明最小化交叉熵与最小化KL散度等价。证明:A的熵的公式:A与B KL散度的公式:A与B交叉熵的公式:因此,A与B的交叉熵 = A与B的KL散度 - A的熵A的熵表示真实数据的熵,该值固定。所以最小化A与B的交叉熵和最小化A与B的KL散度等价。 p....原创 2018-11-30 11:55:05 · 329 阅读 · 0 评论 -
【机器学习】算法模型性能中的偏差、方差概念
什么时候模型的复杂程度该停止?模型越复杂,单次预测出的结果与真实结果的偏差(bias)就越小。但很容易引发过拟合。模型越简单,预测不同数据,预测的准确性差别越小。预测不同数据,所得到的准确性构成序列,序列的方差(variance)也就越小。...原创 2018-11-19 16:09:06 · 296 阅读 · 0 评论 -
【pyTorch】基于pyTorch进行分类的简单例子
import torchimport torch.nn.functional as Fimport matplotlib.pyplot as pltfrom torch.autograd import Variablen_data = torch.ones(100, 2) # 生成一个100行2列的全1矩阵x0 = torch.normal(2 * n_data, 1) # 利用...转载 2018-11-12 16:26:00 · 2825 阅读 · 0 评论 -
【机器学习】boosting和bagging
Boosting 是一族可将弱学习器提升为强学习器的算法,这族算法的工作机制类似:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多的关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直至基学习器数目达到事先指定的值T,最终将这T个基学习器进行加权结合。随着迭代不断进行,误差会越来越小,所以模型的偏差 bias...转载 2018-04-04 17:01:51 · 213 阅读 · 0 评论 -
【机器学习】Xgboost原理
Xgboost Xgboost是GB算法的高效实现,xgboost中的基学习器除了可以是CART(gbtree)也可以是线性分类器(gblinear)。下面所有的内容来自原始paper,包括公式。 (1). xgboost在目标函数中显示的加上了正则化项,基学习为CART时,正则化项与树的叶子节点的数量T和叶子节点的值有关。 (2). GB中使用Loss Fu转载 2017-10-30 14:55:44 · 523 阅读 · 0 评论 -
【机器学习】multi-label 分类
multi-label 分类多标记学习框架中,每个样本可能同时隶属于多个类别标记.因此,与单标记学习系统相比,多标记学习系统的评价准则要更加复杂些.到目前为止,已提出了许多多标记学习系统的性能评价准则. 假设测试集,并根据预测函数fl(x),定义一个排序函数rankf(x,l)Î{1,…,L},如果fl(x)>fk(x),则rankf(x,l)rankf(x,k). 本文选取了5种常用的评原创 2017-10-27 09:21:56 · 2865 阅读 · 0 评论 -
相似性度量
相似性度量 1 相似性度量种类相似性度量,通常采样距离来衡量。距离的计算有以下几种:(1)欧式距离(2)曼哈顿距离。计算曼哈顿街区距离,而不是直线距离。(3)皮尔森相关系数。衡量线性相关性。斯皮尔曼相关系数,衡量单调相关性。(4)Jaccard距离。集合交集除以并集。(5)Cos距离。余弦相似度。(6)编辑距离。是指两个字串之间,由一个转成另一个所需的最少编辑操原创 2017-09-01 18:39:08 · 396 阅读 · 0 评论 -
机器学习模型评估与选择
1 模型评估在数据量充足情况下,对比不同算法,通常采用如下步骤: 1)将数据集分成训练、验证、测试三部分子数据集; 2)训练和验证两个子数据集随机变换,训练模型;对得到的模型用验证数据验证,得到验证误差; 3)选择验证误差最小的那个模型作为最终模型,这个模型就是我们要选择的最佳模型; 4)用最佳模型去跑测试数据集,即可得到该模型的预测误差。不同算法的预测效果就从该预测误差体现出来。2 模型选原创 2016-08-18 14:33:56 · 620 阅读 · 0 评论 -
支持向量机(SVM)
1 什么是SVM在样本空间中,划分超平面可通过如下线性方程来描述: WTx+b=0W^Tx+b=0 其中w=(w1;wd;...;wd)w=(w_1;w_d;...;w_d)为法向量,决定了超平面的方向;b为位移项(一个数,不是向量),决定了超平面与原点之间的距离。 离超平面最近的几个正、负样本点,就称为超平面的支持向量(support vector)。 其中m为训练样本数。2 对偶问题原创 2016-10-09 20:05:43 · 519 阅读 · 0 评论 -
【聚类】性能度量
聚类的性能是很难度量,因为它是从数据中学习,并归类。数据的特性的多方面的,那么归类的结果也会是多种。比如苹果,可以从颜色(红、绿)也可以从形状(圆的、椭圆的)归类,没有一定的形式。 但是我们还是试图找到一些方法来评价聚类算法的性能。主要分为外部指标和内部指标两大类。外部指标是指,将结果与“参考的模型”(分好类)进行对比;内部指标是指,直接利用自身的聚类结果进行评价。1 常用的外部指标(1)Jacc原创 2016-11-12 17:17:58 · 2934 阅读 · 0 评论 -
Hinge loss function
1公式 Hinge loss损失函数l(y)主要用于SVM的参数w和b的训练中,其形式为: ℓ(y)=max(0,1−t⋅y)\ell(y) = \max(0, 1-t \cdot y) 其中t表示1或-1的类别,y表示样本的实际位置,且有|y|>=1。 如果y分到正确的类,即与t同方向,那么l(y)=0,否则l(y)>0。对于样本x,其y值为wb(w已经将原本的w和b合并成一个),那么l(原创 2016-11-12 15:57:58 · 1200 阅读 · 0 评论 -
决策树Decision Tree
1 决策树流程决策树遵循的是“分而治之”的策略流程。 2 信息熵信息熵(information entropy),是衡量事物不确定的指标。 Ent(D)=−∑k=1|y|pklog2pk\displaystyle \mathrm {Ent} (D)=-\sum _{k=1}^{|y|}{\mathrm {p_klog_2p_k} } 在信息增益度量中,熵值越小越好。3 CART决策树CART,原创 2016-09-19 20:32:50 · 458 阅读 · 0 评论 -
核函数K(kernel function)
1 核函数K(kernel function)定义核函数K(kernel function)就是指K(x, y) = <f(x), f(y)>,其中x和y是n维的输入值,f(·) 是从n维到m维的映射(通常,m>>n)。<x, y>是x和y的内积(inner product)(也称点积(dot product))。举个小小栗子。令 x = (x1, x2, x3, x4); y = (y1, y2,转载 2016-09-06 11:16:03 · 16614 阅读 · 2 评论 -
贝叶斯网络
1 贝叶斯网络概念贝叶斯网络是用于解决从已知观测变量值推测未知观测变量值的概率。贝叶斯网络是从变量(属性)间构成的有向无环图得到无向图,即moral graph(道德图),通过无向图,得到变量间的条件独立关系。原创 2016-10-18 20:29:02 · 467 阅读 · 0 评论 -
梯度下降法、坐标下降法、牛顿迭代法
梯度下降法 一般形式: x(t+1)=x(t)−a.grad(f(x(t))x^{(t+1)}=x^{(t)}-a.grad(f(x^{(t)}) 迭代停止条件: 各个分量的偏导数为0,即达到极小点。坐标下降法1.首先给定一个初始点,如 X_0=(x1,x2,…,xn); 2.for x_i=1:n 固定除x_i以外的其他维度 以x_i为自变量,求取原创 2016-08-25 19:11:33 · 9855 阅读 · 2 评论 -
Logistic回归原理详解2
Logistic回归 1 Logistic回归模型公式推导2 Spark logistic pseudo//训练def train(data: RDD[(Double, Vector)], stepSize: Double, numIterations原创 2017-03-22 16:18:35 · 609 阅读 · 0 评论 -
【搜索排序】Learning to rank
Learning to rankLearning to rank根据人工标记的查询排序评分结果,训练出一个模型,预测新的查询结果的排序。训练模型的方法包括:单文档、文档对、文档列表。1 单文档单文档方法的处理对象是单独的一篇文档,将文档转换为特征向量后,机器学习系统根据从训练数据中学习到的分类或者回归函数对文档打分,打分结果即是搜索结果。下面我们用一个简单的例子说明转载 2017-09-07 14:45:45 · 474 阅读 · 0 评论 -
基于用户投票的排名算法:威尔逊区间
基于用户投票的排名算法:威尔逊区间1 威尔逊区间排名算法就比较清晰了: 第一步,计算每个项目的"好评率"(即赞成票的比例)。 第二步,计算每个"好评率"的置信区间(以95%的概率)。 第三步,根据置信区间的下限值,进行排名。这个值越大,排名就越高。1927年,美国数学家 Edwin Bidwell Wilson提出了一个修正公式转载 2017-08-23 16:28:30 · 1350 阅读 · 0 评论 -
【算法】热度排行算法
1 Reddit从上面的代码级公式中我们可以了解到Reddit的排名算法主要与以下内容有关:1、文章的发表时间tt = 发表时间 – 2005 年 12 月 8 日7:46:43在上一篇 Hacker News的文章中,用来标注文章新旧程度的单位为小时,而Reddit的单位为秒,其使用Unix时间戳(从1970年1月1日到当前时间的秒数)进行的计算,代码转载 2017-08-22 12:46:51 · 14094 阅读 · 0 评论 -
Minimax准则
Minimax准则1 Minimax准则Minimax准则是指,在最大的风险函数中取最小。具体地说,考察两个策略,策略1产生的风险(损失)中会有一个最大的风险值M1;策略2产生的风险中也会有一个最大的风险值M2,如果M2minimax准则是一种保守的优良性准则。贝叶斯学派认为,只是人们对theta的先验分布很没把握的时候,作为一种替代,才使用minimax解。只要对先验分布原创 2017-08-17 16:45:27 · 2267 阅读 · 0 评论 -
聚类
聚类1 聚类的类型K-means、高斯混合聚类、密度聚类、层次聚类等等它们的聚类结果略有不同。如下图: K-means聚类结果高斯混合聚类结果密度聚类结果密度聚类概念层次聚类结果 2 高斯混合聚类通过K个高斯分布按一定比例混合而成,一个高斯分布代表一个原创 2017-05-25 10:04:16 · 1196 阅读 · 0 评论 -
L1和L2正则化
L1和L2正则化L1与L2正则化都是防止模型过拟合,其方式略有不同。具体请见下文。1 L1正则化L1正则化(1范数)是指,各权值(变量、特征)绝对值之和。其作用是产生权值的稀疏模型,也就是让大部分权值为0.为什么能产生权值稀疏模型?因为如下图所示,各权值绝对值之和后得到一个矩阵,很容易在矩阵的顶点位置使得目标函数为极值,此时大部分权值就为0。适用场景:线性回归2原创 2017-05-24 14:50:39 · 485 阅读 · 0 评论 -
ROC与AUC的计算
ROC全称是“受试者工作特征”(Reciver Operating Characteristic)曲线。AUC,曲线下面积(Area Under Curve)。ROC的计算过程:各梯度面积相加原创 2017-05-24 09:56:48 · 478 阅读 · 0 评论 -
随机森林(Random Forest, RF)
RF方法:1. 训练集获取利用bootstrap方法,选取m个样本,获得一个训练子集;重复T遍,获得T个训练子集。2. 训练以决策树作为基分类器。随机从属性集中随机选择k个属性,针对k个属性,采用传统的最优属性划分方法进行属性划分。对T个训练集进行训练,就得到T个不同的基分类器。3.预测针对分类任务,利用投票方式预测。针对回归任务,利用简单平均方式预测。原创 2017-04-06 16:00:43 · 525 阅读 · 0 评论 -
oneVsRest.data
0 1:1 2:0 3:1 1 1:1 2:0 3:0 0 1:1 2:0 3:1 1 1:1 2:1 3:3 1 1:1 2:1 3:2 2 1:2 2:2 3:1 2 1:2 2:2 3:2 2 1:2 2:2 3:3 0 1:1 2:0 3:2 1 1:1 2:0 3:3 0 1:1 2:0 3:4 1 1:1 2:1 3:3 1 1:1 2:1 3:4 1 1:1原创 2016-11-05 17:09:57 · 339 阅读 · 0 评论