
Machine Learning
文章平均质量分 93
Tcorpion
写着代码,喜欢着东方姑娘,陈乔恩
展开
-
局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍
局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍本文主要介绍一种用于海量高维数据的近似最近邻快速查找技术——局部敏感哈希(Locality-Sensitive Hashing, LSH),内容包括了LSH的原理、LSH哈希函数集、以及LSH的一些参考资料。一、局部敏感哈希LSH在很多应用领域中,我们面对和需要处理的数据往往是转载 2017-06-15 23:40:58 · 663 阅读 · 1 评论 -
关于特征工程入门中的一些基本知识(整理)
from: http://blog.youkuaiyun.com/big_talent/article/details/53887238写在最前,因为工作的原因需要了解特征工程的具体的做法,然后找资料找了jasonfreak的这篇文章http://www.cnblogs.com/jasonfreak/p/5448385.html比较详细的讲解了特征工程的一些流程,好像最先发表在知乎,其中的流程图不要画转载 2017-10-08 18:33:29 · 898 阅读 · 0 评论 -
线性判别分析(Linear Discriminant Analysis, LDA)算法分析
from: http://blog.youkuaiyun.com/warmyellow/article/details/5454943LDA算法入门 一. LDA算法概述:线性判别式分析(Linear Discriminant Analysis, LDA),也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD),是模式识别的经典算法,它是转载 2017-10-09 11:09:37 · 553 阅读 · 0 评论 -
最近邻搜索之乘积量化(Product Quantizer)
===================================================http://blog.youkuaiyun.com/CHIERYU/article/details/50321473===================================================简介Product Quantizer是由Herv´e J´egou等人2转载 2017-11-14 16:38:24 · 4995 阅读 · 0 评论 -
KL距离
KL散度(Kullback-Leibler_divergence)KL-divergence,俗称KL距离,常用来衡量两个概率分布的距离。根据shannon的信息论,给定一个字符集的概率分布,我们可以设计一种编码,使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是X,对x∈X,其出现概率为P(x),那么其最优编码平均需要的比特数等于这个字符集的熵:H(X原创 2017-11-15 15:51:49 · 877 阅读 · 0 评论 -
PCA详细讲解、ZCA、 Whitening、SVD
----------------博主很懒,看到写得详细的讲得好的算法博文,直接放链接就走了------------------------PCA详细讲解,浅显易懂http://www.360doc.com/content/13/1124/02/9482_331688889.shtml原创 2017-06-05 15:22:10 · 641 阅读 · 0 评论 -
ROC曲线与AUC值 (转)
from: https://www.cnblogs.com/gatherstars/p/6084696.htmlROC曲线与AUC值本文根据以下文章整理而成,链接:(1)http://blog.youkuaiyun.com/ice110956/article/details/20288239(2)http://blog.youkuaiyun.com/chjjunking/artic转载 2017-12-27 21:37:56 · 704 阅读 · 0 评论 -
计算机视觉三大顶级国际会议和国外知名期刊投稿
第一次写英文文章,2018-1-30投了个IEEE SIGNAL PROCESSING LETTERS,不知道命运如何,mark。中国计算机学会推荐国际学术会议和期刊目录http://history.ccf.org.cn/sites/ccf/paiming.jsp武汉大学计算机视觉与遥感实验室http://cvrs.whu.edu.cn/index.php?转载 2018-01-30 15:44:42 · 3609 阅读 · 0 评论 -
matplotlib使用
除了自己写的,还可以参考:http://blog.youkuaiyun.com/u010668907/article/details/51114659,3D绘图参考:http://blog.youkuaiyun.com/Eddy_zheng/article/details/48713449最近写文章要做一些可视化图,用到matplotlib库, 留几个案例备忘: def show_imgpair(self,imgs...原创 2018-02-12 20:30:33 · 836 阅读 · 0 评论 -
样本不均衡的一些处理技巧
refer1: https://zhuanlan.zhihu.com/p/28850865 refer2: http://blog.sina.com.cn/s/blog_4c98b960010008l5.html(1) 数据层次的方法欠采样欠采样(undersampling)法是去除训练集内一些多数样本,使得两类数据量级接近,然后在正常进行学习。这种方法的缺点是就是放弃了很多反例,这会导致平衡后转载 2017-10-08 15:38:25 · 10663 阅读 · 0 评论 -
kmean、KNN、kd树的改进算法BBF
参考v_JULY_v的博文: http://blog.youkuaiyun.com/v_JULY_v/article/details/8203674大多数博文只讲了kd树的最近邻搜索,kd树或者其改进算法实现的k个近邻搜索需要自己动脑原创 2017-06-06 14:40:08 · 1007 阅读 · 0 评论 -
随机投影森林-一种近似最近邻方法(ANN)
当数据个数比较大的时候,线性搜索寻找KNN的时间开销太大,而且需要读取所有的数据在内存中,这是不现实的。因此,实际工程上,使用近似最近邻也就是ANN问题。其中一种方法是利用随机投影树,对所有的数据进行划分,将每次搜索与计算的点的数目减小到一个可接受的范围,然后建立多个随机投影树构成随机投影森林,将森林的综合结果作为最终的结果。建立一棵随机投影树的过程大致如下(以二维空间为例):随转载 2017-06-18 00:25:03 · 2567 阅读 · 2 评论 -
朴素贝叶斯算法原理小结
原文出处:http://www.cnblogs.com/pinard/p/6069267.html 在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树,KNN,逻辑回归,支持向量机等,他们都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系,要么是决策函数Y=f(X),要么是条件分布P(Y|X)。但是朴素贝叶斯却是生成方法转载 2017-06-07 10:49:01 · 890 阅读 · 0 评论 -
高维数据的快速最近邻
高维数据的快速最近邻算法FLANN1. 简介 在计算机视觉和机器学习中,对于一个高维特征,找到训练数据中的最近邻计算代价是昂贵的。对于高维特征,目前来说最有效的方法是 the randomized k-d forest和the priority search k-means tree,而对于二值特征的匹配 multiple hierarchical clus转载 2017-06-20 15:59:23 · 1901 阅读 · 0 评论 -
混合高斯模型(Mixtures of Gaussians)和EM算法
这篇讨论使用期望最大化算法(Expectation-Maximization)来进行密度估计(density estimation)。 与k-means一样,给定的训练样本是,我们将隐含类别标签用表示。与k-means的硬指定不同,我们首先认为是满足一定的概率分布的,这里我们认为满足多项式分布,,其中,有k个值{1,…,k}可以选取。而且我们认为在给定后,满足多值高斯分布,即。由此可转载 2017-06-29 20:29:13 · 484 阅读 · 0 评论 -
(EM算法)The EM Algorithm
EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是向量时,如果转载 2017-06-29 20:28:00 · 514 阅读 · 0 评论 -
条件随机场理解-CRF
---------------看到知乎上的比较好的回答,记下来留存--------------作者:milter链接:https://www.zhihu.com/question/35866596/answer/139485548来源:https://www.zhihu.com/question/35866596理解条件随机场最好的办法就是用一个现实的例子来说明它。原创 2017-07-07 09:32:39 · 2726 阅读 · 1 评论 -
机器学习、深度学习、图像检索 的一些优秀博客
机器学习、深度学习、图像检索 的一些优秀博客:1. http://www.cnblogs.com/ooon/2. http://yongyuan.name/blog/原创 2017-07-08 17:39:38 · 1613 阅读 · 0 评论 -
快速近似最近邻搜索库 FLANN - Fast Library for Approximate Nearest Neighbors
What is FLANN?FLANN is a library for performing fast approximate nearest neighbor searches in high dimensional spaces. It contains a collection of algorithms we found to work best for nearest neig转载 2017-08-17 11:24:26 · 2243 阅读 · 0 评论 -
MCMC算法
参考以下:1. https://blog.youkuaiyun.com/qq_23142123/article/details/71747074?locationNum=13&fps=1 (看了后略懂)2. https://blog.youkuaiyun.com/lanchunhui/article/details/50451620 3. https://blog.youkuaiyun.com/lanchunhui/art...转载 2018-06-26 08:44:56 · 1755 阅读 · 0 评论