
学术
文章平均质量分 61
Vigor
微信
schrodingerman
展开
-
SIFT算法总结
SIFT 特征提取算法总结 主要步骤 1)、尺度空间的生成; 2)、检测尺度空间极值点; 3)、精确定位极值点; 4)、为每个关键点指定方向参数; 5)、关键点描述子的生成。 L(x,y,σ), σ= 1.6 a good转载 2012-07-22 19:35:10 · 1195 阅读 · 0 评论 -
朴素贝叶斯算法入门
1.1、摘要 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。1.2、分类问题综述对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作一点都不夸张,只转载 2012-12-09 22:28:51 · 1179 阅读 · 0 评论 -
pageRank算法核心思想
2. 核心思想 常言道,看一个人怎样,看他有什么朋友就知道了。也就是说,一个人有着越多牛X朋友的人,他是牛X的概率就越大。将这个知识迁移到网页上就是“被越多优质的网页所指的网页,它是优质的概率就越大”。PageRank的核心思想就是上述简单却有效的观点。由这个思想,可以得到一个直观的公式:转载 2012-12-09 22:36:02 · 7634 阅读 · 0 评论 -
distinct sampling阅读报告
阅读报告阅读文献:P.B.Gibbons,“Distinct sampling for high-accurate answers to disticnct values queries andevents report”, Intl. Conf. on Very Large Databases, pp.541-550, 2001. 解决问题:在大数据量的数据中找出一个关键属性的不同值原创 2012-12-10 11:42:42 · 855 阅读 · 0 评论 -
基于MapReduce实现并行化K-means算法
阅读报告阅读文献:WeizhongZhao, H Ma, Q He – Springer “Parallel K-Means Clustering Base on MapReduce”, CloudComputing, 2009 解决问题:在分布式文件系统基础下的MapReduce编程模型实现K-Means聚类算法 运行效果:从节点增加时的总体速度提升,平均速度下降,数据量增大原创 2012-12-10 17:15:35 · 14559 阅读 · 3 评论 -
Apriori算法简介
关联规则的目的在于在一个数据集中找出项之间的关系,也称之为购物蓝分析 (market basketanalysis)。例如,购买鞋的顾客,有10%的可能也会买袜子,60%的买面包的顾客,也会买牛奶。这其中最有名的例子就是"尿布和啤酒"的故事了。关联规则的应用场合。在商业销售上,关联规则可用于交叉销售,以得到更大的收入;在保险业务方面,如果出现了不常见的索赔要求组合,则可能为欺诈,需要作进一步的转载 2012-12-10 14:54:20 · 995 阅读 · 0 评论 -
CART算法原理及实现
1.算法介绍 分类回归树算法:CART(Classification And Regression Tree)算法采用一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的的每个非叶子节点都有两个分支。因此,CART算法生成的决策树是结构简洁的二叉树。 分类树两个基本思想:第一个是将训练样本进行递归地划分自变量空间进行建树的想法,第二个想法是用验证数据进行剪枝。转载 2012-12-10 23:56:29 · 58324 阅读 · 4 评论 -
蚁群算法简介及matlab源代码
1 蚁群算法原理 自1991年由意大利学者 M. Dorigo,V. Maniezzo 和 A. Colorni 通过模拟蚁群觅食行为提出了一种基于种群的模拟进化算法——蚁群优化。该算法的出现引起了学者们的极大关注,蚁群算法的特点: ① 其原理是一种正反馈机制或称增强型学习系统; 它通过【最优路径上蚂蚁数量的增加→信息素强度增加→后来蚂蚁选择概率增大→最优路径上蚂蚁数量更大增转载 2012-12-14 20:39:03 · 93171 阅读 · 19 评论 -
Ad hoc query
(转载自http://tonyguxu.blog.51cto.com/1148713/470862,转载请标明出处) 即席查询(Ad Hoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的。 在数据仓库领域有一个概念叫Ad hoc queries,中文一转载 2012-12-15 23:46:17 · 3965 阅读 · 1 评论 -
顺序聚类
1. 顺序聚类事实上,将n个对象,聚类到k个聚类中这件事本身是一个NP难问题。熟悉组合数学应该知道这个问题的解事第二类Stirling数:。这样问题也就出现了,如果k值固定,那么计算还是可行的,如果k值不固定,就要对所有的可能k都进行计算,那运行时间可想而知了。然而并不是所有的可行聚类方案都是合理的,所谓的合理,我理解就是说接近你的聚类目标的,之所以我们要分类,必然有初始动机,那么转载 2013-01-06 10:43:23 · 1617 阅读 · 0 评论 -
计算机专业常用的学术搜索引擎
常用的搜索引擎Microsoft Academic Search http://academic.research.microsoft.comCiteSeer http://citeseerx.ist.psu.eduIEEE Xplorer http://ieeexplore.ieee.org/XploreACM Digital Library http://dl.acm.orgGoo原创 2012-11-24 23:00:40 · 2281 阅读 · 0 评论 -
SVM基本思想及入门学习
支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无转载 2012-08-06 11:27:58 · 8898 阅读 · 0 评论 -
k means算法入门
漫谈 Clustering (1): k-means该文转自:http://blog.pluskid.org/?p=17 by pluskid, on 2008-12-29, inMachine Learning 41 comments本文是“漫谈 Clustering 系列”中的第 1 篇,参见本系列的其他文章。好久没有写 blog 了,一来是 blog 下线一段时转载 2012-12-05 22:22:23 · 808 阅读 · 0 评论 -
AdaBoost算法简介及入门
一、Boosting算法的发展历史 Boosting算法是一种把若干个分类器整合为一个分类器的方法,在boosting算法产生之前,还出现过两种比较重要的将多个分类器整合 为一个分类器的方法,即boostrapping方法和bagging方法。我们先简要介绍一下bootstrapping方法和bagging方法。 1)bootstrapping方法的主要过程 主要步骤: i转载 2012-08-08 09:17:19 · 2477 阅读 · 0 评论 -
动态时间规整简介及入门
在日常的生活中我们最经常使用的距离毫无疑问应该是欧式距离,但是对于一些特殊情况,欧氏距离存在着其很明显的缺陷,比如说时间序列,举个比较简单的例子,序列A:1,1,1,10,2,3,序列B:1,1,1,2,10,3,如果用欧氏距离,也就是distance[i][j]=(b[j]-a[i])*(b[j]-a[i])来计算的话,总的距离和应该是128,应该说这个距离是非常大的,而实际上这个序列的图像是十转载 2012-08-10 10:59:24 · 5206 阅读 · 0 评论 -
使用KNN算法的分类实验源代码
一个很简单的实验,2分类,训练集为20张图片,测试集合为500张图片。折腾了很久才弄好了调用结果,但是结果不是太好,不如SVM。double classifyByKNN( const cv::Mat& trainData, const cv::Mat& trainResponse, const cv::Mat& testData, const cv::Mat& testResponse )原创 2012-07-25 16:34:12 · 2564 阅读 · 0 评论 -
KD树核心思想简介
Kd-树 其实是K-dimension tree的缩写,是对数据点在k维空间中划分的一种数据结构。其实,Kd-树是一种平衡二叉树。举一示例:假设有六个二维数据点 = {(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)},数据点位于二维空间中。为了能有效的找到最近邻,Kd-树采用分而治之的思想,即将整个空间划分为几个小部分。六个二维数据点生成的Kd-树的图为:对转载 2012-08-13 11:00:26 · 1030 阅读 · 0 评论 -
基于局部尺度不变特征(SIFT特征)的物体识别
基于局部尺度不变特征的物体识别David G. LoweComputer Science DepartmentUniversity of British ColumbiaVancouver, B.C., V6T 1Z4, Canadalowe@cs.ubc.ca转发请注明出处:hewei0241的csdn博客摘要 一个采用一种新的类别的局部图像特征的翻译 2012-10-13 16:35:25 · 7732 阅读 · 3 评论 -
搞学术研究的第一步,学会找论文
1、http://scholar.google.com/ 虽然还是Beta版,但个人已觉得现在已经是很好很强大了,Google学术搜索滤掉了普通搜索结果中大量的垃圾信息,排列出文章的不同版本以及被其它文章的引用次数。略显不足的是,它搜索出来的结果没有按照权威度(譬如影响因子、引用次数)依次排列,在中国搜索出来的,前几页可能大部分为中文的一些期刊的文章。2、http://www.scirus转载 2012-10-16 20:01:58 · 1534 阅读 · 0 评论 -
数据挖掘领域经典算法
偶见网页数据挖掘领域十大经典算法,心血来潮,在学习的同时也想验验有哪些知道哪些实现过。2006年12月,国际权威的学术组织the IEEE International Conference on Data Mining (ICDM)闲着没事或者为了提高点会议知名度评选了数据挖掘领域的十大经典算法。首先来看看参加评选的18个候选算法。1:C4.5C4.5就是一个决策树算法,它是决策树(决转载 2012-11-25 00:16:17 · 784 阅读 · 0 评论 -
计算机领域找论文常用搜索引擎
Microsoft Academic Search http://academic.research.microsoft.comCiteSeer http://citeseerx.ist.psu.eduIEEE Xplorer http://ieeexplore.ieee.org/XploreACM Digital Library http://dl.acm.orgGoogle Scholar转载 2012-12-04 11:46:12 · 2442 阅读 · 0 评论 -
机器学习十大经典算法
机器学习10大经典算法1、C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2)在树构造过程中进行剪枝; 3)能够完成对连续属性的离散化处理; 4)能够对转载 2012-12-05 22:29:08 · 1140 阅读 · 0 评论 -
正确率、召回率和F值
正确率、召回率和F值是在鱼龙混杂的环境中,选出目标的重要评价指标。 不妨看看这些指标的定义先:正确率 = 正确识别的个体总数 / 识别出的个体总数召回率 = 正确识别的个体总数 / 测试集中存在的个体总数F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) 不妨举这样一个例子:某池塘有1400条鲤鱼,300只虾,300只鳖。现在以捕转载 2013-01-13 15:18:49 · 593 阅读 · 0 评论