
机器学习与视觉
文章平均质量分 87
机器学习的基础理论、最新方法以及各种应用和结合纹理特征,形状分析,图像分析和图像理解等理论学习与实践。
优惠券已抵扣
余额抵扣
还需支付
¥9.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
松子茶
关注数字图像处理,数据隐藏与信息隐藏,计算机视觉和机器学习...(欢迎关注微信公众号ID:songzitea)
展开
-
图像肤色初步检测实现
肤色检测输出结果中有许多瑕疵,待于进一步处理(如:滤波操作.....)。在此贴出几种图像肤色检测相关代码,供大家参考。原创 2014-05-02 09:03:22 · 3428 阅读 · 2 评论 -
霍夫变换(Hough Transform)直线检测
在图像处理中,如果图像由已知形状和大小的物体组成,需要找出物体的形状的问题。在解决这些问题的许多可能方法中,一种是在图像中移动一个合适形状和大小的掩模,寻找图像与掩模的相关性,因由于形状变形,旋转、缩放等原因,特殊的掩模常常与在特处于是的数据中特体的表示相差太大。一种非常有效的解决问题的方法是Hough变换,本节中介绍Hough变换检测原理和相关知识。该过程在一个参数空间中通过计算累计结果的局部最大值得到一个符合该特定形状的集合作为霍夫变换结果。我们要注意到Hough变换的重要性质是对图像中直线的殘缺部分、原创 2013-12-05 15:51:55 · 30896 阅读 · 10 评论 -
ML基础教程:线性建模fitlinear
fitlinear.m .Change these to use a different dataset.关于Machine Learning更多讨论与交流,敬请关注本博客和新浪微博songzi_tea.原创 2016-07-22 11:14:37 · 1990 阅读 · 0 评论 -
NTU-Coursera机器学习:过拟合(Overfitting)与正规化(Regularization)
噪音与数据规模我们可以理解地简单些:有噪音时,更复杂的模型会尽量去覆盖噪音点,即对数据过拟合!这样,即使训练误差Ein 很小(接近于零),由于没有描绘真实的数据趋势,Eout 反而会更大。即噪音严重误导了我们的假设。还有一种情况,如果数据是由我们不知道的某个非常非常复杂的模型产生的,实际上有限的数据很难去“代表”这个复杂模型曲线。我们采用不恰当的假设去尽量拟合这些数据,效果一样会很差,因为部分数据对于我们不恰当的复杂假设就像是“噪音”,误导我们进行过拟合。关于Machine Learning更多讨论与交流,原创 2015-04-26 18:38:50 · 4070 阅读 · 1 评论 -
贝叶斯(Bayes)决策理论
在博文【模式识别PR和模式的概念】介绍了相关的模式识别与模式的概念。在本节描述所要讨论的问题之前,再提一下对于待识别的物理对象的描述问题。假设一个待识别的物理对象用其d个属性观察值描述,称之为d个特征,这组成一个d维的特征向量,而这d维待征所有可能的取值范围则组成了一个d维的特征空间。一般地,机器实现自动分类有两大类方法:一种是模板匹配方法,另一种是对特征空间划分为子空间(每类的势力范围)的方法。原创 2014-04-12 10:34:28 · 34005 阅读 · 16 评论 -
关于判别模型和生成模型
简单的说,假设o是观察值,q是模型。如果对P(o|q)建模,就是Generative模型。其基本思想是首先建立样本的概率密度模型,再利用模型进行推理预测。要求已知样本无穷或尽可能的大限制。这种方法一般建立在统计力学和bayes理论的基础之上。如果对条件概率(后验概率) P(q|o)建模,就是Discrminative模型。基本思想是有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。代表性理论为统计学习理论。这两种方法目前交叉较多。原创 2013-07-12 18:54:19 · 3276 阅读 · 0 评论 -
NTU-Coursera机器学习:VC Bound和VC维度
这一讲开篇再介绍一个界函数(bounding function)的概念.它提供了一个对机器学习结果可靠性的衡量,因为成长函数是N的多项式,所以BAD事件发生的概率随着N的增大而显著下降。需要强调的是,以上所讲的只适用于二元分类问题,因为我们在推导 break point、成长函数和边界函数时一直都基于二元分类这一前提.dichotomies数量的上限是成长函数.因为VC Bound对数据分布、目标函数、备选函数集、学习算法都没有要求,它牺牲了部分精确性,换来了无所不包的一般性。这使得VC Bound具有哲学原创 2015-02-22 15:51:59 · 10754 阅读 · 2 评论 -
ML基础教程:线性建模的非线性响应
线性建模的非线性响应.关于Machine Learning更多讨论与交流,敬请关注本博客和新浪微博songzi_tea.原创 2016-07-23 07:46:12 · 1498 阅读 · 0 评论 -
从几何解释SVD分解
SVD分解(奇异值分解),实际上,SVD分解不但很直观,而且极其有用。SVD分解提供了一种方法将一个矩阵拆分成简单的,并且有意义的几块。它的几何解释可以看做将一个空间进行旋转,尺度拉伸,再旋转三步过程。关于更多讨论与交流,敬请关注本博客和新浪微博songzi_tea.原创 2014-01-14 19:31:51 · 3890 阅读 · 7 评论 -
随机森林Random Forest
在机器学习中,随机森林由许多的决策树组成,因为这些决策树的形成采用了随机的方法,因此也叫做随机决策树。随机森林中的树之间是没有关联的。当测试数据进入随机森林时,其实就是让每一颗决策树进行分类,最后取所有决策树中分类结果最多的那类为最终的结果。因此随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林可以既可以处理属性为离散值的量原创 2013-08-25 18:46:09 · 22180 阅读 · 4 评论 -
NTU-Coursera机器学习:linear回归与logistic回归
线性回归问题例如,信用卡额度预测问题:特征是用户的信息(年龄,性别,年薪,当前债务,...),我们要预测可以给该客户多大的信用额度。 这样的问题就是回归问题。目标值y 是实数空间R。当XTX(X 的转置乘以X) 可逆时,可以通过矩阵运算直接求得w;不可逆时,直观来看情况就没这么简单。实际上,无论哪种情况,我们都可以很容易得到结果。因为许多现成的机器学习/数学库帮我们处理好了这个问题,只要我们直接调用相应的计算函数即可。有些库中把这种广义求逆矩阵运算成为 pseudo-inverse。关于Machine Le原创 2015-03-14 13:08:00 · 2270 阅读 · 0 评论 -
支持向量机SVM整理
支持向量机在解决小样本、非线性及高维模式识别问题中表现出了许多特有的优势,针对多类分类问题的经典SVM 算法主要有一对一方法(1-vs-1),一对多方法(1-vs-all.线性可分问题SVM 是从线性可分情况下的最优分类面发展而来的,所谓最优分类面就是要求分类面不但能将两类样本正确分开(训练错误率为0),而且使分类间隔最大.设有n 个样本xi 及其所属类别yi 表示为:超平面W·X+b=0 方程,原创 2015-01-12 16:47:52 · 5613 阅读 · 0 评论 -
浅谈我对机器学习的理解
=============在网上看到关于一篇ML的文章,很不错,转载过来共勉=============算算时间,从开始到现在,做机器学习算法也将近八个月了。虽然还没有达到融会贯通的地步,但至少在熟悉了算法的流程后,我在算法的选择和创造能力上有了不小的提升。实话说,机器学习很难,非常难,要做到完全了解算法的流程、特点、实现方法,并在正确的数据面前选择正确的方法再进行优化得到最优效果,我觉得没有个八年转载 2015-02-01 09:08:47 · 2113 阅读 · 1 评论 -
NTU-Coursera机器学习:機器學習問題与二元分類
A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.(与Tom M. Mitchell的定义一致). 简而言之,就是我们想要机器在某些方面有提高(如搜索排名的质量,即N原创 2015-02-02 18:57:00 · 2901 阅读 · 0 评论 -
NTU-Coursera机器学习:Types of Learning
本节总体思路:按照输出空间类型分Y,数据标记类型分yn,不同目标函数类型分f和不同的输入空间类型分X .其中按照输出空间类型Y,可以分为二元分类,多元分类,回归分析以及结构化学习等,这个好理解,离散的是分类,连续的是回归,到是结构化的学习接触的相对较少,而相对二元分类,当然有多元分类问题。例如,美分硬币共有四种(1、5、10、25美分),输入数据为(尺寸,重量),输出集合{η}={1美分,5美分,10美分,25美分}。这是一个4分类问题。一般的讲,多元分类问题的输出可表示为: {η}={ 1, 2,···,原创 2015-02-06 23:48:42 · 2567 阅读 · 0 评论 -
k-近邻算法(kNN)
k-近邻(k Nearest Neighbors)算法采用测量不同特征之间的距离方法进行分类。它的工作原理是:存在一个样本数据集合,并且样本集中每个数据都存在标签,即我们知道样本每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。k-近邻算原创 2014-03-16 14:11:33 · 3241 阅读 · 0 评论 -
支持向量机SVM分析
1995年Vapnik等人[2]提出一种机器学习的新方法支持向量机(Support Vector Machine,SVM)之后,支持向量机成为继人工神经网络之后又一研究热点。SVM 算法的核心在于最优分类超平面的确定,即通过训练样本确定分类器函数的参数。确定分类超平面,实质上是求解一个二次优化的问题,通过求解对偶问题确定分类器的参数。但是现有的算法在效率和空间上都难以达到令人满意的程度。传统的利用标准二次型优化技术解决对偶问题的方法是训练算法效率低的.主要原因:首先,SVM方法需要计算和存储核函数矩阵,当样原创 2013-07-06 18:27:08 · 11523 阅读 · 0 评论 -
机器学习的学习资源
在网上看到关于一篇ML的blog,很不错,转载过来共勉.即:2013年11月27日jasonb Machine Learning 101, Resources 《Best Machine Learning Resources for Getting Started 》,很巧是Jason Brownlee翻译成了中文(译文链接: http://blog.jobbole.com/562转载 2014-01-21 22:30:42 · 2927 阅读 · 1 评论 -
支持向量机SVM核函数分析
将核函数形式化定义。如果原始特征内积是,映射后为,那么定义核函数(Kernel)为。因些,我们可以得出结论,如果要实现该节开头的效果,只需先计算,然后计算即可,然而这种计算方式是非常低效的。原创 2013-07-13 06:09:13 · 5317 阅读 · 0 评论 -
NTU-Coursera机器学习:HomeWork 1 Q15-20
训练数据格式如下:输入有4个维度,输出为{-1,+1}。共有400条数据。 题目要求将权向量元素初始化为0,然后使用“Naive Cycle”遍历训练集,求停止迭代时共对权向量更新了几次。 所谓“Naive Cycle”指的是在某数据条目x(i)上发现错误并更新权向量后,下次从x(i+1)继续读数据,而不是回到第一条数据x(0)从头开始。该题要求使用“fixed,pre-determined random cycle”对数据进行遍历,即对400条数据进行随机排序,然后在这轮计算中始终使用这一排序,直到下一轮原创 2015-03-01 22:23:03 · 2870 阅读 · 0 评论 -
NTU-Coursera机器学习:机器学习的可行性 & 训练与测试
映射中最关键的点是讲抽样中橙球的概率理解为样本数据集D上h(x)错误的概率,以此推算出在所有数据上h(x)错误的概率,这也是机器学习能够工作的本质,即我们为啥在采样数据上得到了一个假设,就可以推到全局呢?因为两者的错误率是PAC的,只要我们保证前者小,后者也就小了。具体来说,假如有两个相似的备选函数h1≈h2 ,则h1与h2在D上几乎是同好或同坏的,或曰B1与B2高度相关,P[B1]与P[B2]可以合并,但Union Bound却将他们相加了。解决过分估计的问题,可以将备选函数集分类,相似的函数分在一起。关原创 2015-02-07 18:24:39 · 4308 阅读 · 0 评论 -
模式识别PR和模式的概念
模式识别这个词就显得陌生而难以理解了。确切地说,模式识别在这里是针对让计算机来判断事物而提出的,如检测病理切片中是否有癌细胞,文字识别,话语识别,图像中物体识别等等。该学科研究的内容是使机器能做以前只能由人类才能做的事,具备人所具有的、对各种事物与现象进行分析、描述与判断的部分能力。所见的具体事物是样本,而它们所属的事物类别,代表这些事物的“概念”是模式.原创 2014-04-05 23:39:54 · 5845 阅读 · 0 评论 -
ML基础教程:线性建模plotlinear
线性建模plotlinear.关于Machine Learning更多讨论与交流,敬请关注本博客和新浪微博songzi_tea.原创 2016-07-19 21:17:49 · 1618 阅读 · 0 评论 -
关于 AlphaGo 论文的阅读笔记
Deepmind 公司在 Nature 杂志发表论文 Mastering the game of Go with deep neural networks and tree search,介绍了 AlphaGo 程序的细节。本文是对这篇论文的阅读笔记。AlphaGo 神经网络构成AlphaGo 总体上由两个神经网络构成,以下我把它们简单称为「两个大脑」,这并非原文中原创 2016-03-12 10:20:39 · 6967 阅读 · 0 评论 -
机器学习(ML)中文视频教程
本节是李政軒Cheng-Hsuan Li的关于机器学习一些算法的中文视频教程。讲得很好不错。这里非常感谢他的分享:http://www.powercam.cc/chli。也贴到这里,和大家共同学习。原创 2014-05-02 01:14:16 · 7022 阅读 · 0 评论 -
关于Netflix Prize的总结
矩阵分解技术和模型组合方法可能是与Netflix Prize有关最多被讨论的算法。似乎基于矩阵分解的模型是最精确,并想将这些矩阵分解模型加上被时间效应和二元观点所需要提供的重要灵活性。虽然如此,已经在大多数文献中占很主导的邻居模型仍然会继续流行,这根据他的实际特点——无需训练就能够处理新的用户评分并提供推荐的直接解释。关于Machine Learning&Pattern Recognition更多讨论与交流,敬请关注本博客和新浪微博songzi_tea.翻译 2014-12-19 14:09:47 · 8622 阅读 · 3 评论 -
NTU-Coursera机器学习:机器学习基石 (Machine Learning Foundations)
这门课以8周设计,分成 4个核心问题,每个核心问题约需2周的时间来探讨.每个约2个小时的录影中,每个小时为一个主题,以会各分成4到5个小段落,每个段落里会有一个后多个随堂的练习.我们在探讨每个核心问题的第二周。关于Machine Learning更多讨论与交流,敬请关注本博客和新浪微博songzi_tea.原创 2015-03-04 22:25:18 · 5417 阅读 · 3 评论 -
机器学习基础
本节主要介绍机器学习(Machine Learning ML)的简单概述,主要任务以及学习ML的原因相关知识。机器学习就是把无序的数据转换有用信息,如:对于垃圾邮件的检测。机器学习目的是能让我们自数据集中受到启发,换句话说,我们会利用计算机来彰显数据背后的真实含义,这才是机器学习的真实含义。机器学习的主要任务是帮助我们将机器学习算法转化为可实际运作的应用程序,即将实例数据划原创 2014-03-07 23:03:38 · 2449 阅读 · 0 评论 -
NTU-Coursera机器学习:HomeWork 2 Q16-20
基于[-1,1]上的均匀分布随机生成20个样本,相应的输出有20%的错误率;20个样本将数轴分为21段,中间有19段,θ取这19段的中点当中的一个,s取1或-1。遍历所有的θ和s,找到E-in最小的(θ,s)组合就得到了那个g函数。关于Machine Learning更多讨论与交流,敬请关注本博客和新浪微博songzi_tea.原创 2015-03-04 22:17:48 · 2755 阅读 · 0 评论 -
特征向量几何意义
特征向量有很明确的几何意义,矩阵或方阵乘以一个向量的结果仍是同维数的一个向量,因此,矩阵乘法对应了一个变换,把一个向量变成同维数的另一个向量.特征值只不过反映了特征向量在变换时的伸缩倍数而已,对一个变换而言,特征向量指明的方向才是很重要的,特征值不是那么重要,虽然我们求这两个量时先求出特征值,但特征向量才是更本质的东西。原创 2014-01-08 22:45:10 · 2762 阅读 · 0 评论 -
NTU-Coursera机器学习:Noise and Error
目标函数识别指纹以区分合法身份与非法身份,这里的错误是0/1错误。一种是false reject叫错误拒绝,即本来合法的识别成了非法;另一种叫false accept叫错误接受,即本来非法的识别成了合法。应用中我们也不会真的把某些数据复制1000次,我们只需在计算Error时,将权重高的数据被拜访的概率提高1000倍即可,这与复制是等效的。不过,如果你是遍历整个测试集(不是抽样)来计算错误,就没必要修改拜访概率了,只需给相应的错误乘上它们的权重再相加并除以N即可。到现在为止,我们拓展了VC Bound,它在原创 2015-02-22 22:57:42 · 2202 阅读 · 0 评论 -
学习笔记:Kernel Method
核函数数学推导如下所示:原创 2014-04-01 12:39:44 · 4658 阅读 · 0 评论 -
ML基础教程:泛化与过拟合、正规化最小二乘法
Load the Olympic data and extract the training and validation data.An example of regularised least squares Data is generated from a linear model.原创 2016-07-27 11:22:23 · 2554 阅读 · 0 评论 -
NTU-Coursera机器学习:機器學習技法 (Machine Learning Techniques)
The course extends the fundamental tools in "Machine Learning Foundations" to powerful and practical models by three directions, which includes embedding numerous features, combining predictive.关于Machine Learning更多讨论与交流,敬请关注本博客和新浪微博songzi_tea.原创 2015-05-21 00:05:35 · 3524 阅读 · 1 评论 -
NTU-Coursera机器学习:多類別分类和非线性转换
线性分类(感知机)、线性回归、logic回归都属于线性模型.线性分类(PLA)、线性回归、逻辑斯蒂回归的优缺点比较:(1)PLA 优点:在数据线性可分时高效且准确。缺点:只有在数据线性可分时才可行,否则需要借助POCKET 算法(没有理论保证)。(2)线性回归 优点:最简单的优化(直接利用矩阵运算工具)缺点:y*s 的值较大时,与0/1 error 相差较大(loose bound)。(3)logistic回归 优点:比较容易优化(梯度下降)缺点:y*s 是非常小的负数时,与0/1 error 相差原创 2015-04-09 10:36:23 · 2165 阅读 · 0 评论 -
相关系数
模板匹配和相关系数法是目标跟踪的经典方法,它的优点有很多:简单准确,适用面广,抗噪性好,而且计算速度快。缺点是不能适应剧烈光照变化和目标剧烈形变。所谓模板匹配法,就是指在一帧图像内寻找目标模板的位置,和模板最像的地方就是目标了。只要把全图的所有子区域和目标模板比较一下,找到最像目标模板的子区域,它就是目标的位置。如何度量子区域和目标模板的相似程度呢?最简单的办法就是计算这二者的相关系数。相关系原创 2014-01-07 12:51:54 · 3479 阅读 · 0 评论 -
关于剂量的解释
在Fixed (固定的)曝光模式和AEC 曝光模式下,患者剂量的估计在每次采集后计算并随机显示为图像注释的一部分。此信息同样被存储在每一幅图像(RAW (原始)图像和相应的PROCESSED (处理)图像)的DICOM 标题里,而且操作员不能编辑或修改。Entrance Dose (入口剂量)(单位:mGy)是在胸片架封盖前或高于检查床X 距离的入口剂量的估计值(空气比释动能),这取决于采原创 2013-01-27 14:38:23 · 3461 阅读 · 0 评论 -
随机游走产生图像效果实现
随机游走类似布朗运动,就是随机的向各个方向走吧。产生的图像实在漂亮所以还是贴上来吧。clear all;close all;clc;n=100000; x= 0;y= 0; pixel=zeros(n,2); neighbour=[-1 -1;-1 0;-1 1;0 -1;0 1;1 -1;1 0;1 1]; for i=1:n原创 2013-12-18 20:40:18 · 4057 阅读 · 0 评论 -
CR和DR成像技术
前言在射线无损检测中,数字化X射线照相检测(Digital Radiography,简称DR)已经越来越多地获得应用。数字化X射线照相检测技术基本上有三种分类方式:1.按读出方式分类读出方式是指从X射线曝光到图像的显示过程,可以分为直接读出(Direct Readout)方式和非直接读出(Nondirect Readout)方式。直接读出方式是指从X射线曝光到图像显示的全过程自动完原创 2013-02-13 15:43:26 · 11429 阅读 · 2 评论 -
基于直方图的图像二值化算法实现
图像二值化的目的是最大限度的将图象中感兴趣的部分保留下来,在很多情况下,也是进行图像分析、特征提取与模式识别之前的必要的图像预处理过程。在过去年里受到国内外学者的广泛关注,产生了数以百计的阈值选取方法,但如同其他图像分割算法一样,没有一个现有方法对各种各样的图像都能得到令人满意的结果。在分类方法中,基于直方图的二值算法都从不同的科学层次提出了各自的实施方案,并且这类方法都有着一些共同的特点:简单、算法容易实现和执行速度快。原创 2014-05-01 21:15:44 · 4600 阅读 · 0 评论