
机器学习
-牧野-
这个作者很懒,什么都没留下…
展开
-
Opencv中SVM样本训练、归类流程及实现
支持向量机(SVM)中最核心的是什么?个人理解就是前4个字——“支持向量”,一旦在两类或多累样本集中定位到某些特定的点作为支持向量,就可以依据这些支持向量计算出来分类超平面,再依据超平面对类别进行归类划分就是水到渠成的事了。有必要回顾一下什么是支持向量机中的支持向量。上图中需要对红色和蓝色的两类训练样本进行区分,实现绿线是决策面(超平面),最靠近决策面的2个实心红色样本原创 2016-11-02 21:54:33 · 21237 阅读 · 4 评论 -
再谈R-CNN系列
R-CNNR-CNN主要解决了传统检测方法中特征需要人为设定和提取的弊端,改用CNN特征。 1. R-CNN 是把Region proposal(建议候选框)和CNN结合起来。R-CNN:Regions with CNN features。 使用CNN提取特征的候选区域。关键一是候选框,关键二是候选框的CNN特征。2. 每张图片产生2000个建议候选框,初始探测出的候选框大小不同,...原创 2018-11-23 10:04:46 · 3984 阅读 · 1 评论 -
几个常用的计算两个概率分布之间距离的方法以及python实现
1. 欧氏距离(Euclidean Distance)欧氏距离源自欧氏空间中两点间的直线距离,是最常见的一种距离计算方式。计算公式是两个矩阵中对应元素之差的平方和再开方。python实现:import numpy as npx = np.array([[1, 2, 3, 4],[5, 6, 7, 8]])y = np.array([[5, 6, 7, 8],[1, 2, ...原创 2018-09-29 20:11:36 · 25412 阅读 · 4 评论 -
精确率、召回率、准确率与ROC曲线
精确率表示的是预测为某类样本(例如正样本)中有多少是真正的该类样本,一般用来评价分类任务模型。 比如对于一个分类模型,预测结果为A类的所有样本中包含A0个真正的A样本,和A1个不是A样本的其他类样本,那么该分类模型对于分类A的精确率就是A0/(A0+A1)。 通常来说精确率越高,分类效果越好。但是在样本分布非常不均衡的情况下, 精确率高并不一定意味着是一个好的模型。 比如对于预测长沙明天是否会下雪...原创 2018-05-15 09:30:44 · 8596 阅读 · 0 评论 -
Windows下VS2013+Caffe无GPU配置
Windows版本的caffe工具包下载地址: 点击打开链接1. 将下载的caffe-master.zip解压到 D:\Software\Caffe 文件夹下,把 D:\Software\Caffe\caffe-master\windows 文件夹下的 CommonSettings.props.example 文件重命名为 CommonSettings.props 。原创 2017-06-20 00:36:22 · 915 阅读 · 0 评论 -
OpenCV中基于HOG特征的行人检测
目前基于机器学习方法的行人检测的主流特征描述子之一是HOG(Histogram of Oriented Gradient, 方向梯度直方图)。HOG特征是用于目标检测的特征描述子,它通过计算和统计图像局部区域的梯度方向直方图来构成特征,用这些特征描述原始图像。HOG的核心思想是所检测的局部物体外形能够被光强梯度或边缘方向的分布所描述。通过将整幅图像分割成小的连接区域(称为cells),原创 2016-11-05 19:23:50 · 15603 阅读 · 8 评论 -
OpenCV中基于Haar特征和级联分类器的人脸检测
使用机器学习的方法进行人脸检测的第一步需要训练人脸分类器,这是一个耗时耗力的过程,需要收集大量的正负样本,并且样本质量的好坏对结果影响巨大,如果样本没有处理好,再优秀的机器学习分类算法都是零。今年3月23日,微软公司在推特(Twitter)社交平台上推出了一个基于机器学习的智能聊天机器人Tay,Tay被设定为一个年龄为十几岁的女孩,主要目标受众是18岁至24岁的青少年。人们只需要@一下原创 2016-11-05 11:19:48 · 16620 阅读 · 5 评论 -
随机森林算法原理及OpenCV应用
随机森林算法是机器学习、计算机视觉等领域内应用仍为广泛的一个算法、它不仅可以用来做分类(包括二分类和多分类),也可用来做回归预测,也可以作为一种数据降维的手段。在随机森林中,将生成很多的决策树,并不像在决策树那样只生成唯一的树。随机森林在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,每个树都是一个独立的判断分支,互相之间彼此独立。随机森林在运算量没有显著提高的前提下提原创 2016-11-04 23:43:19 · 10806 阅读 · 1 评论 -
AdaBoost算法原理及OpenCV实例
备注:OpenCV版本 2.4.10在数据的挖掘和分析中,最基本和首要的任务是对数据进行分类,解决这个问题的常用方法是机器学习技术。通过使用已知实例集合中所有样本的属性值作为机器学习算法的训练集,导出一个分类机制后,再使用这个分类机制判别一个新实例的属性,并且可以通过不间断的学习,持续丰富和优化该分类机制,使机器具有像大脑一样的思考能力。常用的分类方法有决策树分类、贝叶斯分类等。然而这些方法存在的...原创 2016-11-04 23:23:01 · 12680 阅读 · 7 评论 -
Opencv决策树分类器应用
机器学习在数据挖掘、计算机视觉、搜索引擎、医学诊断、证券市场分析、语言与手写识别等领域有着十分广泛的应用,特别是在数据分析挥着越来越重要的作用。在机器学习中,决策树是最基础且应用最广泛的归纳推理算法之一,基于决策树算法,衍生出很多出色的集成算法,如random forest、adaboost、gradient tree boostiong等。决策树构建的基本步骤如下:1.开始,所有记录看作原创 2016-11-04 00:03:51 · 4811 阅读 · 0 评论 -
OpenCV实现朴素贝叶斯分类器诊断病情
贝叶斯定理由英国数学家托马斯.贝叶斯(Thomas Baves)在1763提出,因此得名贝叶斯定理。贝叶斯定理也称贝叶斯推理,是关于随机事件的条件概率的一则定理。对于两个事件A和B,事件A发生则B也发生的概率记为P(B|A),事件B发生则A也发生的概率记为P(A|B),这样如果A发生B也必然发生或者B发生A也必然发生,则有P(B|A)=P(A|B)=1,这种情况是一种确定性推理。更多的情况原创 2016-11-03 23:17:09 · 3517 阅读 · 2 评论 -
Opencv中K均值算法(K-Means)及其在图像分割中的应用
K均值(K-Means)算法是一种无监督的聚类学习算法,他尝试找到样本数据的自然类别,分类是K由用户自己定义,K均值在不需要任何其他先验知识的情况下,依据算法的迭代规则,把样本划分为K类。K均值是最常用的聚类技术之一,通过不断迭代和移动质心来完成分类,与均值漂移算法的原理很相似。K均值算法的实现过程:1. 对于一组未知分类的数据集合,指定其分类数K;2. 随机分配K个类别的中心点位置,原创 2016-11-02 23:00:51 · 21141 阅读 · 6 评论 -
统计学相关概念及机器学习中样本相似性度量之马氏距离
均值、标准差、方差:样本均值描述的是集合的中间点、平均值、均值的信息是有限的,有时候甚至是完全没有参考意义的,比如各统计局最喜欢发布的平均工资、年收入等等,只有个文字游戏而已。标准差描述的是样本集合中的各个样本点到均值的距离的平均值。以集合[0,8,12,20]和集合[8,9,11,12]为例,两者的均值都是10,但显然后都较为集中,故其标准差小一些。所以标准差描述的是集合中样品分布的聚合原创 2016-11-02 22:30:01 · 2424 阅读 · 0 评论