
机器学习&数据挖掘(Data Mining)
文章平均质量分 73
奔跑的Yancy
科研方向:机器视觉、深度学习;
项目方向:iOS APP、H5 APP;
展开
-
用python实现单目标、多目标、多尺度、自定义特征的KCF跟踪算法
目录单目标跟踪:多目标跟踪:多尺度检测的KCF、自定义所用特征的KCF值得参考单目标跟踪:直接调用opencv中封装的tracker即可。#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Sun Jan 5 17:50:47 2020第四章 kcf跟踪@author: youxinlin...原创 2020-01-05 21:14:55 · 5155 阅读 · 15 评论 -
半监督学习简介与综述 —— For 2020
半监督学习提出的背景数据是机器学习的基础。巧妇难为无米之炊,再牛x的机器学习算法,脱离了数据就是空中楼阁。根据使用的数据样本是否具有标签,可大致将传统的机器学习方法分为监督学习方法和无监督学习方法。其中,无监督学习方法使用的训练样本没有标签;监督学习方法使用的训练样本带有明确的标签。监督学习:训练样本集不仅包含样本,还包含这些样本对应的标签,即样本和样本标签成对出现。监督学习的目标...原创 2019-12-27 21:49:38 · 8886 阅读 · 2 评论 -
Object Detection in 20 Years: A Survey
分享记录一篇不错的综述论文。题目:Object Detection in 20 Years: A Survey作者:Zhengxia Zou (1), Zhenwei Shi (2), Yuhong Guo (3 and 4), Jieping Ye (1 and 4)((1) University of Michigan, (2) Beihang University, (3) Ca...原创 2019-06-29 10:21:29 · 4703 阅读 · 0 评论 -
物联网·边缘计算综述(2018 A Survey on the Edge Computing for the Internet of Things)
论文推荐:http://ieeexplore.ieee.org/document/8123913【摘要】物联网(IoT)现在渗透到我们的日常生活中,提供重要的测量和收集工具,以告知我们的每一个决定。数以百万计的传感器和设备通过支持机器对机器通信以及监控和控制关键智能世界基础设施的复杂网络不断产生数据并交换重要信息。作为缓解资源拥塞升级的策略,边缘计算已成为解决物联网和本地化计算需求的新范例。与...翻译 2019-06-29 10:20:12 · 4228 阅读 · 0 评论 -
离群点(outlier detection)和新颖点(novelty detection)检测与OneClassSVM应用实例(基于python)
目录引言异常值检测(Outlier Detection)新颖性检测(Novelty Detection)sklearn.svm.OneClassSVM引言在异常检测领域中,我们常常需要决定新观察的点是否属于与现有观察点相同的分布(则它称为inlier),或者被认为是不同的(称为outlier)。 在这里,必须做出两个重要的区别:异常值检测,outlier detecti...原创 2019-04-18 15:49:49 · 14937 阅读 · 3 评论 -
弱监督学习综述(Weak Supervision 2019)
近年来,机器学习(ML)的现实影响已经突飞猛进。在很大程度上,这是由于深度学习模型的出现,这使得从业者可以在benchmark集上获得优异的分数,而无需任何手工设计的特征(hand-engineered features)。鉴于TensorFlow和PyTorch等多种开源ML框架的可用性,以及大量可用的最先进模型,可以说高质量的ML模型现在几乎是商品化的资源。然而,有一个隐藏的问题:这些模型依...原创 2019-05-02 10:07:37 · 14852 阅读 · 2 评论 -
Fuzzy C-Means(模糊C均值聚类)算法原理详解与python实现
目录模糊理论Fuzzy C-Means算法原理算法步骤python实现参考资料本文采用数据集为iris,将iris.txt放在程序的同一文件夹下。请先自行下载好。模糊理论模糊控制是自动化控制领域的一项经典方法。其原理则是模糊数学、模糊逻辑。1965,L. A. Zadeh发表模糊集合“Fuzzy Sets”的论文, 首次引入隶属度函数的概念,打破了经典数学“非0即 ...原创 2019-04-02 16:05:38 · 103706 阅读 · 52 评论 -
主成分分析(PCA)的线性代数推导过程
【摘自Ian Goodfellow 《DEEP LEANRNING》一书。觉得写得挺清楚,保存下来学习参考使用。】主成分分析(principal components analysis, PCA)是一个简单的机器学习算法,可以通过基础的线性代数知识推导。假设在n维的R空间中我们有 m 个点 {x(1), . . . , x(m)},我们希望对这些点进行有损 压缩。有损压缩表示我们使用更少的...原创 2018-12-06 21:53:54 · 3065 阅读 · 0 评论 -
不平衡类问题(稀有类检测)的评估与改善方法
目录一、可选度量二、ROC曲线三、代价敏感学习四、基于抽样的方法不平衡类问题常常出现,特别是异常检测领域。某一类样本很多,某一类样本很少。我们针对这类问题设计了一些评估或改善的方法,使得结果更加令人满意。本文讲的是一般性的机器学习、数据处理领域的不平衡类问题。在深度学习中如果遇到不平衡问题,也可触类旁通。参见《干货 | 深度学习中不均衡数据集的处理》一、可选度量这个...原创 2018-11-28 11:01:31 · 1861 阅读 · 0 评论 -
机器学习/数据处理领域结果的评估度量——召回率、精度、F1score等指标计算方法
我们常常在一些论文后看到作者给出的一些评估度量,不仅仅是简单的正确率,还有Fscore、recall等看似高深的东西。那么这些东西是怎么来、怎么用的呢?我们要从不平衡类问题讲起。因为在正、负样本不均衡的类中,如果单一使用准确率可能是很不合理的。比如有10个异常类(一般标为正类),90个正常类(负类),那么我们关心的是异常类能不能都被正确分出来,这样才能达到我们的目标效果(就是检测异常)。如果我...原创 2018-11-28 10:24:32 · 3867 阅读 · 2 评论 -
2018异常检测综述——基于统计学、邻近度、密度、聚类的异常检测方法
目录一、基础知识异常成因异常检测方法异常检测的关键问题二、基于统计学的方法三、基于邻近度的方法四、基于密度的方法五、基于聚类的方法异常检测(Anomaly Detection)也称偏差(deviation)检测或者离群点(outlier)检测,从数据的角度来看,其实就是检测出和众多其他观测值差别非常大的一个特殊的观测值。异常检测在历史上实际是数据预处理的一个步骤...原创 2018-11-27 22:21:14 · 15474 阅读 · 0 评论 -
评估分类器的性能:保持方法、交叉验证、自助法等
目录一、保持(holdout)方法二、随机二次抽样三、交叉验证四、自助(bootstrap)法一、保持(holdout)方法保持方法其实就是我们最经常用的,最普遍的方法。将标记的数据分成两个不相交的集合,一部分作为训练集,一部分作为验证集。在数据集上训练我们的分类模型,在检验集上评估模型的性能。两个集合的划分比例通常根据专家判断,比如2:1,1:2等。保持方法有众所...原创 2018-11-25 15:13:16 · 5703 阅读 · 0 评论 -
模型过拟合及模型泛化误差评估
今天我们来深入探讨过拟合的一些高阶知识。对于分类模型,我们总希望它是有低的训练误差和低的泛化误差。那么过拟合的产生机理中有哪些有意思的东西?在建立一个分类模型的过程中我们暂时对检验数据集一无所知(也就是暂时得不到真正泛化误差),那么此时我们是如何估计泛化误差的?我们的目录:目录一、过拟合产生原因二、过拟合与多重比较过程三、泛化误差估计一、过拟合产生原因噪声导致过拟合...原创 2018-11-26 11:14:22 · 9596 阅读 · 0 评论 -
数据的相似性和相异性的度量
要讨论相似度(similarity)和相异度(dissimilarity),我们先引入一个术语叫邻近度(proximity)。邻近度可以表示相似性或者相异性,相当于是一个总括概念。邻近度度量有很多,比如相关和欧几里得距离(在时间序列这样的稠密数据或者二维点用到)、余弦相似度和Jaccard系数(文档类稀疏数据)。我们接下来简明扼要地来探讨梳理一下。本文讲解的目录是:一、相异度二、相似度...原创 2018-11-23 15:31:34 · 11746 阅读 · 0 评论 -
决策数算法进阶:属性测试条件、最佳划分度量、过拟合现象的处理
我们在先前博文中已经简要介绍了决策树的思想和几个经典算法来构造决策树:《决策树算法简介及其MATLAB实现代码》。今天我们要针对决策树继续深入探讨一些的问题,目录如下:目录一、表示属性测试条件的方法二、选择最佳划分的度量三、处理决策树归纳中的过分拟合现象一、表示属性测试条件的方法决策树在增长过程中的每个递归步都要选择一个属性测试条件,将数据划分成更小的子集。为了实现这个步骤...原创 2018-11-25 17:28:51 · 1829 阅读 · 0 评论 -
数据预处理工作中的几个关键主题探讨:聚集、抽样、降维、离散化、变量变换等
数据预处理是数据挖掘领域必不可少的前提工作。经过预处理的功数据才更加有质量,更好地适应数据挖掘的算法过程、减少运算量或优化运算过程,在某些时候甚至起到决定结果好坏的作用。我们讨论如下几个主题:一、聚集二、抽样三、维归约(降维)四、特征子集五、特征创建六、离散化和二元化七、变量变换粗略地说,我们要探讨的问题分类:对数据的分析和对数据属性的创建/修改。有些比较简...原创 2018-11-22 11:25:17 · 4701 阅读 · 0 评论