
机器学习
文章平均质量分 94
sunflower_sara
NLP, 计算机视觉,机器学习,深度学习,以及相关的其他内容
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Tensorflow 卷积神经网络 Inception-v3模型 迁移学习 花朵识别
https://blog.youkuaiyun.com/tz_zs/article/details/77728391?ABstrategy=codes_snippets_optimize_v3谷歌提供的训练好的Inception-v3模型: https://storage.googleapis.com/download.tensorflow.org/models/inception_dec_2015.zip...原创 2018-04-24 16:38:23 · 3647 阅读 · 3 评论 -
深度学习笔记:优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam)
深度学习优化学习方法总结 (一阶为主)https://blog.youkuaiyun.com/sunflower_sara/article/details/81321886常用的优化算法:梯度下降法,牛顿法,拟牛顿法,共轭梯度法 (二阶为主)https://blog.youkuaiyun.com/sunflower_sara/article/details/81215135推荐的文章:https://b...转载 2018-07-31 22:26:23 · 14139 阅读 · 5 评论 -
视觉分类任务中处理不平衡问题的loss比较
https://blog.youkuaiyun.com/weixin_35653315/article/details/78327408转载 2018-07-31 22:34:05 · 616 阅读 · 0 评论 -
cnn中关于平均池化和最大池化的理解
链接:https://www.zhihu.com/question/23437871/answer/24696910来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 接触到pooling主要是在用于图像处理的卷积神经网络中,但随着深层神经网络的发展,pooling相关技术在其他领域,其他结构的神经网络中也越来越受关注。一个典型的卷积神经网络结构图,其中的卷积...转载 2018-07-31 22:39:47 · 68551 阅读 · 4 评论 -
常用聚类算法
1.基于划分k-means2.层次聚类Hierarchical Clustering自顶向下 自底向上3.基于密度的方法绝大多数划分方法给予对象之间的距离进行聚类。这样的方法只能发现球状的簇,而在发现任意形状的簇上遇到了困难。随之提出了基于密度的聚类方法,它是将簇看作是数据空间中被低密度区域分割开的高密度区域。其主要思想是:只要邻近区域的密度(对象或数据点的数目)超出了某个阀值...原创 2018-08-15 23:27:16 · 432 阅读 · 0 评论 -
SVM简介、SVM与感知机、逻辑回归LR的区别
硬间隔SVM软间隔SVM.核函数:SVM与感知机的区别SVM分类超平面的解是唯一的,要满足间隔最大化感知机的解不唯一,没有间隔最大化的约束条件,满足分开数据点的分界面都是可以的SVM与逻辑回归的区别https://blog.youkuaiyun.com/yan456jie/article/details/52524942相同点:第一,...原创 2018-08-16 00:27:43 · 4920 阅读 · 5 评论 -
偏差和方差
偏差:期望预测与真实结果的偏离程度,刻画学习算法本身的拟合能力方差:不同训练数据对学习性能的影像,刻画数据扰动造成的影响 偏差方差窘境:越复杂的模型偏差越小,而方差越大。我们用一个参数少的,简单的模型进行预测,会得到低方差,高偏差,通常会出现欠拟合。而我们用一个参数多的,复杂的模型进行预测,会得到高方差,低偏差,通常出现过拟合。 红色:偏差蓝色:方差黑色...原创 2018-08-16 00:34:42 · 277 阅读 · 0 评论 -
判别模型和生成模型总结与对比
判别模型和生成模型总结与对比: 判别模型(Discriminative Models) 生成模型(Generative Models) 特点 在有限样本条件下建立判别函数,寻找不同数据间的最优分类面,目标是实现分类 首先建立样本的联合概率分布,再利用模型进行推理预测。要求已知样本无穷或尽可能的大 区别 估计条件概率分布P(y\x) 估计联合概...转载 2019-07-11 22:43:23 · 241 阅读 · 0 评论 -
地标检索涉及到的知识点
地标检索和识别 比赛介绍分析:https://blog.youkuaiyun.com/sunflower_sara/article/details/99361693地标检索 方法A :https://blog.youkuaiyun.com/sunflower_sara/article/details/100549946文件保存情况 :https://blog.youkuaiyun.com/sunflower_sara/ar...原创 2020-01-11 19:57:12 · 749 阅读 · 0 评论 -
GemPooling
GemPoolingFine-tuning CNN Image Retrievalwith No Human AnnotationFilip Radenovic Giorgos Tolias Ond´rej Chum介于mean pooling和max pooling之间,二者是其特殊形式通过调节参数p,可以关注不同细度的区域公式:...原创 2019-09-05 12:04:16 · 8502 阅读 · 0 评论 -
特征选择之遗传算法
遗传算法的优点:1. 与问题领域无关切快速随机的搜索能力。2. 搜索从群体出发,具有潜在的并行性,可以进行多个个体的同时比较,robust.3. 搜索使用评价函数启发,过程简单4. 使用概率机制进行迭代,具有随机性。5. 具有可扩展性,容易与其他算法结合。6. 遗传算法具有良好的全局搜索能力,可以快速地将解空间中的全体解搜索出,而不会陷入局部最优解的快速下降陷阱;是全局优化算法,一般...转载 2018-07-31 22:11:08 · 19299 阅读 · 11 评论 -
迁移学习全面理解
目录目标和本质分类迁移学习全面概述:从基本概念到相关研究什么是迁移学习?什么使得迁移学习与众不同呢?迁移学习的定义迁移学习的场景迁移学习的应用从模拟中学习适应到新的域跨语言迁移知识迁移学习的方法使用预训练的 CNN 特征理解卷积神经网络学习图像的隐含结构学习域不变的表征让表征更加相似混淆域相关的研究领域半监督学习更...转载 2018-07-31 22:10:20 · 7984 阅读 · 0 评论 -
特征选择常用算法综述
冗余特征:1)若冗余特征过多,会造成特征数目过多,从而分析特征,训练模型所需要的时间就会越长; 2)冗余特征会使得并没有增加输入信息的前提下增加模型判别的置信度,这显然是不合理的。 高度相关特征:特征高度相关对逻辑斯蒂回归的主要影响是降低w的解释性.特别是系数的正负判断相关特征的重复不会对逻辑斯特回归的效果造成影响,只会对相关特征的权重(也就是学习得到的系数)造成大小的改...转载 2016-10-11 19:57:19 · 2485 阅读 · 0 评论 -
信息熵,交叉熵和相对熵
目录0.总述1.信息熵2.交叉熵3.相对熵/KL散度(Kullback-Leibler divergence), 亦可称为KL距离4.举例5.参考资料0.总述现在有两个分布,真实分布p和非真实分布q,我们的样本来自真实分布p。按照真实分布p来编码样本所需的编码长度的期望为,这就是信息熵H( p )按照不真实分布q来编码样本所需的编码长度的期望为,这就是所谓的...转载 2018-07-23 10:26:58 · 993 阅读 · 0 评论 -
卷积神经网络
目录 全连接网络卷积池化全连接层softmax层全连接网络参数多;速度慢;容易过拟合; 卷积概念:将神经网络中的每一小块进行更加深入的分析,得到抽象程度更高的特征,加深节点矩阵的深度 设置:卷积核/filter的大小、深度 调整结果的大小:是否进行全0 填充;步长 权值共享:每个过滤器参数一致权值共...原创 2018-07-23 11:06:25 · 256 阅读 · 0 评论 -
bagging与boosting、Adaboost、Random Forest、GBDT、Xgboost
bagging与boosting区别集成学习集成学习通过构建并结合多个学习器来完成学习任务.只包含同种类型的个体学习器,这样的集成是“同质”的;包含不同类型的个体学习器,这样的集成是“异质”的.集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能.根据个体学习器的生成方式,目前的集成学习方法大致可分为两大类,即个体学习器间存在强依赖关系、必须串行生成的序列化方...原创 2018-07-26 09:37:00 · 1019 阅读 · 0 评论 -
模型评价(AUC,ROC曲线,ACC, 敏感性, 特异性,精确度,召回率,PPV, NPV, F1)
目录混淆矩阵精确率 / precision / PPV / 查准率召回率 / Recall / True positive rate / TPR / 灵敏度 / 敏感性 / sensitive/ 查全率ROC曲线AUC(Area under the ROC curve)cut-off点计算步骤如下:参考文献: 混淆矩阵混淆矩阵包含四部分的...原创 2018-07-26 10:04:33 · 78625 阅读 · 1 评论 -
常用的优化算法:梯度下降法,牛顿法,拟牛顿法,共轭梯度法
目录0.几个数学概念1. 梯度下降法(Gradient Descent)2. 牛顿法和拟牛顿法(Newton's method & Quasi-Newton Methods)3. 共轭梯度法(Conjugate Gradient)4. 启发式优化方法 5. 解决约束优化问题——拉格朗日乘数法0.几个数学概念1) 梯度(一阶导数)考虑一座在 (x1, x2...转载 2018-07-26 10:20:22 · 10994 阅读 · 0 评论 -
数据降维
目录一、数据降维1.特征提取2.特征选择二、特征选择方法1.F_score 2.relief,reliefF 4.LaplacianScore4.mRMR(minimum Redundancy Maximum Relevance)5.GA 6.GA_mRMR7.基于稀疏表示的特征筛选SRC 8.mRMRMSRC ...原创 2018-07-15 17:03:01 · 3526 阅读 · 2 评论 -
SIFT特征与BOG算法
SIFT特征一、特点:1)图像的局部特征,对旋转、尺度缩放、亮度变化保持不变,对视角变化、仿射变换、噪声也保持一定程度的稳定性。2)独特性好,信息量丰富,适用于海量特征库进行快速、准确的匹配。3)多量性,即使是很少几个物体也可以产生大量的SIFT特征4)高速性,经优化的SIFT匹配算法甚至可以达到实时性5)扩招性,可以很方便的与其他的特征向量进行联合。二、SIFT特征检测的步骤有4个主要步骤1)尺...转载 2018-07-15 17:00:22 · 1302 阅读 · 0 评论 -
数据不均衡问题的解决
目录 数据不均衡问题可以使用的方法:1. 使用正确指标评估权值2. 采样 3.数据合成4.算法层面分类器算法上的改进 代价敏感学习算法(Cost-Sensitive Learning) 例子:改进分类器的代价函数:C-SVC算法的SVM数据不均衡问题可以使用的方法:一、使用正确指标评估权值AUC_ROC ACC SPE...原创 2018-07-15 17:39:56 · 6975 阅读 · 0 评论 -
数据增强方法总结
转载 https://blog.youkuaiyun.com/Iriving_shu/article/details/78762567数据增强主要是为了减少网络的过拟合现象,通过对训练图片进行变换可以得到泛化能力更强的网络,更好的适应应用场景。方法常用的数据增强方法有:旋转 | 反射变换(Rotation/reflection): 随机旋转图像一定角度; 改变图像内容的朝向; 翻转变换(fl...转载 2018-07-26 21:09:50 · 1322 阅读 · 0 评论 -
支持向量机的核函数及其选择
目录 一、支持向量机与核函数二、几种常用的核函数:1.线性核(Linear Kernel)2.多项式核(Polynomial Kernel)3.径向基核函数(Radial Basis Function)/ 高斯核(Gaussian Kernel)4.Sigmoid核(Sigmoid Kernel)5.字符串核函数6.傅立叶核7.样条核三、核函...转载 2018-07-26 21:55:54 · 52054 阅读 · 2 评论 -
深度学习 发展 优缺点
神经网络的发展经历了3次大的转折。由于早期的计算资源的限制,以及数据量不足,导致前2个时期提出的神经网络,大多规模很小,而且在一定程度上还不如传统的统计机器学习方法,而且神经网络的结构相对简单,因此并没有体现出神经网络的潜在价值。在07年,hitton提出了利用自编码器来stack by stack的学习图像的表征,然后堆叠起来作为神经网络参数的初始化值,然后在统一采用反向传播算法(BP算法)...转载 2018-07-26 22:46:11 · 6443 阅读 · 0 评论 -
避免过拟合的方法,正则化,dropout,Batch normalization
避免过拟合的方法,正则化,dropout,Batch normalization目录避免过拟合的方法,正则化,dropout,Batch normalization一、铺垫1.奥卡姆剃刀原则2.简单模型上的过拟合3.深度学习过拟合4.数据集的划分与过拟合二、防止过拟合的方法1.添加噪声2.early stopping3.数据集扩增(Data augmen...原创 2018-07-22 22:05:42 · 16545 阅读 · 1 评论 -
特征共线性
转载自https://blog.youkuaiyun.com/o0xgw0o/article/details/76432117 多重共线性1.概念:多重共线性是指自变量之间存在一定程度的线性相关,会给变量对模型的贡献性带来影响。即若有两个变量存在共线性,在相互作用计算后,其一的变量的影响会相对减弱,而另一个变量的作用却会相对增强。2.产生原因:(1)没有足够多的样本数据(2)选取的样...转载 2018-07-31 21:29:00 · 4396 阅读 · 0 评论 -
机器学习中如何选择分类器
机器学习中如何选择分类器 在机器学习中,分类器作用是在标记好类别的训练数据基础上判断一个新的观察样本所属的类别。分类器依据学习的方式可以分为非监督学习和监督学习。非监督学习顾名思义指的是给予分类器学习的样本但没有相对应类别标签,主要是寻找未标记数据中的隐藏结构。,监督学习通过标记的训练数据推断出分类函数,分类函数可以用来将新样本映射到对应的标签。在监督学习方式中,每个训练样本包括训练样本的特...转载 2018-07-31 21:33:43 · 4903 阅读 · 0 评论