
机器学习
vola9527
这个作者很懒,什么都没留下…
展开
-
机器学习十大算法的每个算法的核心思想、工作原理、适用情况及优缺点
简述机器学习十大算法的每个算法的核心思想、工作原理、适用情况及优缺点等。1)C4.5算法:ID3算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。ID3算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定的测试属性。C4.5算法核心思想是ID3算法,是ID3算法的改进,改进方面有:1)用信息增益率来选择属性,克服了用信息增益选择转载 2015-01-31 22:28:08 · 2821 阅读 · 1 评论 -
caffe 跑自己的图像分类任务(2) 之 数据输入文本文件的制作: train.txt, test.txt
训练数据的存放训练数据和测试数据建立文件夹分别存放, 建议这样存放: train 和test 文件夹分别存放训练数据和测试数据 同时, 在这两个文件夹内部, 每一类别的数据存放在一个文件夹内: 如图, 类别名称就是文件夹名. 制作caffe输入数据的文本文档:向caffe输送数据, 无论是转换成lmdb还是直接将图像送入网络, 都需要一个文本来存放数据的路径和对应的label. 具体的原创 2017-05-11 20:54:38 · 2790 阅读 · 0 评论 -
windows下命令行运行caffe:
caffe的运行主要依赖两个prototxt文件, prototxt是一种数据格式, 甭管他的具体细节, caffe用它来保存网络的配置以及运行时的参数. caffe依赖一个配置文件和一个运行控制文件:net.prototxt 用于存储网络的配置, 包括输入尺寸, 卷基层的kernel size, stride, number of output, 以及其他层的参数.solver.prototx原创 2017-05-10 20:44:19 · 1897 阅读 · 0 评论 -
scikit-image HOG feature 提取函数使用心得。
Hog 特征比较直观好懂,本质是提取图片内的梯度统计信息。其提取图片特征的层次,可以分为:图片/Block/cell 这三个层次,每个层次有下属层次的多个单位构成,例如图片被分为N个block 具体是采用滑动窗口,每个block又被分为多个cell,其中cell 作为最底层是提取梯度信息的最基本单位。统计cell内所有像素的梯度方向信息并将其划分到预设的梯度方向范围内,便形成了基本的梯度直方图原创 2016-10-13 01:49:52 · 12962 阅读 · 2 评论 -
caffe 自带例子之MNIST的网络解析
网络结构lenet 各层网络的定义在:examples/mnist/lenet_train_test.prototxt.各层的定义:DATA layer minist的数据源自lmdb文件, 数据的读取定义在data layer layer { name: "mnist" type: "Data" transform_param { s原创 2017-05-09 16:01:19 · 597 阅读 · 0 评论 -
神经网络编程入门
转载地址:http://www.cnblogs.com/heaad/archive/2011/03/07/1976443.html本文主要内容包括: (1) 介绍神经网络基本原理,(2) AForge.NET实现前向神经网络的方法,(3) Matlab实现前向神经网络的方法 。第0节、引例 本文以Fisher的Iris数据集作为神经网络程序的测转载 2015-01-22 21:44:56 · 607 阅读 · 0 评论 -
Weight Decay in neural network
http://visualstudiomagazine.com/Articles/2014/07/01/Weight-Decay-and-Restriction.aspx?Page=2Understanding Weight DecayWeight decay is probably best explained using a concrete example. Suppose转载 2014-11-13 22:47:53 · 1092 阅读 · 0 评论 -
神经网络训练心得~
训练集错误率很快下降,测试集错误率居高不下 网络结构太简单,输入及中间隐含层保留的信息太少训练集错误率和测试集错误率均居高不下网络结构太复杂,隐含层冗余神经元太多~训练集错误率和测试集错误率总维持在不高不低的水平徘徊不前陷入了局部最优点?重新初始化?更新率数量级越来越小~原创 2014-06-11 14:09:00 · 888 阅读 · 0 评论 -
在cuda convnet 中加入一下脚本,可以在每个循环的训练中打断样本顺序
import osimport randomdef recomposition(data_dir,batch_range): path=data_dir os.chdir(path) oldNames=[] newNames=[] tempName=random.sample(range(1000000,1500000),len(batch_range原创 2014-06-04 20:50:47 · 543 阅读 · 0 评论 -
对CNN的理解
原创 2014-05-16 15:18:36 · 506 阅读 · 0 评论 -
Convolution Neural Network (CNN) 原理与实现(转载)
yuhttp://blog.youkuaiyun.com/abcjennifer/article/details/25912675本文结合Deep learning的一个应用,Convolution Neural Network 进行一些基本应用,参考Lecun的Document 0.1进行部分拓展,与结果展示(in python)。分为以下几部分:1. Convolution转载 2014-05-16 14:27:45 · 1114 阅读 · 0 评论 -
基于python 的分类算法模板 -- 数据库索引、特征提取、分类、分类结果查看
我的简书地址:http://www.jianshu.com/p/cf169245a8d3 我是用 jupyter notebook写的,各个功能模块清楚分明,顺便推荐给大家。 以图片分类为例:主要依赖于: - scikit-learn - scikit-image - matplotlib - jupyter notebook - numpy - cv2 (倾向于使用 skimage原创 2017-04-03 18:05:39 · 965 阅读 · 0 评论 -
Adaboost 算法的原理与推导
转载地址:http://blog.youkuaiyun.com/v_july_v/article/details/7237351#t62 Adaboost 算法的原理与推导分类: 30.Machine L&Data Mining2014-11-02 23:31 12979人阅读 评论(37) 收藏 举报目录(?)[+]转载 2015-01-29 15:13:33 · 729 阅读 · 0 评论 -
caffe 跑自己的图像分类任务(1) 之 准备数据
数据库将图像数据库事先划分为train set 和 test set 两个数据集, 一般划分的依据是按一定比例, 比如 6:4 划分每个类别的数据. 例如有100类图像分类任务, 每一类别有100张图片, 那么train set 每一个文件夹对应一个类别, 并存放60张图片, test set 每一个文件夹对应一个类别, 并存放剩下的40张图片.* 建议每一个文件夹的命名带有该类的label, 例如原创 2017-05-12 11:07:55 · 614 阅读 · 0 评论 -
Win 10 安装caffe
Procedure for installing caffe deep learning framework on windowsinstall vs 2013 or 2015.install CMake 3.4 or higher from https://cmake.org/ and add to system path of computerinstall python 2.7.13 a原创 2017-11-23 10:45:41 · 545 阅读 · 0 评论 -
caffe 使用心得.
caffe官网提供了很多训练好的网络, 这些网络的权值和部署都有提供, 其中权值的后缀名是.caffemodel. 网络结构的一般名称是deploy.prototxt. 网络结构网络结构指的是网络每一层网络的设置, 一般包含这些内容:input layer: batch sizechannelimage widthimage heightconv layer: num of kern原创 2017-04-15 22:29:24 · 475 阅读 · 0 评论 -
利用少量数据创建图像分类模型
目的使用keras框架进行简单的图像二分类.数据准备使用kaggle中的cat VS dog 数据库进行简单的二分类.数据可以在这里下载 下载的数据库会有train和test两个文件夹. 其中train中包含cat文件夹包含12,500张有标记的猫的照片(有标记是指图片名带有cat字段), dog文件夹包含12,500张有标记的狗的图片. test文件夹包含12,500张没有标记...原创 2018-04-08 22:18:08 · 875 阅读 · 0 评论 -
loss functions
这里介绍keras中的loss function. keras loss function的介绍在这里loss function 或objective function 或 optimization score function是模型训练两个必不可少的参数之一, 例如:from keras import lossesmodel.compile(loss='mean_square...原创 2018-04-08 23:21:57 · 419 阅读 · 0 评论 -
CNN 之 fine-tune methods
CNN 的基本结构是由卷基层和全连接层构成的. 对于在大规模数据集(例如ImageNet)上训练好的网络, 我们可以利用它的权重来帮助我们实现我们的任务. 从原理上来讲,随机初始化容易将网络导向不确定的局部最优, 因此一般需要利用多次随机初始化训练来验证结果的有效性. 而借助已训练好的网络或者说利用已训练好的的网络权重作为网络初始值已被广泛证明有利于网络以较快的速度趋于最优化(tran...原创 2018-04-14 23:22:04 · 857 阅读 · 0 评论 -
深度学习 之 data augmentation
深度学习是基于数据驱动的学科,通过data augmentation(数据扩张)可以有效的进行数据扩张并进行一些数据normalized操作. 以此,便于扩大数据集,丰富数据多样性,便于学习到更深度广泛的特征, 避免模型的overfit和underfit. 这里直接调用keras.preprocessing.image中的ImageDataGenerator. 这个函数包含了常用的图像...原创 2018-04-15 00:27:38 · 1456 阅读 · 0 评论 -
keras 之 迁移学习,改变VGG16输出层,用imagenet权重retrain.
迁移学习, 用现成网络,跑自己数据: 保留已有网络除输出层以外其它层的权重, 改变已有网络的输出层的输出class 个数. 以已有网络权值为基础, 训练自己的网络, 以keras 2.1.5 / VGG16Net为例.导入必要的库from keras.preprocessing.image import ImageDataGeneratorfrom ker...原创 2018-04-18 00:50:24 · 8207 阅读 · 1 评论 -
神经网络 之 思考与讨论(1)
引入:training set 的accuracy 和 validation or test set的accuracy 的关系.training set 和 test set的样本是完全不相交的. training set是用来训练我们的网络model的. test set 是作为实际的生产数据来检验模型的, 它是对模型在实际场景中的检验. 两个数据集没有交集, training ac...原创 2018-04-22 01:22:06 · 3503 阅读 · 0 评论 -
MINIST数据库 之 本地图片化
MINIST 数据库作为机器学习入门数据库之一, 被广泛使用. 其中包含了共70,001张手写字符0-9的28x28的图片. 原始的MINIST是以二进制形式发布的, 需要一系列的转换才能转化为本地图片. 不方便进行数据库扩展及数据库可视化. 本文将MINIST数据库进行了本地化. 方便后来者进行进一步的数据库扩展.本文利用了keras中自带的MINIST数据库,这个自带的数据库已经进行了tr...原创 2018-04-13 15:19:57 · 488 阅读 · 0 评论 -
keras 自带VGG16 net 参数分析
对VGG16 这类keras自带的网络分析有感,写在这里. 查看VGG16在keras中的说明文档,可以这样:from keras.applications.vgg16 import VGG16然后(在jupyter notebook, jupyter lab或Ipython中)? VGG16可查看VGG16的使用帮助.Signature: VGG16(inclu...原创 2018-04-13 16:37:38 · 4582 阅读 · 0 评论 -
transfer learning and fine tuning
transfer learning / fine tuning卷积神经网络需要大量的数据和资源来进行训练, 例如, imagenet ILSVRC model 是需要在1.2 million 张图片,利用多GPU,耗时2-3个周的训练才能完成. transfer learning 是将在之前任务(例如image net)训练过的网络权值,迁移到一个新任务上去. 研究者们或者参与者们已经更习惯...原创 2018-04-19 21:14:10 · 659 阅读 · 0 评论 -
keras 安装避坑指南
keras ImportError: cannot import name np_utilsnp_utils 是一个独立模块, 可以通过下面命令直接安装.pip install np_utils RuntimeError: To use MKL 2018 with Theano you MUST set “MKL_THREADING_LAYER=GNU” in your envi...原创 2018-04-07 01:16:32 · 818 阅读 · 0 评论 -
教你如何迅速秒杀掉:99%的海量数据处理面试题
尊重原创,原文地址:http://blog.youkuaiyun.com/v_july_v/article/details/7382693教你如何迅速秒杀掉:99%的海量数据处理面试题作者:July出处:结构之法算法之道blog前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢转载 2015-01-29 19:08:38 · 504 阅读 · 0 评论