- 博客(74)
- 资源 (4)
- 收藏
- 关注
原创 数据预处理
常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;1. 标准化(Standardization or Mean Removal and Variance Scaling)变换后各维特征有0均值,单位方差。也叫z-sco
2016-02-03 14:12:49
9797
1
原创 朴素贝叶斯理论推导与三种常见模型
朴素贝叶斯(Naive Bayes)是一种简单的分类算法,它的经典应用案例为人所熟知:文本分类(如垃圾邮件过滤)。很多教材都从这些案例出发,本文就不重复这些内容了,而把重点放在理论推导(其实很浅显,别被“理论”吓到),三种常用模型及其编码实现(Python)。如果你对理论推导过程不感兴趣,可以直接逃到三种常用模型及编码实现部分,但我建议你还是看看理论基础部分。另外,本文的所有代码都可以从我的gith
2015-09-09 21:41:03
80408
32
原创 KMeans聚类算法思想与可视化
1.聚类分析1.0 概念聚类分析简称聚类(clustering),是一个把数据集划分成子集的过程,每一个子集是一个簇(cluster),使得簇中的样本彼此相似,但与其他簇中的样本不相似。聚类分析不需要事先知道样本的类别,甚至不用知道类别个数,因此它是一种无监督的学习算法,一般用于数据探索,比如群组发现和离群点检测,还可以作为其他算法的预处理步骤。下面的动图展示的是一个聚类过程,感受一下:1.1 基本
2015-08-20 18:52:00
54300
11
原创 流形学习-高维数据的降维与可视化
1.流形学习的概念流形学习方法(Manifold Learning),简称流形学习,自2000年在著名的科学杂志《Science》被首次提出以来,已成为信息科学领域的研究热点。在理论和应用上,流形学习方法都具有重要的研究意义。假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。
2015-05-22 19:55:12
47613
1
原创 SQL
终于有时间继续玩阿里的数据挖掘比赛,第二赛季限定工具,不得不先重拾一下数据库。以下笔记总结自网络教程。SQL简介SQL指结构化查询语言SQL是一种ANSI的标准计算机语言,存在不同的版本,但不同版本都支持一些共同的关键词。SQL 语法一个数据库通常包含一个或多个表。SQL 对大小写不敏感某些数据库系统要求在每条 SQL 命令的末端使用分号SQL DML 和 DDL把 SQL 分为两个部
2015-05-18 22:53:08
5625
原创 DeepLearning tutorial(7)深度学习框架Keras的使用-进阶
上一篇文章总结了Keras的基本使用方法,相信用过的同学都会觉得不可思议,太简洁了。十多天前,我在github上发现这个框架的时候,关注Keras的人还比较少,这两天无论是github还是微薄,都看到越来越多的人关注和使用Keras。所以这篇文章就简单地再介绍一下Keras的使用,方便各位入门。主要包括以下三个内容:训练CNN并保存训练好的模型。将CNN用于特征提取,用提取出来的特征训练SVM。
2015-05-08 16:01:40
25402
36
原创 DeepLearning tutorial(6)易用的深度学习框架Keras简介
之前我一直在使用Theano,前面五篇Deeplearning相关的文章也是学习Theano的一些笔记,当时已经觉得Theano用起来略显麻烦,有时想实现一个新的结构,就要花很多时间去编程,所以想过将代码模块化,方便重复使用,但因为实在太忙没有时间去做。最近发现了一个叫做Keras的框架,跟我的想法不谋而合,用起来特别简单,适合快速开发。(其实还有很多其他的深度学习框架都是比较容易用的。)1. Ke
2015-04-30 17:03:10
66206
22
原创 libsvm和liblinear的使用总结
0.安装方法unix系统下的安装方法:到官网下载源包(目前最新版本为libsvm-3.20、liblinear-1.96),解压后,打开终端进入makefile所在的目录,键入make即可。以下为一些基本的使用命令,ubuntu系统下。1.生成符合要求的数据格式,以图像数据为例从图像库得到csv文件 (csv文件里每一行存储一张图:label,feat1,feat2,…..),在终端下键入:pyt
2015-04-22 23:50:06
6948
1
原创 2015阿里天池大数据竞赛-Solution
竞赛介绍:链接这篇文章记录2015阿里天池大数据竞赛中,我的一些代码,由于目前还在比赛中,仅分享一个naive solution,基于规则,代码主页在我的github上:链接,下面是代码说明。有兴趣的请看代码注释,恕不详述。 本repo目录说明data 存放数据preprocess 数据预处理rule 根据规则生成提交文件model 训练机器学习模型(暂时不分享)代码使用说
2015-04-14 00:02:06
18771
1
原创 Kaggle比赛-Otto Group Product Classification-打败一半参赛队伍的简单解法
简介Otto Group Product Classification Challenge是Kaggle上目前正在进行的一个比赛,目前已1000+队伍参赛,由Otto公司赞助1W美刀,数据也是来自于该公司的产品,提供了train.csv、test.csv、samplesubmission.csv三份数据。train.csv里包含了6万多个样本,每个样本有一个id,93个特征值feat_1~feat_
2015-03-24 23:02:45
7303
原创 《Python核心编程》数字类型
1、数字类型简介Python中数字类型包括:整型、长整型、布尔型、双精度浮点型、十进制浮点型、复数。这些数字类型都是不可变类型,也就是说,改变了数字的值会生成新的对象。在Python中删除数字对象,可以用语句:del aInt,aLong,aFloat,aComplex2、整型布尔型取值范围只有两个值,True和False。它们在数学运算中对应1和0.对于值为0的任何数字或空集(空列表、空元
2015-03-16 00:58:04
3722
原创 机器学习算法中如何选取超参数:学习速率、正则项系数、minibatch size
本文是《Neural networks and deep learning》概览 中第三章的一部分,讲机器学习算法中,如何选取初始的超参数的值。(本文会不断补充)学习速率(learning rate,η)运用梯度下降算法进行优化时,权重的更新规则中,在梯度项前会乘以一个系数,这个系数就叫学习速率η。下面讨论在训练时选取η的策略。固定的学习速率。如果学习速率太小,则会使收敛过慢,如果学习速率太大,则
2015-03-14 23:49:23
70451
2
原创 正则化方法:L1和L2 regularization、数据集扩增、dropout
本文是《Neural networks and deep learning》概览 中第三章的一部分,讲机器学习/深度学习算法中常用的正则化方法。(本文会不断补充)正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程,网络在training data上的error渐渐减小,但是在验证集上
2015-03-14 18:12:20
129985
43
原创 交叉熵代价函数
本文是《Neural networks and deep learning》概览 中第三章的一部分,讲machine learning算法中用得很多的交叉熵代价函数。1.从方差代价函数说起代价函数经常用方差代价函数(即采用均方误差MSE),比如对于一个神经元(单输入单输出,sigmoid函数),定义其代价函数为: 其中y是我们期望的输出,a为神经元的实际输出【 a=σ(z), where z=wx+
2015-03-13 13:18:56
156299
18
原创 《Neural networks and deep learning》概览
最近阅读了《Neural networks and deep learning》这本书(online book,还没出版),算是读得比较仔细,前面几章涉及的内容比较简单,我着重看了第三章《Improving the way neural networks learn》,涉及深度神经网络优化和训练的各种技术,对第三章做了详细的笔记(同时参考了其他资料,以后读到其他相关的论文资料也会补充或更改),欢迎有
2015-03-12 12:34:05
30351
原创 OpenCV人脸检测(C++代码)
OpenCV人脸检测(C++代码)—— By wepon这篇文章简单总结一下人脸检测的代码实现,基于OpenCV,C++版本。之所以强调C++版本是因为OpenCV有很多其他语言的接口,之前我也写过人脸检测的Python实现《Python-OpenCV人脸检测(代码)》,这篇文章则讲C++实现,其实大同小异,C++相比于Python实现代码写起来会繁琐一点,这也是语言本身决定的吧。为了保持代码风格一
2015-03-05 14:24:05
25161
4
原创 《Python核心编程》笔记 Python对象
第4章 Python对象1、Python对象Python使用对象模型来存储数据,构造任何类型的值都是一个对象。所有的对象都有三个特性:身份,可通过内建函数id()查看,这个值即该对象的内存地址。类型,可通过内建函数type()查看。值,对象表示的数据项。>>> p = 12>>> id(p)31108092>>> type(p)<type 'int'>>>> p12>>> 2、标
2015-03-04 01:14:44
2546
转载 图像语义分析--深度学习方法
本文 转自:语义分析的一些方法(三),主要论述了基于深度学习方法的图像语义分析,包括图片分类、图片搜索、图片标注(image2text、image2sentence),以及训练深度神经网络的一些tricks,最后还简要地提及语义分析方法在腾讯广点通上的实际应用。文中没有复杂的公式、原理,但总结了图像语义分析一些star-of-art的方法,值得一读。
2015-02-27 19:40:30
32812
2
原创 卷积神经网络的一些细节
节选自语义分析的一些方法(二),以后会不断补充。——by wepon结合文献『Deep Learning for Computer Vision』, 以下讲讲卷积神经网络的一些注意点和问题。激励函数,要选择非线性函数,譬如tang,sigmoid,rectified liner。在CNN里,relu用得比较多,原因在于:(1)简化BP计算;(2)使学习更快。(3)避免饱和问题(sa
2015-02-27 19:35:11
5960
原创 《Python核心编程》笔记 基础
春节终于over了,回归充实的学习研究生活。打开久违的优快云博客,看到官方推送的 『博客Markdown编辑器上线啦』,让我顿时有了写作的欲望,真是程序员的福利。之前阅读各种文章书籍,都是用MarkDownPad做的笔记,喜欢以及习惯于MarkDown简洁的语法。总之各种方便。为了试试效果,将以前阅读《Python核心编程》的手记整理发上来,也当温习一遍。第三章 Python基础1、语句和语法注
2015-02-27 11:22:18
2793
原创 《Python核心编程 》笔记-快速入门
春节终于over了,回归充实的学习研究生活。打开久违的优快云博客,看到官方推送的 『博客Markdown编辑器上线啦』,让我顿时有了写作的欲望,真是程序员的福利。之前阅读各种文章书籍,都是用MarkDownPad做的笔记,喜欢以及习惯于MarkDown简洁的语法。总之各种方便。为了试试效果,将以前阅读《Python核心编程》的手记整理发上来,也当温习一遍。第二章 快速入门print语句中使用字符
2015-02-27 11:17:23
2699
原创 Python-OpenCV人脸检测(代码)
做人脸识别,首先要检测出图片/视频中的人脸,今天就研究了一下OpenCV的Python接口,把常用的一些功能模块写成函数。基于Python-OpenCV以及PIL,实现图片中人脸的检测以及截取保存、眼睛检测、笑脸检测。下面简单总结一下。........总之,利用opencv里训练好的haar特征的xml文件,在图片上检测出人脸(眼睛、鼻子、笑脸…)的坐标,利用这个坐标,我们可以将人脸区域剪切保存,也可以在原图上将人脸框出。剪切保存人脸以及用矩形工具框出人脸,本程序使用的是PIL里的Image、ImageDr
2015-02-05 09:04:20
70401
2
原创 DeepLearning tutorial(5)CNN卷积神经网络应用于人脸识别(详细流程+代码实现)
本文主要讲解将CNN应用于人脸识别的流程,程序基于python+numpy+theano+PIL开发,采用类似LeNet5的CNN模型,应用于olivettifaces人脸数据库,实现人脸识别的功能,模型的误差降到了5%以下。本程序只是个人学习过程的一个toy implement,模型可能存在overfitting,因为样本小,这一点也无从验证。但是,本文意在理清程序开发CNN模型的具体步骤,特别是针对图像识别,从拿到图像数据库,到实现一个针对这个图像数据库的CNN模型,我觉得本文对这些流程的实现具有参考
2015-01-29 20:35:43
119036
104
原创 利用Python PIL、cPickle读取和保存图像数据库
利用Python PIL、cPickle读取和保存图像数据库 @author:wepon@blog:http://blog.youkuaiyun.com/u012162613/article/details/43226127计算机视觉、机器学习任务中,经常跟图像打交道,在C++上有成熟的OpenCV可以使用,在Python中也有一个图像处理库PIL(Python Image L
2015-01-28 09:40:54
30945
原创 DeepLearning tutorial(4)CNN卷积神经网络原理简介+代码详解
DeepLearning tutorial(4)CNN卷积神经网络原理简介+代码详解@author:wepon@blog:http://blog.youkuaiyun.com/u012162613/article/details/43225445本文介绍多层感知机算法,特别是详细解读其代码实现,基于python theano,代码来自:Convolutional Neural
2015-01-28 07:48:28
88478
6
原创 DeepLearning tutorial(3)MLP多层感知机原理简介+代码详解
DeepLearning tutorial(3)MLP多层感知机原理简介+代码详解@author:wepon@blog:http://blog.youkuaiyun.com/u012162613/article/details/43221829本文介绍多层感知机算法,特别是详细解读其代码实现,基于python theano,代码来自:Multilayer Perceptron,如果你想
2015-01-28 03:18:22
72333
12
原创 DeepLearning tutorial(2)机器学习算法在训练过程中保存参数
DeepLearning tutorial(2)机器学习算法在训练过程中保存参数@author:wepon@blog:http://blog.youkuaiyun.com/u012162613/article/details/43169019参考:pickle — Python object serialization、DeepLearning Getting starte
2015-01-26 23:45:09
12719
3
原创 DeepLearning tutorial(1)Softmax回归原理简介+代码详解
DeepLearning tutorial(1)Softmax回归原理简介+代码详解@author:wepon@blog:http://blog.youkuaiyun.com/u012162613/article/details/43157801本文介绍Softmax回归算法,特别是详细解读其代码实现,基于python theano,代码来自:Classifying MNIST
2015-01-26 20:06:44
37430
2
原创 【NumPy基础】100道numpy练习——进阶篇
选自numpy-100,当作熟悉NumPy的练习。NumPy只是一个数值计算的工具包,在实际的算法实现中来熟悉NumPy才是有效的,因此后面不打算继续写了,到此文为止,基本的语
2015-01-18 22:56:53
11956
原创 【NumPy基础】100道numpy练习——Apprentice篇
【NumPy基础】100道numpy练习——Apprentice篇@author:wepon@blog:http://blog.youkuaiyun.com/u012162613/article/details/42811297今天又用半小时扫了一下Apprentice篇里的10道exercise,不知道怎么翻译Apprentice(学徒~~)这个词,就直接以Apprentice篇作为
2015-01-17 21:37:48
10548
2
原创 【NumPy基础】100道numpy练习——初学与入门篇
100道numpy练习@author:wepon@blog:http://blog.youkuaiyun.com/u012162613/article/details/42784403今天在deeplearning.net上看theano tutorial,发现一个numpy-100-exercise,介绍numpy一些基本用法的,不过不是很具体,我利用闲暇时间照着敲了一些,权且当作翻
2015-01-16 21:39:21
21561
2
原创 【DeepLearning工具】Fedora下安装theano
【DeepLearning工具】Fedora下安装Theanoauthor:wepon@blog:http://blog.youkuaiyun.com/u012162613/article/details/426512331、Theano简介Theano是深度学习的一个python库,在deeplearning.net上有它的tutorial,它可以方便我们写深度学习模型,它提供了
2015-01-12 21:53:27
4550
转载 2014年人工智能领域的突破
2014 in Computing: Breakthroughs in Artificial Intelligence原文:http://www.technologyreview.com/news/533686/2014-in-computing-breakthroughs-in-artificial-intelligence/The most striking res
2014-12-30 14:30:05
2838
原创 【简化数据】奇异值分解(SVD)
【简化数据】奇异值分解(SVD)@author:wepon@blog:http://blog.youkuaiyun.com/u012162613/article/details/422142051、简介奇异值分解(singular Value Decomposition),简称SVD,线性代数中矩阵分解的方法。假如有一个矩阵A,对它进行奇异值分解,可以得到三个矩阵:
2014-12-28 15:28:00
37355
1
原创 相似度计算
相似度计算@author:wepon@blog:http://blog.youkuaiyun.com/u012162613/article/details/42213883《Machine Learning in Action》笔记,相似度计算,基于python+numpy。在推荐系统中,我们需要计算两个物品的相似度,对于物品的描述,一般都可以量化为一个向量,于是两个物品之
2014-12-28 14:52:40
15098
原创 scikit-learn中PCA的使用方法
scikit-learn中PCA的使用方法@author:wepon@blog:http://blog.youkuaiyun.com/u012162613/article/details/42192293在前一篇文章 主成分分析(PCA) 中,我基于python和numpy实现了PCA算法,主要是为了加深对算法的理解,算法的实现很粗糙,实际应用中我们一般调用成熟的包,本文就结束
2014-12-27 13:08:39
168098
11
原创 【机器学习算法实现】主成分分析(PCA)——基于python+numpy
【机器学习算法实现】主成分分析(PCA)——基于python+numpy@author:wepon@blog:http://blog.youkuaiyun.com/u012162613/article/details/421773271、PCA算法介绍主成分分析(Principal Components Analysis),简称PCA,是一种数据降维技术,用于数据预处理。一般我们获
2014-12-26 21:16:51
100518
28
原创 【leetcode 哈希表】Majority Element
leetcode新題,Majority Element ,难度easy。题意:给定一个长度为n的数组,找出majority element,所谓majority element就是出现次数大于n/2的那个数。很简单的题目,解法很多:Runtime: O(n2) — Brute force solution: Check each element if it is the majority element.Runtime: O(n), Space: O(n) — Hash table: Maintain
2014-12-22 15:31:08
4767
转载 机器学习(Machine Learning)&深度学习(Deep Learning)资料
机器学习(Machine Learning)&深度学习(Deep Learning)资料機器學習、深度學習方面不錯的資料,轉載。原作:https://github.com/ty4z2008/Qix/blob/master/dl.md原作作者會不斷更新,本文更新至2014-12-21《Brief History of Machine Lea
2014-12-21 13:26:16
7972
原创 【leetcode 进制转换】Excel Sheet Column Title
leetcode新題,Excel Sheet Column Title,本質是進制轉化,難度easy。excel中的序是这样排的:A~Z,AA~ZZ,AAA~ZZZ.......本质是进制转换,将n转化为26进制,转化过程如下(括号里的是26进制数):1->(1)->A2->(2)->B...26->(10)->Z27->(11)->AA28->(12)->AB.....52->(20)->AZ53->(21)->BA因此可以将n转化为26进制表示的数,然后对每一位的数,根据『1->
2014-12-21 12:30:13
15551
CNN卷积神经网络应用于人脸识别(带详细流程+代码实现)
2015-01-30
Kaggle入门——使用scikit-learn解决DigitRecognition问题
2014-12-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人