
机器学习
文章平均质量分 91
luchi007
这个作者很懒,什么都没留下…
展开
-
深度学习之二:CNN推导
个feature map,每个feature map的权重和偏移量都是一样的sub-sampling层:sub-sampling 层将feature map进一步缩小,可以选择down-sampling的方法有很多,如max-pooling是选取所选区域的最大值,也有是选取所选区域的每个像素的输出值的平均 值,当然也有是将所选区域的每个像素的输出值进行求和,但是目的只有一个,那就是进一步将feature map压缩全连接层:CNN中卷积层和sub-sampling层可原创 2016-03-22 11:30:50 · 333 阅读 · 0 评论 -
遗传算法Java实现版
ttp://blog.youkuaiyun.com/emiyasstar__/article/details/6938608这篇博客的文章,同时将其使用C++实现的程序用Java再次实现了一遍,不足之处还请指出多包涵遗传算法:也称进化算法 。 遗传算法是受达尔文的进化论的启发,借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识遗传算法教科书上的步骤: 1.评估每条染色体所对应个体的适应度。 2.遵照适应度越高,选择概率越大的原则,从种群中选择两个个体作为父方2015-12-10 01:15:16 · 491 阅读 · 0 评论 -
EM算法与高斯混合分布
2015-12-06 14:59:30 · 306 阅读 · 0 评论 -
SVM实战之垃圾邮件过滤
2015-11-29 22:55:24 · 461 阅读 · 0 评论 -
机器学习初识之Kmeans浅尝
原创 2015-10-20 20:58:07 · 160 阅读 · 0 评论 -
机器学习初识之KNN算法
原创 2015-10-19 15:53:15 · 148 阅读 · 0 评论 -
java版本的神经网络——开源框架JOONE实践
由于实验室事情缘故,需要将python写的神经网络转成Java版本的,但是python中的numpy等啥包也不知道在Java里面对应的是什么工具,所以索性直接寻找一个现成可用的Java神经网络框架,于是就找到了JOONE,JOONE是一个神经网络的开源框架,使用的是BP算法进行迭代计算参数,使用起来比较方便也比较实用,下面介绍一下JOONE的一些使用方法。 JOONE需要使用一些外部的...2016-03-11 11:13:47 · 804 阅读 · 0 评论 -
深度学习之一:CNN初见
前几篇接触了关于神经网络的学习方法,总结起来的要点有以下几点:1,BP算法2,激励函数3,正则化与交叉验证等其他防止过拟合的方法 BP神经网络在之前的工作中取到了不错的效果,但是在Micheal Nilson的数的第五章,描述了之前的神经网络在增加多个隐含层之后训练效果会大大下降,也就是说,对于层数过多的网络训练效果不理想,如何训练深层的神经网络成了一个问题,这就是深度学习的...2016-02-28 22:54:13 · 268 阅读 · 0 评论 -
MLA Review之五:回归
回到回归的正题,回归问题是机器学习领域中应用的比较广的一种方法,不过我觉得大部分的回归模型都是广义线性模型,在Andrew NG的课程中,对广义线性模型做了比较详细的推导,这篇文章的内容是,线性回归、局部加权回归、岭回归以及前向逐步回归,除了前向逐步回归之外,其他的都是广义线性回归模型,基本思路都是 1,确定损失函数 2,使用梯度下降(或者梯度上升)求解权重参数,算是套路,而这两种套路使用Py...2016-02-20 16:47:53 · 254 阅读 · 0 评论 -
MLA Review之四:logistic回归
终于来到logistic回归,logistic回归其实很简单,之前的说到的神经网络就用到了这个方法,其中最重要的就是使用了sigmoid损失函数。当然使用的方法也就最简单的梯度下降法,这里并没有使用之前神经网络的随机梯度下降法,也是为了简单起见。因为之前在神经网络里面使用过了,所以这篇文章就略微介绍下。 logistic回归是属于广义线性回归的一种,基本形式:z=w0+w1*x1+...2016-02-20 12:57:59 · 162 阅读 · 0 评论 -
MLA Review之三:朴素贝叶斯分类
朴素贝叶斯(Naive Bayes),贝叶斯概率论在整个统计学习上都是泰山北斗一样的存在,《Pattern Recognization and Machine Learning》这一扛鼎之作全书的思想其实就是贝叶斯概率论,简单的说就是先验代替后验。 我们先来给朴素贝叶斯找一点理论支持 贝叶斯概率公式:P(A|B)=P(A)*p(B|A)/P(B) ,而根据要求,我们需要做的是得...2016-02-18 23:33:18 · 234 阅读 · 0 评论 -
MLA Review之二:决策树
分类决策树是一种描述对实例进行分类的属性结构,决策树由内部节点和叶节点,内部节点表示一个特征或者属性,叶节点表示一个类。 Part 1 :决策树生成用决策树分类其实是一个if-then的过程,根据一个特征值的取值将原始的数据进行分类,比如,银行往往会根据个人情况和信用进行处理是否借贷,其评比条件如下图: 那么可能其中的一个决策树就会如下: 分类树也就是这样。 那...2016-02-17 22:26:14 · 195 阅读 · 0 评论 -
MLA Review之一: KNN算法
在看完Machine Learning in Action一书之后,觉得还是需要进行一些回顾,而且由于第一次看的时候Python基础并不牢固,所以这次也当做是Python一些知识回顾和运用的过程。在回到主题之前插几句话,MLA 一书并不是一本理论著作,相反是使用了一些现成的机器学习方法使用了Python在具体的问题上进行了运用,整书没有使用繁琐的公式和证明过程,属于一本实战类的非学院派著作...2016-02-16 17:13:48 · 227 阅读 · 0 评论 -
遗传算法使用Java实现
details/6938608这篇博客的文章,同时将其使用C++实现的程序用Java再次实现了一遍,不足之处还请指出多包涵 遗传算法:也称进化算法 。 遗传算法是受达尔文的进化论的启发,借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识 遗传算法教科书上的步骤: 1.评估每条染色体所对应个体的适应度。 2.遵照适应度越高,选择概率越大的原则,从种群中选择两个个体作为父方和母方。 3.抽取父母双方的染色体,进行交叉,产生子2015-12-10 08:51:18 · 226 阅读 · 0 评论 -
LIBSVM学习——文本分类
下 文本分类,使用的是路透社的语料最为训练和测试数据集,原始的语料有91类大概十几万篇文章,由于以一些类的数量太少(本次实验室将一个类别下的文本数量少于100篇的过滤)而不具备训练价值(对于有监督的学习而言),最后我们得到的是8个类别,包括训练数据集合测试数据集 文本分类的处理主要包括三个方面,第一,特征抽取;第二,特征选择;第三,机器学习方法训练模型【1】,特征抽取可以看做是文本的预处理,包括去停用词、去标点符号、同义词合并(如compute和computing),本次实验没有考虑到同义词2015-12-30 15:11:34 · 327 阅读 · 0 评论 -
java版本的神经网络——开源框架JOONE实践
2016-03-11 11:13:47 · 182 阅读 · 0 评论 -
深度学习之一:CNN初见
经网络在之前的工作中取到了不错的效果,但是在Micheal Nilson的数的第五章,描述了之前的神经网络在增加多个隐含层之后训练效果会大大下降,也就是说,对于层数过多的网络训练效果不理想,如何训练深层的神经网络成了一个问题,这就是深度学习的由来 深度学习近些年来很火,尤其是在自然语言处理领域,其取得的成就也是巨大的。之前我对深度学习是有畏惧心理的,因为我觉得挺难的,后来慢慢接触,发现这个也是一个循序渐进的过程,还是要有信心。 深度学习一个最广泛的应用就是卷积神经网络(deep convol2016-02-28 22:54:13 · 118 阅读 · 0 评论 -
深度学习之一:CNN初见
原创 2016-02-28 22:46:31 · 179 阅读 · 0 评论 -
MLA Review之五:回归
线性模型做了比较详细的推导,这篇文章的内容是,线性回归、局部加权回归、岭回归以及前向逐步回归,除了前向逐步回归之外,其他的都是广义线性回归模型,基本思路都是 1,确定损失函数 2,使用梯度下降(或者梯度上升)求解权重参数,算是套路,而这两种套路使用Python都比较容易实现,就是使用了矩阵运算,代码量也不大,所以这篇文章就简单说说各种回归,而不实现代码,代码和之前的logistic回归计算过程都是一样的 言归正传 一、线性回归 线性回归方式很简单,公式如下: z=w0+w1*2016-02-20 16:47:53 · 136 阅读 · 0 评论 -
MLA Review之四:logistic回归
2016-02-20 12:57:59 · 119 阅读 · 0 评论 -
MLA Review之三:朴素贝叶斯分类
就是贝叶斯概率论,简单的说就是先验代替后验。 我们先来给朴素贝叶斯找一点理论支持 贝叶斯概率公式:P(A|B)=P(A)*p(B|A)/P(B) ,而根据要求,我们需要做的是得出P(C1|X,Y)和P(C2|X,Y)的概率,其中P(C1|X,Y)的意思是根据特征值X,Y得到是C1的概率,后面是得到C2的概率,因此,我们只需要比较这两者的大小就知道结果是归为哪一类了,但是问题是这个根本不好计算,这时候贝叶斯准则就可以派上用场了:P(C1|X,Y)=P(C1)*P(X,Y|C1)/P(X,Y2016-02-18 23:33:18 · 174 阅读 · 0 评论 -
MLA Review之二:决策树
策树生成用决策树分类其实是一个if-then的过程,根据一个特征值的取值将原始的数据进行分类,比如,银行往往会根据个人情况和信用进行处理是否借贷,其评比条件如下图: 那么可能其中的一个决策树就会如下: 分类树也就是这样。 那么这个时候问题就来了,每次进行选取一个特征,如上面根节点是选取年龄还是选择有房子呢,这是第一个问题。 主要有两种算法进行计算,第一个是信息增益,另外一个是信息增益比,下面会来介绍一下这两种方式 1,信息增益信息增益不用多介绍,在分类问题上被用2016-02-17 22:26:14 · 106 阅读 · 0 评论 -
MLA Review之一: KNN算法
2016-02-16 17:13:48 · 181 阅读 · 0 评论 -
Micheal Nielsen's神经网络学习之三:过拟合与规范化
2016-01-18 01:24:42 · 175 阅读 · 0 评论 -
Micheal Nielsen's神经网络学习之二
2016-01-13 19:39:59 · 138 阅读 · 0 评论 -
隐马尔科夫模型(HMM)浅见
2016-01-09 12:27:44 · 288 阅读 · 0 评论 -
Michael Nielsen 's 神经网络学习之一
2016-01-03 17:33:36 · 316 阅读 · 0 评论 -
Micheal Nielsen's神经网络学习之三:过拟合与规范化
依然是Michael Nielsen的书,依然是神经网络,上文说到的是神经网络有关于损失函数的调整使得学习速度加快,但是还是有几个问题没有解决: 过拟合问题权重和b初始化问题一,首先来看第一个问题:过拟合(overfitting)什么是overfitting,我这个人不是典型的学院派,所以正儿八经的定义也不会用,用我的话说就是学习过度,主要表现在两个方面:第一,在现有的...2016-01-18 01:24:42 · 506 阅读 · 0 评论 -
Micheal Nielsen's神经网络学习之二
依然是跟着Michael Nielsen的神经网络学习,基于前一篇的学习,已经大概明白了神经网络的基本结构和BP算法,也能通过神经网络训练数字识别功能,之后我试验了一下使用神经网络训练之前的文本分类,只是简单的使用了词频来作为词向量处理过程,没有任何的其他调参过程,对于八分类,其正确率到了84%,相比于之前各种调参才能勉强达到72%的SVM分类方法而言,神经网络有无可比拟的简单和高正确率。好了...2016-01-13 19:39:59 · 170 阅读 · 0 评论 -
隐马尔科夫模型(HMM)浅见
隐马尔科夫模型,Hidden Marcov Model,是可用于标注问题的统计学习模型,描述由隐藏的马尔科夫链随机生成观测序列的过程,属于生成模型,是一种比较重要的机器学习方法,在语音识别等领域有重要的应用。 本文不打算使用书面的一大堆公式来说明,本人对公式无感,能用例子说明的根本不想碰公式,不知道是不是霍金说过,多加一条公式就会损失一大片读者。PS:不管有没有说过了,是这个意思,wh...2016-01-09 12:27:44 · 306 阅读 · 0 评论 -
MLA Review之五:回归
回到回归的正题,回归问题是机器学习领域中应用的比较广的一种方法,不过我觉得大部分的回归模型都是广义线性模型,在Andrew NG的课程中,对广义线性模型做了比较详细的推导,这篇文章的内容是,线性回归、局部加权回归、岭回归以及前向逐步回归,除了前向逐步回归之外,其他的都是广义线性回归模型,基本思路都是 1,确定损失函数 2,使用梯度下降(或者梯度上升)求解权重参数,算是套路,而这两种套路使用Py原创 2016-03-23 20:39:19 · 625 阅读 · 0 评论 -
MLA Review之四:logistic回归
终于来到logistic回归,logistic回归其实很简单,之前的说到的神经网络就用到了这个方法,其中最重要的就是使用了sigmoid损失函数。当然使用的方法也就最简单的梯度下降法,这里并没有使用之前神经网络的随机梯度下降法,也是为了简单起见。因为之前在神经网络里面使用过了,所以这篇文章就略微介绍下。 logistic回归是属于广义线性回归的一种,基本形式:z=w0+w1原创 2016-03-23 20:37:26 · 625 阅读 · 0 评论 -
MLA Review之二: 决策树
分类决策树是一种描述对实例进行分类的属性结构,决策树由内部节点和叶节点,内部节点表示一个特征或者属性,叶节点表示一个类。 Part 1 :决策树生成用决策树分类其实是一个if-then的过程,根据一个特征值的取值将原始的数据进行分类,比如,银行往往会根据个人情况和信用进行处理是否借贷,其评比条件如下图: 那么可能其中的一个决策树就会如下: 分原创 2016-02-20 13:03:00 · 630 阅读 · 0 评论 -
MLA Review之一: KNN算法
在看完Machine Learning in Action一书之后,觉得还是需要进行一些回顾,而且由于第一次看的时候Python基础并不牢固,所以这次也当做是Python一些知识回顾和运用的过程。在回到主题之前插几句话,MLA 一书并不是一本理论著作,相反是使用了一些现成的机器学习方法使用了Python在具体的问题上进行了运用,整书没有使用繁琐的公式和证明过程,属于一本实战类的非学院派著作原创 2016-02-17 22:33:20 · 806 阅读 · 0 评论 -
Micheal Nielsen's神经网络学习之二
依然是跟着Michael Nielsen的神经网络学习,基于前一篇的学习,已经大概明白了神经网络的基本结构和BP算法,也能通过神经网络训练数字识别功能,之后我试验了一下使用神经网络训练之前的文本分类,只是简单的使用了词频来作为词向量处理过程,没有任何的其他调参过程,对于八分类,其正确率到了84%,相比于之前各种调参才能勉强达到72%的SVM分类方法而言,神经网络有无可比拟的简单和高正确率。好了,安利原创 2016-01-13 19:27:48 · 1134 阅读 · 0 评论 -
机器学习初识之KNN算法
刚刚开始在一个视频上学习机器学习,不懂的还是很多,这也算作是学习机器学习的笔记吧KNN算法,K nearest neighbor 最近的K个邻居,了解一个算法,先从了解一个问题开始,现在问题如下,有很多的数字图片,每个图片上面有一个数字,每个图片是28*28像素的的,灰度值从0~255,我们把每个图片看作是一个1X784的一行矩阵,因为784=28*28,矩阵上的数字大小表示该像素点的灰度值,原创 2016-01-09 17:21:32 · 876 阅读 · 0 评论 -
机器学习初识之Kmeans浅尝
机器学习在图像识别方面具有很好的效果,今天在网易云课堂黑板可老师视频中学习了一下Kmeans算法,是一种非监督类学习算法,具体步骤如下 1,选取K个点作为初始中心2,将每个点最近的中心,形成K个簇3,重新计算每个簇的中心4,如果簇中心发生明显的变化或者未达到最大迭代次数,则返回到第二部 如上图,有很多点,需要将这些点分成类簇,我们的方法是 1,先随机选择三原创 2016-01-09 17:21:37 · 686 阅读 · 0 评论 -
EM算法与高斯混合分布
作为机器学习的十大算法之一,EM算法可谓是风头出尽,尤其是EM算法在聚类等方面的优越表现,让EM算法备受瞩目,这个星期对EM算法进行了一番了解,说实话EM算法光从教科书上的那些公式说导我觉得很难理解,在七月算法的一节关于EM算法的公开课上慢慢的对EM算法有了算是入门的了解,今天就来说说EM算法与其典型的应用:高斯混合分布 首先简略介绍一个高斯混合分布: 在一个随机分布里面,可能存在原创 2016-01-09 17:22:10 · 2166 阅读 · 0 评论 -
LIBSVM学习——文本分类
最近期末事儿比较多,没什么大东西,最近在使用libsvm做文本分类,虽然感受到了LIBSVM的便捷之处,但是也感受到了Libsvm的调参的复杂性,写下来Mark一下 文本分类,使用的是路透社的语料最为训练和测试数据集,原始的语料有91类大概十几万篇文章,由于以一些类的数量太少(本次实验室将一个类别下的文本数量少于100篇的过滤)而不具备训练价值(对于有监督的学习而言),最后我们得到的是8个原创 2016-01-09 17:22:21 · 1165 阅读 · 0 评论 -
隐马尔科夫模型(HMM)浅见
隐马尔科夫模型,Hidden Marcov Model,是可用于标注问题的统计学习模型,描述由隐藏的马尔科夫链随机生成观测序列的过程,属于生成模型,是一种比较重要的机器学习方法,在语音识别等领域有重要的应用。 本文不打算使用书面的一大堆公式来说明,本人对公式无感,能用例子说明的根本不想碰公式,不知道是不是霍金说过,多加一条公式就会损失一大片读者。PS:不管有没有说过了,是这个意思,what原创 2016-01-09 17:22:32 · 1412 阅读 · 0 评论