
机器学习
文章平均质量分 60
volvet
Mail: volvet2002@gmail.com
展开
-
机器学习中的数学系列
机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)http://www.cnblogs.com/LeftNotEasy/archive/2010/12/05/mathmatic_in_machine_learning_1_regression_and_gradient_descent.html机器学习中的数学(2)-线性回转载 2015-12-10 11:56:44 · 783 阅读 · 0 评论 -
神经网络笔记
感知机(Perceptron)感知机模型如下图所示: 输入层接受多个二值输入, 输出层提供一个二值输出(M-P神经元). 用数学公式来描述就是: y={0,1,∑jwjxj+b≤0∑jwjxj+b>0y = \begin{cases}0, & \sum_jw_jx_j + b \le 0 \\1, &\sum_jw_jx_j+ b \gt 0\end{cases} 这原创 2017-05-06 23:32:31 · 566 阅读 · 0 评论 -
神经网络笔记 - 交叉熵(Cross-Entropy)
如上文所述, 如果我们使用均方误差来考量学习误差 C=12n∑x||y(x)−aL(x)||2C = \frac{1}{2n}\sum_x||y(x)-a^L(x)||^2 则有 ∂C∂w=(a−y)σ′(z)\frac{\partial C}{\partial w}=(a-y)\sigma^{'}(z) ∂C∂b=(a−y)σ′(z)\frac{\partial C}{\part原创 2017-05-29 12:39:39 · 3863 阅读 · 0 评论 -
神经网络笔记 - 交叉熵续
为什么选择交叉熵(Why Cross-Entropy)为了解决学习速度下降的问题,我们希望 ∂C∂wj=xj(a−y)\frac{\partial C}{\partial w_j}=x_j(a-y) ∂C∂b=(a−y)\frac{\partial C}{\partial b} = (a-y)如上文所述, 当代码函数为均方误差时: ∂C∂b=∂C∂aδ′(z)\frac{\parti原创 2017-06-11 14:04:10 · 417 阅读 · 0 评论 -
神经网络笔记 - Regularization
神经网络的过拟合(Over fitting) 是神经网络学习的年点, 常规的解决方案是增加学习的样本数, 但是训练样本的搜集往往比较困难,而且样本数增加, 学习成本也随之提高. 另一个比较简单的方法来减少过拟合就是Regularization. Regularization 的方法有多种:L2 Regularization 修改代价函数(C)为: C=−1n∑xj[yjlnalj+原创 2017-07-15 06:11:25 · 732 阅读 · 0 评论 -
CNN(卷积神经网络)在iOS上的使用
Apple 在iOS11上推出了CoreML和架构在CoreML之上的Vision, 这样为CNN(卷积神经网络)在iOS设备上的应用铺平了道路。 将CoreML模型加载到App让你的App集成CoreML模型非常简单, 将模型文件(*.mlmodel)拖进工程即可. 在Xcode中可以看到此模型的描述. Xcode可以为此模型文件自动生成一个可以被使用的对象, 此预测人年龄的原创 2017-08-14 22:43:05 · 2343 阅读 · 0 评论 -
Tensorflow for Machine Intelligence 读后
TensorFlow for Machine Intelligence 的四位作者都是一线的程序员, 其中Danijar Hafner 更是Google Tensorflow 研发团队的成员. 不过可惜TensorFlow 正处于迅速发展期, API和内部结构的变化极为距离, 图书在成文之后就面临着过时的处境. 该书的代码是基于TensorFlow 0.8的API实现的, 而当前Te原创 2017-09-10 09:08:45 · 1563 阅读 · 0 评论 -
Introduction to Convolutional Neural Network
What’s the problemFull Connected layers to process image does not account the spatial structure of the images.Complicated images with multi-channels. When we try to improve our accuracy, we try to i原创 2017-09-30 22:27:47 · 1250 阅读 · 0 评论 -
PCA在图像处理上的应用
PCA(Principal Component Analysis), 也就是主成分分析, 是数据分析的常用方法, 其原理是: 反映对象特征的多个属性往往存在线形相关, 所以可以找到一个合理的方法, 对此多个属性变换为线性无关的另一组属性, 变换后的属性个数小于最初的属性的个数, 也就是起到了数据降维的作用, 这样可以减少数据分析的复杂度. 自然, PCA在机器学习,计算机视觉和图像处理上原创 2018-01-12 22:03:04 · 12710 阅读 · 5 评论 -
30秒学习Keras
Keras 是开源的深度学习/神经网络框架, 其使用Python语言开发的, 底层引擎可以是Tensorfow, CNTK或者Theano. 其设计初衷是为了可以快速将想法转化为可以实验的代码, 因此其易用性在当前的深度学习框架里是屈指可数的. 正因为这一特质, Keras也非常适合深度学习的初学者作为入门的基础框架。 学习Keras并且编写一个简单的Keras网络仅仅需要30秒! Ker...原创 2018-02-25 20:57:45 · 463 阅读 · 0 评论 -
Introduction to Recurrent Neural Networks
What is RNNThe networks are recurrent because they performance same computations for all the elements of a sequence of input, and the output of each element dependents, in addition to current input,...原创 2018-04-21 17:21:28 · 444 阅读 · 0 评论 -
KL距离(相对熵)
KL距离(相对熵) KL距离,是Kullback-Leibler差异(Kullback-Leibler Divergence)的简称,也叫做相对熵(Relative Entropy)。它衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是:在相同事件空间里,概率分布P(x)对应的每个事件,若用概率分布 Q(x)编码时,平均每个基本事件(符号)编码长度增加了多少比特。我们用D(P||Q)表...转载 2018-05-13 14:26:01 · 970 阅读 · 0 评论 -
深入 CoreML 模型定义
Core MLCore ML是apple在iOS和MAC上的机器学习框架, 开发者可以使用Core ML将机器学习模型集成到应用中. Core ML架构于Accelerate, BNNS, Metal之上, 是apple针对其硬件深度优化后的框架, 可以大大加速开发者的工作, 让开发者集中精力于模型的训练和优化上.Core ML所支持的模型文件是后缀为.mlmodel的文件, 使用非常...原创 2018-12-15 16:22:34 · 2223 阅读 · 0 评论 -
神经网络笔记 - 反向传播(BackPropagation) 续
继续来证明BP3和BP4. ∂C∂blj=∂C∂alj∂alj∂zlj∂zlj∂blj\frac{\partial C}{\partial b_j^l} = \frac{\partial C}{\partial a_j^l}\frac{\partial a_j^l}{\partial z_j^l}\frac{\partial z_j^l}{\partial b_j^l} 因为: zlj=w原创 2017-05-11 21:26:54 · 579 阅读 · 0 评论 -
神经网络笔记 - 反向传播(BackPropagation)
神经网络的数学描述:wljkw_{jk}^l表示l−1l-1层的第jj个神经元到ll层的第kk个神经元输入的权重. bljb_j^l表示 ll层的第jj个神经元的偏移 alja_j^l表示ll层的第jj个神经元的输出 所以: alj=σ(∑kwljkal−1k+blj)a_j^l=\sigma(\sum_kw_{jk}^{l}a_k^{l-1} + b_j^l) 也可以用更简洁的描述原创 2017-05-07 21:18:02 · 750 阅读 · 0 评论 -
Tensorflow 官方版教程中文版
2015年11月9日,Google发布人工智能系统TensorFlow并宣布开源,同日,极客学院组织在线TensorFlow中文文档翻译。一个月后,30章文档全部翻译校对完成,上线并提供电子书下载,该文档的上线为国内外使用中文学习TensorFlow的工程及研究人员提供了更快的访问速度和更好的阅读体验,助力中国AI技术与世界同步。在线阅读地址为:http://wiki.jikexueyuan.co转载 2016-04-04 11:54:42 · 776 阅读 · 0 评论 -
机器学习笔记 - 评估方法
数据集 DD = {(x1,y1),(x2,y2),...,(xm,ym)}\{ (x_1, y_1), (x_2, y_2), ... , (x_m, y_m) \}, 一共mm个样本. 可以对DD 进行适当处理, 从中产生训练集SS和测试集TT. 下面介绍几种常见的做法.Hold Out将数据集 DD 划分为两个互斥的集合, 其中一个作为训练集SS, 另一个作为测试集T, 即 D=S∪TD=原创 2017-02-05 11:10:14 · 474 阅读 · 0 评论 -
机器学习笔记 - 性能度量
在预测任务中, 给定样本集 D={(x1,y1),(x2,y2),...,(xm,ym)}D = \{ (x_1, y_1), (x_2, y_2), ... , (x_m, y_m)\} , 其中yiy_i是样本xix_i的真实标记, 要评估学习器的性能, 就要把学习预测结果f(x)f(x)跟真实的标记进行比较。 回归任务常用均方误差(mean squared error) E(f;D)=1m原创 2017-02-06 21:42:19 · 555 阅读 · 0 评论 -
机器学习笔记 - 线性模型与线形回归
给定由dd个属性描述的样本x=(x1,x2,...,xd)x=(x_1, x_2, ... , x_d), 线性模型(linear model)试图学习一个通过属性的线性组合来预测的函数, 即 f(x)=w1x1+w2x2+...+wdxd+bf(x) = w_1x_1 + w_2x_2 + ... + w_dx_d + b 一般用向量形式写成 f(x)=wTx+bf(x) = w^Tx +原创 2017-02-08 22:31:52 · 882 阅读 · 0 评论 -
机器学习笔记 - 剪枝处理
剪枝处理(pruning)是决策树学习算法中对付“过拟合”的主要手段, 在决策树学习中, 为了尽可能正确分类训练样本, 节点划分过程不断重复, 有时候会造成决策树分支过多, 以至于将训练样本集自身特点当作泛化特点, 而导致过拟合。 因此可以采用剪枝处理来去掉一些分支来降低过拟合的风险。 剪枝的基本策略有预剪枝(prepruning)和后剪枝(postprunint). 预剪枝是指在决策树生成原创 2017-02-20 21:18:44 · 3464 阅读 · 0 评论 -
机器学习笔记 - Logistic Regression
线性回归的模型为 z=wTx+bz = w^Tx + b 考虑二分法任务, 其输出标记y∈{0,1}y \in \{ 0, 1 \}, 于是需将实值zz转为0/10/1, 这里用了Sigmoid 函数 y=11−e−zy = \frac{1}{1-e^{-z}} 则 y=11−e−(wTx+b)y=\frac{1}{1-e^{-(w^Tx+b)}} 上式可以原创 2017-02-12 14:54:12 · 461 阅读 · 0 评论 -
机器学习笔记 - 决策树基本算法
顾名思义, 决策树是基于树结构来进行决策的, 这也是人类面临决策问题时的一种很自然的处理机制. 比如, 我们对”这是好瓜吗?”这个问题进行决策时, 通常会进行一系列的判断, 先看它是什么颜色, 如果是青绿色, 再看它的根蒂是什么形态, 如果是蜷缩, 再看它敲起来是什么声音, 最终我们得到判断, 这是个好瓜。 决策树的形态大致如下图所示 基本算法: 输入: 训练集 D={(x原创 2017-02-13 21:39:41 · 962 阅读 · 0 评论 -
Neural networks and Deep Learning Guide
转一个链接http://neuralnetworksanddeeplearning.com/转载 2017-02-14 16:26:46 · 399 阅读 · 0 评论 -
机器学习笔记 - 决策树最优划分属性选择
由决策树算法可知, 其关键点在于如何选择最优划分属性, 一般而言, 随着划分过程不断进行, 我们希望形成纯度高的分支节点和叶结点. 信息增益信息熵可以用来衡量样本集合纯度. 假定 样本集合DD, 其中第kk类样本所占比例为pk(k=1,2,...,γ)p_k(k=1, 2, ... , \gamma), 则D的熵为 Ent(D)=−∑k=1γpklog2pkEnt(D) = -\sum原创 2017-02-15 21:52:21 · 11653 阅读 · 0 评论 -
机器学习笔记 - 线性可分问题
给定训练样本集 D={(x1,y1),(x2,y2),...,(xm,ym)},y∈{−1,1}D=\{(x_1, y_1), (x_2, y_2), ... , (x_m, y_m)\}, y \in \{-1, 1\}, 分类学习最基本的想法就是在样本空间DD找一个划分超平面, 将不同类型的样本分开, 如下图所示. 在样本空间中, 划分超平面可以用线性方程来描述: wTx+b=0w^原创 2017-02-25 16:47:33 · 3579 阅读 · 0 评论 -
机器学习笔记 - 贝叶斯决策论
贝叶斯定理条件概率条件概率是指两个事件AA和BB, AA已经发生的条件下, BB发生的概率, 记为 P(B|A)P(B|A), 显然: P(B|A)=P(AB)P(A)P(B|A) = \frac{P(AB)}{P(A)} P(AB)P(AB)是指AA和BB同时发生的概率. 全概率公式设样本空间为SS, A为EE的事件, {B1,B2,...,Bn}\{B_1, B_2, ... ,原创 2017-03-05 13:12:26 · 2159 阅读 · 0 评论 -
机器学习笔记 - 线性分割对偶问题
划分超平面的模型如下: f(x)=wT+bf(x) = w^T + b 其中ww和bb是模型参数. 确定模型参数的优化目标为: minw,b12||w||2,s.t.yi(wTxi+b)≥1,i=1,2,...,mmin_{w,b} \frac{1}{2}||w||^2, s.t. y_i(w^Tx_i+b)\ge1, i=1, 2, ... , m 使用拉格朗日乘子法可得其原创 2017-02-26 14:42:40 · 1106 阅读 · 0 评论 -
机器学习笔记 - 朴素贝叶斯分类
贝叶斯分类的概率公式如下: P(c|x)=P(c)P(x|c)P(x)P(c|x) = \frac{P(c)P(x|c)}{P(x)} 其中, P(c)P(c)表达了样本空间中各类样本所占的比例, 根据大数定理, 如果训练集包含了充足的独立同分布样本是, P(c)P(c)可以从训练集中各类样本出现的概率来估计。原创 2017-03-12 12:41:39 · 571 阅读 · 0 评论 -
线性拟合的实现
很多机器学习或者自适应场景需要对某个特征变化趋势进行分析, 如果假定该特征是线形特征, 则需对其趋势作线性拟合. 问题可以描述为:存在样本集(xi,yi)(x_i, y_i)(xi,yi), 样本集的数量为nnn. 假设满足下列关系: y=mx+by = mx + by=mx+b, 期望求得m,bm, bm,b的值, 使误差最小.ei=yi−(mxi+b) e_i = y_...原创 2019-01-26 20:39:48 · 1150 阅读 · 0 评论