吴恩达机器学习笔记(3)非线性问题

非线性问题-多项式

  • 假设一个线性不可分问题,我们可能设计分类界面如下:
    g(θ)=θ0+θ1x1+θ2x2+θ3x1x2+θ4x21x2+...

    对于一个n维特征问题,只考虑两个参数相乘的情况,则相加的项的数目为O(n2)。模型太复杂并且易于过拟合

神经网络

神经网络的目标函数

盛行于80s和90s。参照逻辑回归的代价函数,神经网络的代价函数如下,K为类别数,(hθ(x))i为第i个输出,m为样本数

J(θ)=1m[i=1mk=1Kyiklog(hθ(x(i)))k+(1yik)log(1(hθ(x(i))k)]+λ2ml=1Li=1slj=1sl+1(θ(l)ji)2

(9-2)推导bp的梯度
θji:=θjiαJ(θ)αθji

简化目标函数为:
(yikhθ(x(i))k)2

网络结构和参数设置

  • 以四层网络为例:
    a(1)(=x)>z(2),a(2)>z(3),a(3)>z(4),a(4)

    θ(l) 为第l-1层到第l层的参数,a(l)0 为第l层的偏置参数

前向和反向计算

  • 前向
    第1层: a(1)=x
    第2层: z(2)=θ(1)a(1),a(2)=g(z(2))+a(2)0
    第3层: z(3)=θ(2)a(2),a(3)=g(z(3))+a(3)0
    第4层: z(4)=θ(3)a(3),a(4)=g(z(4))

  • 反向
    δ(l)j 表示第l层第j个节点的error
    第4层: δ(4)=a(4)y
    第3层: δ(3)=(θ(3))Tδ(4).g(z(3))
    第2层: δ(2)=(θ(2))Tδ(3).g(z(2))

  • 训练
    设置: 对于所有的{i,j,l}. 初始化 Δ(l)ij=0
    计算每一层的δ,更新:

    Δ(l)ij:=Δ(l)ij+a(l)jδ(l+1)i

    计算Dlij :
    Dlij=1mΔ(l)ij+λθ(l)ij,ifj0

    Dlij=1mΔ(l)ij,ifj=0

    则:
    aaθ(l)ijJ(θ)=Dlij

    learning curves

    横坐标为训练集的大小(train_set_size),做坐标为错误率(error rate)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值