论文笔记 - Deep Semi-Random Features for Nonlinear Function Approximation

本文提出了一种名为半随机特征的方法,用于非线性函数近似。这种方法结合了可调单元和随机特征,能够随着模型宽度的增加而逼近复杂的函数。对于深度模型,文章证明了其具有通用逼近能力、低近似误差、局部优化保证及良好的泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Abstract

本文提出了半随机特征来进行非线性函数近似。半随机特征依赖于可调节单元以及核函数中的随机特征。对于一个有半随机特征的隐藏层,我们证明了当width增加的时候,模型类model classes包含很好的function,尽管是非凸函数,也能找到这样的一个函数来生成未知数据(泛化边界)
对于深度模型,我们证明了通用逼近性,较低的近似误差,局部优化保证以及泛化边界。
根据问题的不同,深度半随机特征的泛化边界是已知的深度ReLU网络的边界的指数倍。
本文提出的泛化误差边界与网络的深度、训练权重W的数目以及输入的维度(input dimensionality)无关。

Introduction

为大型的非线性问题设计一个可以应用basis function,有较低计算和存储复杂度的一个框架,同时能够保持一些随机特征的特性。
本文提出半随机特征来探索在灵活性,可证明行(理论性),以及在非线性函数近似上的有效性之间的均衡。

  • 尽管是一个非凸学习问题,有一个隐藏层的半随机特征模型没有差(bad)的局部最小
  • 深度半随机特征的泛化边界是已知的深度ReLU网络的泛化边界的指数倍。
  • 半随机特征可以被应用在多层结构中,深层(deep)结构比宽层(wide)结构表达能力更强。
  • 半随机特征可以得到一类统计稳定函数(statistical stable function classes)

Background

实现非线性函数的几种不同的方式:

  • Hand-designed basis

    • 手动构造特征 ϕexpert:XH ϕ e x p e r t : X → H H H 是内积空间。
    • 经验误差最小化的时候,会计算 <ϕexpertx,ϕexpertx>H < ϕ e x p e r t x , ϕ e x p e r t x ′ > H
  • Kernel methods

    • kexpert(x;x)=<ϕexpertx,ϕexpertx>H k e x p e r t ( x ′ ; x ) =< ϕ e x p e r t x , ϕ e x p e r t x ′ > H ,
    • 对于训练集合 {xi}mi=1 { x i } i = 1 m ,在一个新的点x处, f(x)^=mi=1αikexpert(xi,x) f ( x ) ^ = ∑ i = 1 m α i k e x p e r t ( x i , x )
  • Random features
    • 应用到大规模的数据中,可以通过一系列的随机函数近似表示核函数。
    • kexpert(x;x)=1CCj=1ϕrandom(x;rj),ϕrandom(x;rj) k e x p e r t ( x ′ ; x ) = 1 C ∑ j = 1 C ϕ r a n d o m ( x ; r j ) , ϕ r a n d o m ( x ′ ; r j )
    • 核函数决定了随机参数 rj r j 的分布以及基函数 ϕrandom ϕ r a n d o m 的类型
  • Neural networks.
    • 自适应(adaptable)基函数的加权组合。
    • f(x)=nk=1w(2)kϕ(x;w(1)k) f ( x ) = ∑ k = 1 n w k ( 2 ) ϕ ( x ; w k ( 1 ) )
      其中, w(2)k,w(1)k w k ( 2 ) , w k ( 1 ) 都是通过数据学习得到。

Semi-Random Features

与非线性表示相比,随机特征是用来近似一个已知的核函数,而不是从给定数据中得到这些特征,也就是说它不是一个表征学习representation learning
定义:

ϕs(x;r,w)=σs(xTr)(xTw)(1) ϕ s ( x ; r , w ) = σ s ( x T r ) ( x T w ) − − − − − − − − ( 1 )
x=(1,xT)T x = ( 1 , x T ) T : (1+d)维
r=(r0,rT)T r = ( r 0 , r T ) T :随机采样
w=(w0,wT)T w = ( w 0 , w T ) T : 由数据得到
所以叫做半随机。
σs(z)=(z)sH(z) σ s ( z ) = ( z ) s H ( z )
H(z)=1 H ( z ) = 1 for z>0 z > 0 and 0 otherwise

s=0 s = 0 :linear semi-random features (LSR)
s=1 s = 1 :squared semi-random features (SSR)

与deopout 不同,dropout 对数据的操作是数据无关的随机选择,而随机特征的随机选择与输入数据x有关,引入linear semi-random implicit-ensemble (LSR-IE) features 来说明。

因为可学习的单元参数w,半随机特征的表达能力比随机特征的表达能力要强。但是由于 σs(xTr) σ s ( x T r ) 是随机采样得到,所以这些模型与神经网络相比还是缺少灵活性。
根据要解决的问题不同,在表达能力方面,半随机采样的特性比全随机特征的能力要高指数倍。
在泛化误差边界方面,比深度ReLU模型高指数倍。

One Hidden Layer Model

根据公式(1)得到
f^sn(x;w)=nk=1ϕs(x;rk,w(1)k)w(2)k(2) f ^ n s ( x ; w ) = ∑ k = 1 n ϕ s ( x ; r k , w k ( 1 ) ) w k ( 2 ) − − − − − − − − ( 2 )
矩阵表示:
这里写图片描述

Universal Approximation Ability

这里写图片描述
L2(Ω) L 2 ( Ω ) 是平方可积函数
这里写图片描述

Optimization Theory

需要通过最小化经验损失函数找到一个好的 f^Fsn f ^ ∈ F n s
优化问题:
这里写图片描述

根据理论2可以在多项式时间内找到全局最小值
这里写图片描述

Generalization Guarantee

Question: how well can a learned model generalize to unseen new observations?
理论3界定了泛化误差:
这里写图片描述

通过了理论2和理论3,可以得到
这里写图片描述

Multilayer Model

这里写图片描述

Benefit of Depth

Optimization Theory

Generalization Guarantee


paper: Deep Semi-Random Features for Nonlinear Function Approximation

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值