Abstract
本文提出了半随机特征来进行非线性函数近似。半随机特征依赖于可调节单元以及核函数中的随机特征。对于一个有半随机特征的隐藏层,我们证明了当width增加的时候,模型类model classes包含很好的function,尽管是非凸函数,也能找到这样的一个函数来生成未知数据(泛化边界)
对于深度模型,我们证明了通用逼近性,较低的近似误差,局部优化保证以及泛化边界。
根据问题的不同,深度半随机特征的泛化边界是已知的深度ReLU网络的边界的指数倍。
本文提出的泛化误差边界与网络的深度、训练权重W的数目以及输入的维度(input dimensionality)无关。
Introduction
为大型的非线性问题设计一个可以应用basis function,有较低计算和存储复杂度的一个框架,同时能够保持一些随机特征的特性。
本文提出半随机特征来探索在灵活性,可证明行(理论性),以及在非线性函数近似上的有效性之间的均衡。
- 尽管是一个非凸学习问题,有一个隐藏层的半随机特征模型没有差(bad)的局部最小
- 深度半随机特征的泛化边界是已知的深度ReLU网络的泛化边界的指数倍。
- 半随机特征可以被应用在多层结构中,深层(deep)结构比宽层(wide)结构表达能力更强。
- 半随机特征可以得到一类统计稳定函数(statistical stable function classes)
Background
实现非线性函数的几种不同的方式:
Hand-designed basis
- 手动构造特征 ϕexpert:X→H ϕ e x p e r t : X → H H H 是内积空间。
- 经验误差最小化的时候,会计算 <ϕexpertx,ϕexpertx′>H < ϕ e x p e r t x , ϕ e x p e r t x ′ > H
Kernel methods
- kexpert(x′;x)=<ϕexpertx,ϕexpertx′>H k e x p e r t ( x ′ ; x ) =< ϕ e x p e r t x , ϕ e x p e r t x ′ > H ,
- 对于训练集合 {xi}mi=1 { x i } i = 1 m ,在一个新的点x处, f(x)^=∑mi=1αikexpert(xi,x) f ( x ) ^ = ∑ i = 1 m α i k e x p e r t ( x i , x )
- Random features
- 应用到大规模的数据中,可以通过一系列的随机函数近似表示核函数。
- kexpert(x′;x)=1C∑Cj=1ϕrandom(x;rj),ϕrandom(x′;rj) k e x p e r t ( x ′ ; x ) = 1 C ∑ j = 1 C ϕ r a n d o m ( x ; r j ) , ϕ r a n d o m ( x ′ ; r j )
- 核函数决定了随机参数 rj r j 的分布以及基函数 ϕrandom ϕ r a n d o m 的类型
- Neural networks.
- 自适应(adaptable)基函数的加权组合。
-
f(x)=∑nk=1w(2)kϕ(x;w(1)k)
f
(
x
)
=
∑
k
=
1
n
w
k
(
2
)
ϕ
(
x
;
w
k
(
1
)
)
其中, w(2)k,w(1)k w k ( 2 ) , w k ( 1 ) 都是通过数据学习得到。
Semi-Random Features
与非线性表示相比,随机特征是用来近似一个已知的核函数,而不是从给定数据中得到这些特征,也就是说它不是一个表征学习representation learning 。
定义:
ϕs(x;r,w)=σs(xTr)(xTw)−−−−−−−−(1)
ϕ
s
(
x
;
r
,
w
)
=
σ
s
(
x
T
r
)
(
x
T
w
)
−
−
−
−
−
−
−
−
(
1
)
x=(1,xT)T
x
=
(
1
,
x
T
)
T
: (1+d)维
r=(r0,rT)T
r
=
(
r
0
,
r
T
)
T
:随机采样
w=(w0,wT)T
w
=
(
w
0
,
w
T
)
T
: 由数据得到
所以叫做半随机。
σs(z)=(z)sH(z)
σ
s
(
z
)
=
(
z
)
s
H
(
z
)
H(z)=1
H
(
z
)
=
1
for
z>0
z
>
0
and 0 otherwise
s=0
s
=
0
:linear semi-random features (LSR)
s=1
s
=
1
:squared semi-random features (SSR)
与deopout 不同,dropout 对数据的操作是数据无关的随机选择,而随机特征的随机选择与输入数据x有关,引入linear semi-random implicit-ensemble (LSR-IE) features 来说明。
因为可学习的单元参数w,半随机特征的表达能力比随机特征的表达能力要强。但是由于
σs(xTr)
σ
s
(
x
T
r
)
是随机采样得到,所以这些模型与神经网络相比还是缺少灵活性。
根据要解决的问题不同,在表达能力方面,半随机采样的特性比全随机特征的能力要高指数倍。
在泛化误差边界方面,比深度ReLU模型高指数倍。
One Hidden Layer Model
根据公式(1)得到
f^sn(x;w)=∑nk=1ϕs(x;rk,w(1)k)w(2)k−−−−−−−−(2)
f
^
n
s
(
x
;
w
)
=
∑
k
=
1
n
ϕ
s
(
x
;
r
k
,
w
k
(
1
)
)
w
k
(
2
)
−
−
−
−
−
−
−
−
(
2
)
矩阵表示:
Universal Approximation Ability
L2(Ω)
L
2
(
Ω
)
是平方可积函数
Optimization Theory
需要通过最小化经验损失函数找到一个好的
f^∈Fsn
f
^
∈
F
n
s
优化问题:
根据理论2可以在多项式时间内找到全局最小值
Generalization Guarantee
Question: how well can a learned model generalize to unseen new observations?
理论3界定了泛化误差:
通过了理论2和理论3,可以得到
Multilayer Model
Benefit of Depth
Optimization Theory
Generalization Guarantee
paper: Deep Semi-Random Features for Nonlinear Function Approximation