LRN在caffe和tensorflow中的不同实现

最新推荐文章于 2023-01-17 11:54:38 发布

MAth-------

最新推荐文章于 2023-01-17 11:54:38 发布

阅读量873

点赞数

CC 4.0 BY-SA版权

文章标签： lrn tensorflow caffe deep-learn

本文链接：https://blog.youkuaiyun.com/newworld123made/article/details/78880724

本文详细解析了LocalResponseNormalization层的工作原理及其在TensorFlow与Caffe中的实现差异。该层通过在通道维度上应用抑制效应来规范化特征图，有助于提高模型泛化能力。文章对比了两个框架中该层的不同配置参数及其计算公式。

Local Response Normalization,其作用是实现“侧抑制”。

b i x, y = a i x, y / (b + α \sum j = m a x (0, i - r) m i n (i + r, n - 1) a 2 x, y) β

$b_{x,y}^i = a_{x,y}^i/(b + \alpha\sum_{j=max(0,i-r)}^{min(i+r,n-1)}a_{x,y}^2)^{\beta}$
在channel维度上进行抑制，从公式中可以看出

ax,y $a_{x,y}$ 周围2*r+1个神经元的激活会对

ax,y $a_{x,y}$ 产生抑制效果。
在tensorflow和caffe中由不同的实现公式
tensorflow中的实现方式就是上述公式的实现，文档中是这样解释的：

sqr_sum[a, b, c, d] =sum(input[a, b, c, d - depth_radius : d + depth_radius + 1] ** 2)
output = input / (bias + alpha * sqr_sum) ** beta

local_response_normalization(
    input,
    depth_radius=5,
    bias=1,
    alpha=1,
    beta=0.5,
    name=None
)

其参数depth_radius为公式中的r，bias为b。
而caffe中略有不同，其实现公式为：

b i x, y = a i x, y / (1 + α / m \sum j = m a x (0, i - m / 2) m i n (i + m / 2, n - 1) a 2 x, y) β

$b_{x,y}^i = a_{x,y}^i/(1 + \alpha/m\sum_{j=max(0,i-m/2)}^{min(i+m/2,n-1)}a_{x,y}^2)^{\beta}$
其中的m对应第一个公式中的2*r+1
caffe参数中的local_size对应m，所以这个参数是和tensorflow的depth_radius是不同的，其关系为local_size = 2*depth_radius + 1，因此local_size必须为奇数。
而且实际上平方和项的系数是不同的，tensorflow的系数就是函数的参数alpha，而caffe的系数实际上要将定义的alpha参数除以local_size的大小

总结一下tensorfow和caffe的两点不同
1.local_size和depth_radius不是对应的，其关系为local_size = 2*depth_radius + 1
2.alpha的定义caffe要在实际的系数上乘以local_size
因此caffe中的模型不能轻易得将参数直接拿过来用，需要做一下转换。当然如果用caffe-tensorflow的话参数关系会自动转换。