【基于tensorflow的学习】VGG、Goolenet、Resnet

1.VGG

VGG实际上就是Alexnet的“加深版”,它其中比较出名的就是VGG16、VGG19。

它的加深不仅仅是层数的加深,VGG的conv-pool都是五层,但是它的特点在于每一层的conv-pool当中是几层卷积层串联之后再连接池化层的。还有它的一些训练技巧。如图所示:

它为什么串联呢?因为两个3x3的卷积层叠加,等价于一个5x5的卷积核的效果,3个3x3的卷积核的叠加相当于一个7x7的卷积核,而且参数更少.大约是7x7卷积核卷积层的(3*3*3)/(7*7)=0.55.而且拥有和7x7卷积核一样的感受视野,三个卷积层的叠加,经过了更多次的非线性变换,对特征的学习能力更强。如图所示:

 VGGnet的技巧:

  1. 在训练时,先训练级别A的简单网络,再复用A网络的权重来初始化后面的几个复杂模型,这样训练收敛的速度更快;
  2. 在预测时,VGG采用Multi-Scale的方法,将图像scale到一个尺寸Q,并将图片输入卷积网络计算。然后在最后一个卷积层用滑窗的方式进行分类预测,将不同窗口的分类结果平均,再将不同尺寸Q的结果平均得到最后结果,这样可以提高图片数据的利用率并提升预测准确率。
  3. 在训练中,VGGnet还使用了Multi-Scale的方法做数据增强,将原始图像缩放到不同尺寸S,然后再随机裁剪224*224的图片,这样能增加很多数据量,对于防止模型过拟合有很不错的效果。实践中,作者令S在[256,512]这个区间取值,使用Multi-Scale忽的多个版本的数据,并将多个版本的数据合在一起进行训练。

 详细解释和代码可以参考:https://blog.youkuaiyun.com/u014281392/article/details/75152809

2.Google Inception Net

这个网络结构的神经学基础是Hibbian原理:神经反射活动的持续与重复会导致神经元链接稳定性的持久提升,当两个神经元细胞A和B距离很近,并且A参与了对B重复、持续的兴奋,那么某些代谢变化会导致A将作为能使B行风的细胞。意思就是“一起发射的神经元会连在一起”

受这个神经学的启发,另一篇文章提出:一种聚类想法,我们应该把“相关性”高的一簇神经元节点连接在一起。而在图片数据中,天然的就是临近区域的数据相关性高,因此相邻的像素点被卷积操作连接在一起。而我们可能有多个卷积核,在同一空间位置但在不同通道的卷积核的输出结果相关性极高。因此1*1卷积就可以很自然地把这些相关性很高的、在同一个空间位置但是不同通道的特征连接在一起,这就是为什么1*1卷积这么频繁地应用到IceptionNet中的原因。然后用稍微大一点的卷积核3*3、5*5以提取高维度的特征的相关性。最后通过四个分支将相关性很高的节点连接在一起,构建出很高效的符合Hebbian原理的稀疏结构。

V2的特点是学习了VGG、使用了卷积串联,还有就是用了著名的Batch Normalization方法(BN在用于神经网络某层时,会对每一个mini-batch的内部进行标准化处理,是输出规范化到N(0,1)的正态分布)。

V3就是把7*7卷积拆成1*7和7*1,这样可以节约参数、减轻过拟合;还优化了Inception Module的结构,有35*35/17*17/8*8三种不同结构。V4就是结合了Resnet。详情可见下面:

https://blog.youkuaiyun.com/App_12062011/article/details/62216987

代码实现:https://blog.youkuaiyun.com/akadiao/article/details/78634431

3.Resnet

它的重要结构就是skip connection:

 如果x的维度和F(x)不一样,则可以运用y=F(x)+Wx,乘以一个权重矩阵来使得两者维度一致,可以相加。

为什么这个结构有用呢:转自:https://www.jianshu.com/p/3d79e722ee56

假设从下一层网络传回来的梯度为1(最右边的数字),后向传播的梯度数值如下面gif图红色数字表示:

那么这里可以看到,本来从上一层传过来的梯度为1,经过这个block之后,得到的梯度已经变成了0.0001和0.01,也就是说,梯度流过一个blcok之后,就已经下降了几个量级,传到前一层的梯度将会变得很小!

这就是梯度弥散。假如模型的层数越深,这种梯度弥散的情况就更加严重,导致浅层部分的网络权重参数得不到很好的训练,这就是为什么在Resnet出现之前,CNN网络都不超过二十几层的原因。

防止梯度弥散的办法:

既然梯度经过一层层的卷积层会逐渐衰减,我们来考虑一个新的结构,如图5:

假如,我们在这个block的旁边加了一条“捷径”(如图5橙色箭头),也就是常说的“skip connection”。假设左边的上一层输入为x,虚线框的输出为f(x),上下两条路线输出的激活值相加为h(x),即h(x) = F(x) + x,得出的h(x)再输入到下一层。 

图6

当进行后向传播时,右边来自深层网络传回来的梯度为1,经过一个加法门,橙色方向的梯度为dh(x)/dF(x)=1,蓝色方向的梯度也为1。这样,经过梯度传播后,现在传到前一层的梯度就变成了[1, 0.0001, 0.01],多了一个“1”!正是由于多了这条捷径,来自深层的梯度能直接畅通无阻地通过,去到上一层,使得浅层的网络层参数等到有效的训练!

 

以往的经典结构:

 

### HRTF算法原理及应用 #### HRTF的基本原理 HRTF(Head Related Transfer Function,头部相关传递函数)是一种用于模拟三维空间声音定位的数字信号处理技术。其核心思想是通过数学模型来描述声音从声源传播到双耳过程中所受到的物理影响,包括头部、耳廓、耳道等结构对声波的反射、折射和衍射效应。 在实际环境中,当一个声音到达人的耳朵时,由于人体结构的影响,不同方向的声音会具有不同的频谱特征。大脑利用这些特征以及时间差和强度差来判断声音的方向。HRTF通过测量或计算特定方向下的这些特征,并将其表示为一对滤波器(分别对应左右耳),从而使得经过HRTF处理的声音能够在立体声耳机上重现原始的空间位置感[^1]。 #### HRTF的数据获取 为了构建准确的HRTF数据集,通常需要进行精确的测量实验。实验中使用人工头模型或者真人受试者,在自由场条件下放置多个扬声器于不同的方位角和仰角,然后记录每个位置处由扬声器发出的测试信号经过人头与耳朵后的响应。随后,将采集到的数据转换成频率域的形式,形成对应的HRTF滤波器组。这种个性化定制的数据能够提供更加真实的听觉体验,但同时也增加了获取成本[^1]。 #### HRTF的应用领域 - **虚拟现实(VR)与增强现实(AR)**:在VR/AR系统中,HRTF被用来创建沉浸式的音频环境,让用户即使闭着眼睛也能感知到周围世界的存在及其变化。 - **游戏开发**:特别是在射击类游戏中,玩家可以通过脚步声、枪击声等音效快速识别敌人的具体方位,提高游戏的真实性和互动性[^2]。 - **远程会议系统**:借助HRTF技术可以实现更自然的多方通话体验,让参与者更容易分辨说话者的身份。 - **助听设备**:对于某些类型的助听器而言,采用适当的HRTF策略可以帮助佩戴者更好地理解来自各个方向的声音信息。 #### HRTF面临的挑战 尽管HRTF提供了强大的空间音频解决方案,但在实际应用过程中仍然存在一些难题: - 个性化问题:每个人的身体构造都有所差异,因此通用型HRTF可能无法达到最佳效果; - 计算复杂度高:实时应用时需要大量的运算资源来执行卷积操作; - 动态跟踪:如果用户头部移动,则必须相应调整应用的HRTF以保持正确的空间感知。 针对上述问题的研究正在不断推进之中,比如通过机器学习方法预测个性化的HRTF参数、优化算法减少计算负担等手段来改善用户体验。 ```python import numpy as np from scipy.signal import convolve def apply_hrtf(audio_signal, hrtf_left, hrtf_right): """ Apply HRTF filters to mono audio signal to create binaural output. :param audio_signal: Mono input signal (numpy array) :param hrtf_left: Left ear HRTF filter coefficients (numpy array) :param hrtf_right: Right ear HRTF filter coefficients (numpy array) :return: Binaural output (numpy array with shape [length, 2]) """ left_channel = convolve(audio_signal, hrtf_left, mode='full') right_channel = convolve(audio_signal, hrtf_right, mode='full') return np.column_stack((left_channel, right_channel)) ``` 该代码示例展示了如何将给定方向的HRTF应用于单声道音频信号以生成双声道输出。这里使用了`scipy.signal.convolve`函数来进行卷积运算,这是实现HRTF效果的关键步骤之一。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值