3D CNN与音频音乐深度学习:动作识别与音频处理新进展
3D CNN在动作识别中的应用
在动作识别领域,3D卷积神经网络(3D CNN)展现出了强大的能力,尤其在体育手势识别方面。以下是详细的技术流程和模型分析。
技术流程
首先,通过一系列的处理步骤对输入信息进行处理。具体公式如下:
x1 = fbu(res(Input))
x2 = fbu(x1)
x3 = fbu(x2)
这里的 fbu 和 res 代表特定的处理函数。接着,利用对称的自上而下架构扩展信息,公式为:
ftd(.) = Inter(res(.))
其中 Inter 表示用于上采样的三线性插值。同时,使用两个跳跃连接来收集不同尺度的信息:
y1 = ftd(x3) + res(x2)
y2 = ftd(y1) + res(x1)
y3 = ftd(y2)
软掩码分支由两个连续的层组成,每层包括3D批量归一化( Fn(.) )、ReLU激活函数和卷积层(核大小为 1×1×1 ),最后以Sigmoid函数结束,将值缩放到0到1之间:
超级会员免费看
订阅专栏 解锁全文
878

被折叠的 条评论
为什么被折叠?



