Deep Speaker 详细介绍
前言:百度端到端说话人识别系统 Deep Speaker : an End-to-End Neural Speaker Embedding System,论文学习整理一下
0、补充知识
神经网络:
假设L层的输出为a[L],则L+1层得到的为 a[L]的线性变换 + 激活
- 线性变换:z[L+1] = w[L+1] * a[L] + b[L+1]
- 激活:a[L+1] = g( z[L+1] )
卷积层:
二维卷积核和三维卷积核:二位卷积核针对输入也是二维,二维卷积核可以想象成一个正方形,参数(高,宽);三维卷积核则针对三维输入(高,宽,通道数),可以想象成一个长方体,参数中多了一个 “通道数”,一般卷积核的通道数与输入数据的通道数是一样的,所以维度上的变化在于卷积核的个数。
卷积核参数:三维卷积核 一般设置4个参数,(高,宽,输入通道数,卷积核个数),其中卷积核个数也就是输出时的第三维-输出通道数。
维度变化:输入三维数据(高, 宽, 通道数c),卷积核(尺寸x * y * c,步长)。其中卷积核尺寸和步长会改变输入的高和宽的维度;而卷积核的个数带来的是第三维的变化。输入数据的通道数,只会影响卷积核的通道数,而输出的第三维只与卷积核个数有关。
全连接层:
1、Deep Speaker 介绍
Deep Speaker 是一个系统,所以包含的是一个说话人识别的流程。
包括: 语音前端处理 + 特征提取网络(模型) + 损失函数训练(策略) + 预训练