标点恢复--Incorporating External POS Tagger for Punctuation Restoration

本文介绍了一种结合词性标注信息的标点恢复方法,通过外部词性标注器提高标点恢复精度。该方法利用序列边界采样优化学习过程,并通过实验验证了其有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Incorporating External POS Tagger for Punctuation Restoration

标点恢复是自动语音识别中一个重要的后处理步骤,使得输出的文本加入标点符号更充分表达语义信息。这篇论文中标点恢复结合了词性标注信息使得模型有更好的效果。
亮点
(1)加入词性标注,并将词性标签融合到模型中
(2)提出序列边界采样(SBS)来更有效地学习标点位置作为序列标记任务
标点恢复任务可以看作一个序列标注任务。

模型

模型
模型分为两个部分,左边部分是一个加载预训练语言模型得到的特征表示,右边部分是 P O S   T a g g e r POS ~Tagger POS Tagger得到每一个token的词性的embedding 特征,最后将得到的特征进行拼接经过 F u s i o n   L a y e r   L Fusion~Layer~L Fusion Layer L S o f t m a x   L a y e r   S Softmax ~Layer~S Softmax Layer S得到最后的标点符号。这里实际上是一个序列标注问题。

Fusing POS tags into LM representations

(1) LM representations
一个长度为 n n n的文本 X X X经过预训练模型表征得到隐藏状态 H H H,这里预训练模型模型用 F F F表示
H = F θ ( X ) ∈ R n × d H = F_{\theta}(X)\in\boldsymbol{R}^{n \times d} H=Fθ(X)Rn×d
(2) Fusing POS tags
加载词性标注预训练模型 F W F_{W} FW得到 X X X中的每一个token的词性标注结果 T ^ \hat{T} T^
T ^ = F W ( X ) ∈ R n \hat{T} = F_{W}(X)\in \boldsymbol{R}^{n} T^=FW(X)Rn
其中 W ∈ R b × e W\in\boldsymbol{R}^{b\times e} WRb×e S o f t m a x   L a y e r W Softmax ~Layer W Softmax LayerW b b b是embedding size, e e e是词性的tag数量。 S o f t m a x   L a y e r   W Softmax~Layer~W Softmax Layer W得到 P O S T a g g e r POS Tagger POSTagger的embedding特征,简单来说,初始话一个embedding矩阵,我们使用 T ^ \hat{T} T^中的元素来查找 W W W 中的对应列,并形成 POS 嵌入 E ∈ R n × b E\in\boldsymbol{R}^{n\times b} ERn×b
(3) Self-attention Fusion Layer L
H H H E E E进行拼接得到 C ∈ R n × ( b + d ) C\in\boldsymbol{R}^{n\times(b+d)} CRn×(b+d),采用self-attention 多头encode layer L γ L_{\gamma} Lγ高效的表征 C C C,最后加一层 S o f t m a x   L a y e r   S   S η Softmax~Layer~S~S_{\eta} Softmax Layer S Sη得到标点符号
tags Y ^ \hat{Y} Y^
Y ^ = S η ( L γ ( C ) ) \hat{Y} = S_{\eta}(L_{\gamma}(C)) Y^=Sη(Lγ(C))
其中 γ \gamma γ η \eta η表示相关的参数。

Sequence boundary sampling

由于原始 ASR 输出中的句子边界不明确,因此整个训练集的原始输出可以被视为连续的词流。 由于内存限制,它必须被截断以与最大序列长度 L 对齐。

实验结果

(1)数据标注格式
这里采用序列标注任务的格式进行标注

it	O
can	O
be	O
a	O
very	O
complicated	O
thing	COMMA
the	O
ocean	PERIOD
and	O
it	O
can	O
be	O
a	O
very	O
complicated	O
thing	COMMA
what	O
human	O
health	O
is	PERIOD
and	O
bringing	O
......

(2)实验结果
在这里插入图片描述
如有错误,欢迎大家指证。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值