代码切换态度依赖语言建模研究
在语言处理领域,代码切换(Code - Switching)现象一直是研究的热点。本文围绕代码切换态度依赖的语言建模展开,深入探讨了相关技术和实验结果。
相关工作
- 代码切换现象 :代码切换通常发生在不违反相关语言句法规则的位置。它既具有说话者依赖性,又存在部分共享模式。说话者常为名词和宾语名词短语切换语言,常见的切换发生在限定词与名词、动词短语与宾语名词短语之间。已有研究使用机器学习算法,如朴素贝叶斯分类器,结合词形、语言标识、词性标签等特征来预测代码切换点。不同的N - Gram语言模型也被用于预测代码切换,其中基于类的模型表现最佳。将词性标签集成到神经网络中,能显著降低困惑度。
- 文本聚类 :常见的文本聚类技术有层次聚类(自底向上或自顶向下)和k - means。层次聚类结果较好,但时间复杂度为二次方;k - means时间复杂度为线性。最常用的距离或相似度度量是余弦度量。
- 循环神经网络及其适应 :循环神经网络能够处理长期上下文,优于传统的N - Gram语言模型。通过将输出层分解为类,可加速训练和测试过程。还可向神经网络添加额外信息,如主题信息或词性标签。对循环神经网络语言模型进行一轮迭代再训练,可降低单词错误率。
基于词性的代码切换预测
- SEAME语料库 :SEAME(东南亚普通话 - 英语)是一个包含新加坡和马来西亚说话者的普通话 - 英语代码切换语音语料库,用于“Code - S
超级会员免费看
订阅专栏 解锁全文
1881

被折叠的 条评论
为什么被折叠?



