该文章是首篇聚焦大语言模型(LLMs)时代语码转换(CSW)自然语言处理(NLP)的综述,系统梳理了相关研究进展、现存挑战并指明未来方向,同时提供了丰富的研究资源。
一、文章主要内容
- 核心背景:语码转换指在单一话语中交替使用多种语言或文字,是多语言NLP的核心挑战。即便LLMs快速发展,多数模型仍受限于混合语言输入处理能力弱、CSW数据集有限、评估存在偏见等问题,难以在多语言社会落地。例如,印度26%人口为双语者、7%为三语者,但基于单语训练的语音识别(ASR)系统在CSW数据上的词错误率高30%-50%,多语言自然语言理解(NLU)模型语义准确率下降达15%。
- 研究演进:CSW研究随NLP发展历经四个阶段。早期统计时代(2010年前)依赖规则和概率模型;表示学习时代(2010-2017年)引入分布式嵌入和循环模型;语境理解时代(2017-2020年)以GPT、BERT等模型为核心,可针对CSW数据微调,但仅多语言预训练不足以实现稳健性能;基础模型时代(2020年至今)利用GPT-3、PaLM等LLMs进行多语言预训练和基于提示的适配。
- 核心研究领域
- 任务覆盖:涵盖12类NLP任务,包括自然语言理解(LID、POS标注、NER等)和自然语言生成(代码混合文本生成、机器翻译等),还涉及语音处理、视觉-语言处理等多模态应用。
- 数据集与资源:整理了30余个数据集,覆盖80多种语言,分为多语言覆盖(如SwitchLingua含42万文本样
订阅专栏 解锁全文
4497

被折叠的 条评论
为什么被折叠?



