Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models

该文章是首篇聚焦大语言模型(LLMs)时代语码转换(CSW)自然语言处理(NLP)的综述,系统梳理了相关研究进展、现存挑战并指明未来方向,同时提供了丰富的研究资源。

一、文章主要内容

  1. 核心背景:语码转换指在单一话语中交替使用多种语言或文字,是多语言NLP的核心挑战。即便LLMs快速发展,多数模型仍受限于混合语言输入处理能力弱、CSW数据集有限、评估存在偏见等问题,难以在多语言社会落地。例如,印度26%人口为双语者、7%为三语者,但基于单语训练的语音识别(ASR)系统在CSW数据上的词错误率高30%-50%,多语言自然语言理解(NLU)模型语义准确率下降达15%。
  2. 研究演进:CSW研究随NLP发展历经四个阶段。早期统计时代(2010年前)依赖规则和概率模型;表示学习时代(2010-2017年)引入分布式嵌入和循环模型;语境理解时代(2017-2020年)以GPT、BERT等模型为核心,可针对CSW数据微调,但仅多语言预训练不足以实现稳健性能;基础模型时代(2020年至今)利用GPT-3、PaLM等LLMs进行多语言预训练和基于提示的适配。
  3. 核心研究领域
    • 任务覆盖:涵盖12类NLP任务,包括自然语言理解(LID、POS标注、NER等)和自然语言生成(代码混合文本生成、机器翻译等),还涉及语音处理、视觉-语言处理等多模态应用。
    • 数据集与资源:整理了30余个数据集,覆盖80多种语言,分为多语言覆盖(如SwitchLingua含42万文本样
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值