【AI大模型】13、NLP预训练模型深度解析:从Word2Vec到认知智能

在这里插入图片描述

一、NLP技术演进的初始困境与破局之路

(一)自然语言处理的双重挑战

人类语言作为认知世界的符号系统,其复杂性远超结构化数据:

  1. 多语种异构性:全球现存7000余种语言,仅联合国工作语言就包含6种完全不同的符号体系(如汉字的表意性、英语的表音性、阿拉伯语的书写方向)。每种语言的词法规则(如俄语的格变化)、句法结构(如日语的主谓宾顺序)差异显著,导致跨语言模型需处理截然不同的语法树结构。
  2. 标注数据稀缺性:构建高质量标注数据集需耗费大量人力物力,如Penn Treebank标注百万词级语料需数百人年。对于低资源语言(如祖鲁语),公开标注数据几乎为零,形成“数据贫困-模型贫瘠”的恶性循环,使得全球NLP研究呈现“英语中心主义”格局。

(二)Word2Vec:无监督学习的破晓之光

2013年Mikolov等人提出的Word2Vec,如同一把钥匙打开了语义数学化的大门:

  • 双架构设计
    • Skip-gram:通过中心词预测上下文词,适用于低频词建模。数学上通过最大化对数似然函数训练:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

无心水

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值