一、NLP技术演进的初始困境与破局之路
(一)自然语言处理的双重挑战
人类语言作为认知世界的符号系统,其复杂性远超结构化数据:
- 多语种异构性:全球现存7000余种语言,仅联合国工作语言就包含6种完全不同的符号体系(如汉字的表意性、英语的表音性、阿拉伯语的书写方向)。每种语言的词法规则(如俄语的格变化)、句法结构(如日语的主谓宾顺序)差异显著,导致跨语言模型需处理截然不同的语法树结构。
- 标注数据稀缺性:构建高质量标注数据集需耗费大量人力物力,如Penn Treebank标注百万词级语料需数百人年。对于低资源语言(如祖鲁语),公开标注数据几乎为零,形成“数据贫困-模型贫瘠”的恶性循环,使得全球NLP研究呈现“英语中心主义”格局。
(二)Word2Vec:无监督学习的破晓之光
2013年Mikolov等人提出的Word2Vec,如同一把钥匙打开了语义数学化的大门:
- 双架构设计:
- Skip-gram:通过中心词预测上下文词,适用于低频词建模。数学上通过最大化对数似然函数训练:
- Skip-gram:通过中心词预测上下文词,适用于低频词建模。数学上通过最大化对数似然函数训练: