大语言模型与生成式AI:技术演进、应用及挑战
1. 语言建模的发展历程
语言是受语法规则支配的复杂人类表达系统,开发能理解语言的AI算法颇具挑战。语言建模是提升机器语言智能的重要途径,旨在对词序列的生成可能性进行建模,以预测未来或缺失词元的概率。其发展主要经历了四个阶段:统计语言模型(SLMs)、神经语言模型(NLMs)、预训练语言模型(PLMs)和大语言模型(LLMs)。
早期,深度学习虽在图像分类和语音识别等感知任务中取得显著精度,但系统功能单一,且需要大量有标签数据集进行监督训练,获取大规模复杂认知任务的标注数据并不可行。自监督生成式建模为此带来了新可能,通过对未标记数据进行训练,系统能学习强大的特征表示。语言建模成为有前景的方法,即训练神经网络预测文本序列中的下一个单词。
1.1 神经网络与语言模型发展
- word2vec :2013年左右,无监督学习方法word2vec流行起来。它能高效训练浅层神经网络,从无标签文本数据生成词嵌入。这些词嵌入作为输入特征,对下游自然语言处理(NLP)任务很有用,展示了在大量文本数据上预训练词表示的强大能力。
- ELMo :2018年,艾伦研究所的研究人员提出了ELMo。它利用预训练的双向长短期记忆网络(BiLSTM)引入了深度上下文相关的词表示。句子上BiLSTM的内部状态被用作强大的基于上下文的词嵌入,在问答和其他语言理解任务中带来了显著性能提升。
- BERT :同年晚些时候,谷歌AI提出了具有革命性的双向编码器表示来自变换器(BERT)模型。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



