BERT模型
基本介绍
昨天体验实践的模型是自然语言处理领域的模型,今天也是一样的。昨天的MusicGen是LLM模型,使用的是基于transformer的编码-解码器架构,而今天的BERT是基于transformer的双向编码器架构。由于主要目的是体验实践使用MindSpore运行BERT模型,所以只对BERT模型进行简单介绍,详细的可以自行搜索资料了解学习,然后就是使用MindSpore所提供的API去运行一下BERT模型
模型简介
BERT全称是来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers),它是Google于2018年末开发并发布的一种新型语言模型。与BERT模型相似的预训练语言模型例如问答、命名实体识别、自然语言推理、文本分类等在许多自然语言处理任务中发挥着重要作用。模型是基于Transformer中的Encoder并加上双向的结构,因此一定要熟练掌握Transformer的Encoder的结构。
BERT模型的主要创新点都在pre-train方法上,即用了Masked Language Model和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。在用Masked Language Model方法训练BERT的时候,随机把语料库中15%的单词做Mask操作。对于这15%的单词做Mask操作分为三种情况:80%的单词直接用[Mask]替换、10%的单词直接替换成另一个新的单词、10%的单词保持不变。因为涉及到Question Answering (QA) 和 Natural Language Inference (NLI)之类的任务,增加了Next Sentence Prediction预训练任务&#x