| 主要作用 | 优点 | 缺点 | |
| BERT | |||
| BILSTM | |||
| BIGRU |
BERT中demo:如图两个句子的分类任务(MNLI\QQP\QNLI\STS-B\MRPC\RTE\SWAG),单句的分类任务(SST-2\CoLA);问答任务(SQuAD v1.1);单句序列标注任务(CoNLL-2003 NER),Google在很多任务上都做了测试,显示出了较好的性能。(预训练机制、微调机制??)

一、BERT 原理初探
原文下载地址:https://arxiv.org/pdf/1810.04805.pdf
参考阅读笔记:https://zhuanlan.zhihu.com/p/46652512 ;https://www.jianshu.com/p/4cb1f255cd7c ;https://www.cnblogs.com/rucwxb/p/10277217.html
| 上下文相关 | 模型 |

本文深入探讨BERT模型,包括其双向Transformer编码、Masked LM、Transformer结构及Sentence-level处理。BERT利用Transformer的注意力机制捕捉词汇间的上下文关系,通过Masked LM增强句子特征,适用于NLP任务如命名实体识别。微调阶段,通过组合Masked LM和Next Sentence Prediction的损失函数进行优化。
最低0.47元/天 解锁文章
433

被折叠的 条评论
为什么被折叠?



