- 博客(5)
- 收藏
- 关注
原创 ELMO,BERT,GPT简介
在预训练之后的BERT引用到具体任务需要有标签的任务进行微调(Fine-Tuning)。BERT的用途:文本分类(情感分析)分析文本属于哪一类词性分类分析每个词的词性逻辑判断判断前一段文本能否推出后一段文本-问题回答给出一段文本D和问题Q,输出两个数s, e,在s和e之间的文字就是答案。(答案必须在文本内)通过学习到的两个向量(橙色和蓝色),与每个词获得的向量分别做向量点积,获得到的积经过softmax函数得到最大可能的两个位置。
2023-12-07 09:34:38
958
转载 基于`transformer`的中译英模型(tensorflow)
具体来说,Multi-Head Attention将输入矩阵分别进行多个头的线性变换,然后对每个头的变换结果分别计算Scaled Dot-Product Attention,最后将每个头的Attention结果拼接在一起并通过一个线性变换输出。这样做是因为对于较大的深度值,点积的大小会增大,从而推动 softmax 函数往仅有很小的梯度的方向靠拢,导致了一种很硬的(hard)softmax。此仓库是我在学习transformer的途中找到的,写的非常好,该仓库下还有一系列的自然语言处理教程,
2023-11-30 10:48:33
640
原创 用tensorflow搭建BiLSTM+Attention构成的seq2seq模型
用Attention层连接decoder_outputs和encoder_outputs,在attention中,通常将decoder_outputs参数放在前面,如此attention会更关注decoder_outputs。模型的效果并不是很好,accuracy只有20%不到,大多数测试中翻译也是错误的。估计是数据处理优化没做好,同时优化方法不够。关于BiLSTM的构建,只能应用于encoder编码器上,因为decoder解码器不能反向。2.类似这篇博客中的嵌套方法。来自于LSTM构建的模型。
2023-11-23 10:59:30
707
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人