- 博客(8)
- 收藏
- 关注
原创 BERT基础
提出了BERT,BERT是用来减轻之前提到过的语言模型,是一个单向的一个限制,用到的是一个叫做Masked Language Model(MLM机制),带掩码的语言模型,MLM机制:每一次随机的选一些词元,然后把它盖住,你的目标函数是预测那些被盖住的那些字(完全就是完形填空啊)。现在的技术都有一定的局限性,特别是来做预训练的表征的时候,主要问题是标准的语言模型是一个单向的,导致在架构的选择时有一定的局限性。②假设有一个比较好的预训练的模型,不用对特定任务做一些特定的模型的改动。但是它只能处理单向的问题。
2024-05-19 00:22:58
481
原创 Transformer
transformer在做一个什么样事情?输入在经过处理后进行输出。这个处理过程就是编码-解码模型(Encoders-Decoders Model)。需要注意的是,Encoders由6个完全相同的Encoder组成,Decoders由6个完全相同的Decoder组成,值得一提的是,Encoder和Decoder的数量并不是固定的,他是一个乘N的循环,有一个特点:Encoder结构是完全相同的,Decoder结构也是完全相同的,但是Encoder和Decoder的结构是不相同的;
2024-05-13 23:58:35
1007
原创 前馈神经网络
④层次化:Neural Netword神经网络,[多层感知机MLP(Multi-Layer Perceptron)、Autoencoder、CNN、RNN];2、贝叶斯派➡️PGM[①有向图模型-贝叶斯网络(BayesianNetwork),②无向图模型-Markov Network,混合模型-有向图和无向图混合-Mix Network]在FNN中,信息永远向前移动,网络中没有循环,通过隐藏层到达输出层。1、频率派➡️统计机器学习[①正则化,②核化,③集成化,④层次化]
2024-05-09 14:07:42
819
原创 注意力机制
动物需要在复杂环境下有效关注值得关注的地方。心理学框架:人类根据随着意识线索和不随意线索选择注意点。人们会有意识的关注想要的东西。有个例子:红色杯子就是不随意线索,书籍就是随意线索;随意线索和不随意线索中的随意指的就是随着自己的主观。可以将随意理解为有目的的,不随意反之。
2024-05-08 14:43:07
330
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1