
预训练模型
Ai君臣
通俗说技术AI,一针见血。AI改变世界!立志做一款让人偷懒依赖的个人定制的管家。可信可赖可知心。有志之士互勉!wx公号一休哥
展开
-
bert后的比较有创新的xlnet和eletra模型通俗
Xlent 乱序排列模型,第一次听到这个名字的时候疑惑,乱序那不是句子都乱了吗,其实这正是利用了transform的跟token的位置无关性,但是句子中的token位置不同意义。所以每个token都带着位置embedding输入的。1.双流注意力,content和Query,2个流共享1套自注意力机制的参数,因此不会造成参数的增加。2.解释两个图,attention Mask很多人看不懂。每一行都是token 1,2,3,4。图示的序列是3-2-4-1,content stream就是t原创 2021-01-05 23:30:54 · 538 阅读 · 2 评论 -
语义相似度和字面相似度的关系BERT-flow
主要内容是BERT-flow,基于流式生成模型,将BERT的表示可逆地映射到一个均匀的空间论文题目:On the Sentence Embeddings from Pre-trained Language Models下载地址:https://arxiv.org/pdf/2011.05864.pdf论文代码:https://github.com/bohanli/BERT-flowBERT表示句向量,作者统计分析 BERT的词向量在空间中不是均匀分布,而是呈锥形。作者发现高频词都靠近原.原创 2020-12-19 14:12:33 · 1135 阅读 · 2 评论