nlp
文章平均质量分 91
CReep~
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
如何优雅的将Prompt应用于多任务场景?
近些年来,关于预训练语言模型(PLM)的研究数不胜数,Prompt-Tuning就是其中之一主打小巧轻便,更加普适高效,各种花式的魔改,例如 Prefix-tuning、P-tuning、Prompt-tuning等。如果对Prompt不大了解的朋友们可以移步我的另一篇文章https://mp.weixin.qq.com/s?__biz=MzkxMjExNTgwOQ==&mid=2247484234&idx=1&sn=e44ba444c3f12438671df91dffae03c3&原创 2022-03-19 19:20:38 · 3695 阅读 · 0 评论 -
如何引入外部知识增强短文本匹配?
如何引入外部知识增强短文本匹配?原创 2022-03-09 21:13:03 · 784 阅读 · 2 评论 -
AdaPrompt:进一步将下游任务融入到预训练模型
文章目录一、提出动机二、核心idea2.1 将场景信息以及提示信息融入到预训练模型2.2 扩展Verbalizer(就是要映射到label的单词)三、实验结果四、总结hi,各位伙伴们早上好,好久没有更文了,最近也没有发觉特别有意思的论文,今天给大家带来一篇和Prompt相关的论文,欢迎食用~论文地址:https://export.arxiv.org/pdf/2202.04824.pdf一、提出动机1)本文作者认为Prompt的提示信息不能被预训练模型充分挖掘使用2)下游任务的数据不能很好地应用于原创 2022-02-27 20:54:12 · 1207 阅读 · 2 评论 -
浅谈BERT预训练源码
目录一、Mask Launage Model1.1 核心思想1.2 mlm源码1.3 整词掩码二、Next Sentence prediction三、总结hi!又到每周分享的时刻了,希望大家能有收获呀!!!!!!!!!!!”BERT“ 这个词相信大家已经不在陌生了, 发布至今,BERT 已成为 NLP 实验中无处不在的基线。这里稍微扯一下什么是BERT毕竟不是今天的重点,BERT在模型架构方面沿用了Transformer的Encoder端(不知道什么是transformer的小伙伴们可以去阅读论文:)原创 2021-12-25 15:48:40 · 1797 阅读 · 0 评论 -
引入对抗训练的对比学习
目录文章目录一、Simple Contrastive Representation Adversarial Learning for NLP Tasks1.1 浅谈对抗1.2 监督对比对抗学习1.3 无监督对比对抗学习1.4 实验结果二、PromptBERT2.1 Motivation2.2 核心idea2.3 实验结果三、总结hi!又到每周分享的时刻了,希望看官老爷们能有收获呀!!!!!!!!!!!!!!今天主要给大家介绍两篇有关对比学习的论文。对比学习这样的方法在自然语言中备受关注。它使用成对的原创 2021-12-12 22:48:17 · 2284 阅读 · 0 评论 -
NLP新宠——Prompt范式
文章目录一、PET1.1 PET建模1.2 如何选取Prompt模板1.3 预测得token如何映射label1.4 实验结果二、KPT2.1 主要idea2.2 标签词的扩展2.3 标签词去噪2.4 语言表达器的使用2.5 实验结果三、P-tuning3.1 核心idea3.2 实验结果四、总结与展望五、参考资料hi!又到每周分享的时刻了,希望大家能有收获呀!!!!!!!!!!!什么是Prompting ?它和Fine-tuning有什么区别?这里引用CMU刘鹏飞博士放在博客里的图:prompt是原创 2021-11-28 20:00:16 · 5312 阅读 · 1 评论 -
“被玩坏了”的Dropout
目录目录一、SimCSE1.2 Supervised SimCSE1.3 实验效果二、ESimCSE2.1 Word Repetion2.2 Momentum Contrast三、R-Drop3.1 整体优化目标3.2 为什么简简单单的dropout如此有效呢?3.3 实验结果四、总结今天主要给大家带来Dropout在NLP最新应用,希望能给大家带来收获!!!!在训练DNN模型时,正则化技术,如: L1/L2 Normalization、Batch/Layer Normalization、Dropo原创 2021-11-07 15:01:26 · 362 阅读 · 0 评论 -
BERT源码解析(上)
解读源码前先大致了解下什么是Bert吧Bert用了Transform的encoder侧网络,作为一个文本编码器,使用大规模数据进行预训练,预训练使用了两个loss,一个是LM Mask,遮蔽源端的一些字,通过上下文去预测这些字。还有一个是next sentence prediction,判断两个句子是否在文章中互为上下句,然后使用大规模的语料库去预训练。模型结构如下:Bert base 具有12层上图所示的结构,每一层包含 multi-head Attention、Feed Forward两层子结构原创 2021-09-08 07:57:07 · 618 阅读 · 0 评论 -
task01
Datawhale 知识图谱组队学习 之 Task 1 知识图谱介绍文章编写人:吴晓均、康兵兵github 地址:目录Datawhale 知识图谱组队学习 之 Task 1 知识图谱介绍目录一、知识图谱简介1.1 引言1.2 什么是知识图谱呢?1.2.1 什么是图(Graph)呢?1.2.2 什么是 Schema 呢?1.3 知识图谱的价值在哪呢?二、怎么构建知识图谱呢?2.1 知识图谱的数据来源于哪里?2.2 信息抽取的难点在哪里?2.3 构建知识图谱所转载 2021-01-11 23:16:51 · 500 阅读 · 0 评论 -
白话文讲解Word2vec
文章目录一. One-Hot 编码与词嵌入1.1 One-Hot 编码1.2 词嵌入二. Word2Vec2.1 Skip-Gram三. Glove四. 利用gensim简单使用Word2Vec在进入主题之前我们先了解两个概念:One-Hot编码与词嵌入一. One-Hot 编码与词嵌入1.1 One-Hot 编码one-hot编码说白了就是用0,1两个数字来表示一个单词或者字符。比如我有10000个单词的corpus,然后love这个单词在语料库的顺序为1那么我可以用向量[1,0,0,0,0,…0原创 2020-12-29 11:14:57 · 362 阅读 · 0 评论
分享