自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_42953627的博客

原创【Torch巩固复习记录】torch.nn

torch.nn中的nn全称为neural network,意思是神经网络，是torch中构建神经网络的模块。在看过一些资料后，我对nn这个模块是这么理解的：这个模块的基础是nn.Module，是实现的层（layer）是一个特殊的类。都是由class Layer(nn.Module)定义，会自动提取可学习的参数。ps：functinal模块中的函数就是一个函数，没有可学习参数。因此，nn就是pytorch用来提供各类预定义好的模型层的库，有什么需要的模型层在这个库里面找就好了。

2023-05-08 12:48:05 131

原创【Torch巩固复习记录】Tensors

开个新坑。最近在准备面试的时候，突然被一个写神经网络的题给难住了，因此也意识到了我很长一段时间内忘了去巩固pytorch的，太过于依赖调包+google搜索文档（甚至现在开始依赖chatgpt）。虽然不关注代码细节，关注输入输出，然后cv+拼积木的做法在短期内可以搭建出合格的框架，但是这显然缺少更深入的理解。遂决定，要把pytorch的一些基本概念再复习复习。本坑的所有内容都来自于：Tensor的基本概念：tensor是很像numpy的一种矩阵存储方式，甚至在很多时候和numpy公用一个存储空间。

2023-05-07 16:47:29 124

原创【技术解析笔记】提示工程指南

一句话总结提示技术

2023-04-29 20:39:12 281

原创【技术解析笔记】DDPM解析

DDPM指的是Denoising diffusion probalistic models，一种生成式模型，提出的时候特别强调了可以超过GAN。DDPM的想法来源于这样一个过程：对一个图像反复添加某分布的噪音，那么该图像最终就是一个随机噪音图。那么能否自动学习一个倒置过程呢？

2022-09-09 15:40:26 1435

原创【论文阅读笔记3】Learning to Transfer Prompts for Text Generation

近年来，文本生成任务在PLMs+微调的加持下取得了显著进展。然而，在数据稀缺场景下对PLM进行微调依然是具有挑战的。因此，基于PLM开发一个通用且轻巧的模型是十分有必要的。本文将介绍一种基于prompt的迁移学习方法（PTG）。PTG通过从sorce prompt中学习特征，并迁移为target prompt的方法实现目标文本生成。实验表示PTG能够产出和微调不相上下的结果。在NLP中，文本生成是一项重要的研究任务。其目的在于从源数据中自动生成人类可读的文本。

2022-09-08 11:49:01 802

原创【论文阅读笔记2】：Cooperative Self-training of Machine Reading Comprehension

论文阅读笔记：自训练方法在生成任务中带给我们的启示

2022-07-15 17:22:54 498

原创【技术记录1】：Prefixtunning在BART中是如何实现的?

Prefix-tunning实践bug记录，关于past-key-value

2022-07-03 20:21:04 2071 7

原创【论文阅读笔记1】：Pre-trained Language Models for Text Generation: A Survey

论文阅读笔记：预训练语言模型做文本生成

2022-06-15 00:22:04 847

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Magichz86 优快云认证博客专家优快云认证企业博客

码龄7年

IP 属地：北京市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

8: 原创

116万+: 周排名

205万+: 总排名

6193: 访问

: 等级

108: 积分

2: 粉丝

22: 获赞

7: 评论

32: 收藏

私信

关注

热门文章

分类专栏

最新评论

【技术记录1】：Prefixtunning在BART中是如何实现的?
Magichz86: 你可以看看源代码哈，他们是直接改的库函数，到modeling_bart里找找就可以了。
【技术记录1】：Prefixtunning在BART中是如何实现的?
肥玉: # cross_attn cached key/values tuple is at positions 3,4 of present_key_value tuple cross_attn_past_key_value = past_key_value[-2:] if past_key_value is not None else None 看样子是必须传4个的
【技术记录1】：Prefixtunning在BART中是如何实现的?
肥玉: # decoder uni-directional self-attention cached key/values tuple is at positions 1,2 self_attn_past_key_value = past_key_value[:2] if past_key_value is not None else None
【技术记录1】：Prefixtunning在BART中是如何实现的?
肥玉: 然后传past_key_value的时候不要传后两个tuple了。是什么意思，什么意思？
【技术记录1】：Prefixtunning在BART中是如何实现的?
肥玉: 然后传past_key_value的时候不要传后两个tuple了。

最新文章

提示

确定要删除当前文章？

取消删除