pytorch
文章平均质量分 81
A抽子
zzu->tju。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hf transformers库中generate函数解读
本文介绍了Hugging Face Transformers库(版本4.37.1)中generate函数的参数配置和返回值格式。该函数主要用于文本生成任务,支持多种自定义参数:包括输入张量、生成配置、logits处理器、停止条件、前缀约束函数、多GPU同步开关、辅助模型加速、流式处理以及负面提示等。返回值格式根据return_dict_in_generate参数决定,可返回包含生成序列、分数、注意力权重等信息的结构化ModelOutput对象(分为GenerateDecoderOnlyOutput和Gene原创 2025-11-10 11:41:56 · 451 阅读 · 0 评论 -
hf中transformers库中generate的greedy_search
本文介绍了greedy_search方法的参数、返回值及核心代码逻辑。该方法接收input_ids、logits_processor等参数,控制文本生成过程。返回值根据return_dict_in_generate决定返回格式。代码初始化处理参数后,在循环中进行模型推理,通过logits_processor处理得分,并记录生成状态。支持批处理不同序列的独立终止判断,以及多GPU同步生成场景的处理。整个过程实现了基于贪心算法的文本生成功能。原创 2025-11-10 11:37:05 · 960 阅读 · 0 评论 -
hf transformers KV cache
KV cache显存计算涉及公式:2×精度×层数×embed维度×最大序列长度×批次大小。在HuggingFace Transformers中,past_key_values存储KV缓存,其格式为多层(key, value)元组,每个key/value的维度为(batch_size, num_heads, seq_len, head_dim)。实验显示,使用缓存时,随着解码步数增加,past_key_values的序列长度会逐步扩展(如从6增至7),验证了KV缓存的动态增长特性。通过对比完整生成与逐步解码过原创 2025-11-04 13:11:36 · 338 阅读 · 0 评论 -
Transformers中不同的generation strategies生成策略
本文介绍了Transformer模型中的几种文本生成策略。基础解码方法包括贪心搜索(每次选概率最大的token)、随机采样(按概率分布采样)和束搜索(追踪多个候选序列)。高级方法如投机采样,通过小模型生成候选token再由主模型验证,可加速生成过程。文中提供了HuggingFace库的代码示例,展示了不同策略在Llama-2等模型上的实现方式。这些方法各具特点,适用于不同场景的文本生成任务。原创 2025-10-20 20:01:59 · 302 阅读 · 0 评论 -
Stanford CS336 assignment1 | Training a Transformer LM
本文介绍了训练Transformer语言模型的关键组件实现,主要包括交叉熵损失函数和优化器(SGD和AdamW)。交叉熵损失函数通过softmax计算概率分布并实现数值稳定技巧。SGD优化器使用学习率衰减策略,而AdamW优化器实现了自适应学习率调整和权重衰减功能。两种优化器都支持参数分组和状态跟踪,其中AdamW通过原地操作优化显存和计算效率。这些组件为Transformer语言模型的训练提供了基础支持。原创 2025-10-05 14:33:35 · 1015 阅读 · 0 评论 -
线性回归从零开始(麻雀虽小五脏俱全)
定义一个获取小批量数据集的函数原创 2024-03-30 15:13:06 · 382 阅读 · 0 评论 -
基础优化方法
梯度是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。梯度在物理学、机器学习和数学优化等领域有着广泛的应用。w0学习率的选择;不能太小:因为梯度计算是有花费不能太大:因为步子太大会跨过最优解,导致结果一直在震荡并没有真正的使损失函数减小。原创 2024-03-29 16:46:20 · 359 阅读 · 0 评论 -
Pytorch入门-Transforms
在PyTorch中,transforms是一个用于图像预处理和数据增强的模块,通常与torchvision库一起使用。torchvision提供了大量预先定义的transforms,它们可以方便地应用于图像数据,以进行预处理或增强。这些transforms对于训练和评估机器学习模型(尤其是深度学习模型)非常有用。python中的call方法在Python中,__call__ 是一个特殊方法,也被称为“魔法方法”或“双下划线方法”。原创 2024-03-13 20:23:01 · 1129 阅读 · 0 评论 -
Pytorch入门-TensorBoard
这意味着img_array的第一个维度是图像的高度,第二个维度是宽度,第三个维度是颜色通道(例如,RGB)。通过 SummaryWriter,你可以将标量、图像、直方图、文本等数据写入到 TensorBoard 的日志文件中,以便在 TensorBoard 的 Web 界面中进行可视化。TensorBoard是TensorFlow自带的一个强大的可视化工具,也是一个Web应用程序套件。还有其他常见的格式,如CHW(通道-高度-宽度),这取决于你使用的库和数据的表示方式。是 PyTorch 的。原创 2024-03-13 14:58:10 · 740 阅读 · 0 评论
分享