我想吃鱼了，-优快云博客

原创 cursor配置deepseek遇到的坑

第一步，URL设置，第二步设置api key,第三步，点击verify，第四步点击右上角的按钮(verify之前按钮不会出现)这是cursor 0.40.4版本。

2024-09-16 19:23:59 3200

原创 RuntimeError: Sizes of tensors must match except in dimension 3. Got 21 and 22 (The offending index

本问题具体体现在步长为2的Conv，卷积后得到的尺寸，经过upsampling后无法回到原来的尺寸。x = m(x)，观察哪一行的x进行的错误，找到报错模块。所以更改Concat就可以了，找到common.py。

2024-09-07 20:29:02 600 1

原创 MMCV\MM系列报错:ImportError: libcudart.so.12: cannot open shared object file: No such file or directory

python版本太低了，通常是torch的版本太高，比如2.0，只能支持CUDA11.7，但此时3.8的python版本就会报这个错。这个时候只能重新建一个环境3.9的python环境了。

2023-11-20 12:37:08 2477 2

原创从零实现NMS

说多说少都是泪，被问到NMS如何实现的时候侃侃而谈，但是一旦从零手写就捉襟见肘，往后再学习的时候一定作到从零书写每一块代码。

2023-06-09 19:58:54 296

如果已经在fork的仓库中更新了文件，想要想原始仓库提交pr：1.打开fork仓库，在页面顶部找到Pull requests标签，点击。2.在右上角点击New pull request按钮。3.在Comparing changes页面，会看到两个下拉菜单，左侧显示的是你fork仓库，右边是原始仓库，确保选择了正确的仓库，并选择要提交的分支(通常是master).4.点击Create pull request按钮，并填写一个简短的标题和描述，描述修改。

2023-05-08 16:01:47 3349

原创 d2l BERT预训练(model+dataset*+train)

## 构造辅助损失函数，用于计算mlm和nsp的损失值，相加### mlm_Y_hat为为对应Tmask预测的各个类分数;nsp_Y_hat为(bs,2)，为对应句子对是否为相连的。#@save# 前向传播# 计算遮蔽语⾔模型损失# 计算下⼀句⼦预测任务的损失这里计算损失就不要encoder_out了。注意mlm_l计算式，除weights是<pad>不算loss，最后再除weights数表示对每个预测取平均值。

2023-04-27 14:19:08 1449

原创 d2l Transformer

终于到变形金刚了，他的主要特征在于多头自注意力的使用，以及摒弃了rnn的操作。

2023-04-23 19:59:35 1297 5

原创 d2l 使用attention的seq2seq

这一章节与前面写好的function关联太大，建议看书P291.这章节主要讲述了添加attention的seq2seq,且只在decoder里面添加，所以全文都在讲这个decoter。

2023-04-22 22:04:45 868

原创 d2l 注意力评分函数 --附加mask_softmax讲解

本章节tensor处理操作也不少，逐个讲解下：

2023-04-21 22:03:43 1944

原创 d2l Nadaraya-Waston核回归

注意力机制里面的非参数注意力汇聚。

2023-04-19 17:04:55 486

原创 d2l解码编码器与seq2seq

总结一下简介实现rnn的输入输出，输入为X(T,bs,emb);net = nn.rnn(input,h)改为nn.GRU\LSTM都一样，都为(input,h)。在数据处理后，input可以为emb，或者是上述的emb+h。通过nn的net处理后得到的都是(T,bs,h)。

2023-04-18 22:18:08 1176 1

原创 d2l机器翻译数据集

两组(bs,T)+(bs)；分别表示features与labels的bs个长为T的最终标号,与该bs对应的valid_lenprint('X的有效⻓度:', X_valid_len)print('Y的有效⻓度:', Y_valid_len)break'''X的有效⻓度: tensor([4, 4])Y的有效⻓度: tensor([3, 3])'''

2023-04-18 21:40:24 1042

原创 d2l 里面GRU与Lstm实现

此二者的本质都是对rnn进行改良：关注当前多还是关注之前多。

2023-04-14 10:33:53 568

原创 d2l从零与简洁实现RNN

一层循环神经网络的输出被用作下一层循环神经网络的输入''''''这里的X经过rnn得到的Y，输出的是(T,bs,hiddens),不涉及层的运算，指每个时间步的隐状态state尺寸为(隐藏层数,bs,hidden)''''''torch里面的rnnlayer只包括隐藏层，不包括输出层。

2023-04-13 17:45:16 2267

原创 d2l语言模型--生成小批量序列

对语言模型的数据集处理做以下汇总与总结。

2023-04-11 21:59:59 1026 2

原创 d2l 文本预处理textDataset

这一节极其重要，重要到本来是d2l的内容我也要归到pyhon封面，这里面class的操作很多，让我娓娓道来！

2023-04-10 19:03:37 1288

原创 d2l Markov序列模型

本节的任务是使用Markov模型对后续序列进行预测，使用sin函数＋噪声绘制1000个样本点，取tau为4，即利用后四个的信息预测第五个。

2023-04-10 18:06:03 735

原创 d2l FCN全连接网络 --children()调用部分原网络操作与分割任务loss计算流程

在此讲解FCN全连接网络，主要介绍里面的children()拾取原网络中部分网络层并附加新网络层的操作，并对分割任务的loss计算流程进行了debug，为后续类似做法做参考。

2023-04-06 16:19:33 489

原创 d2l风格迁移--包含tensor与pil图片互换操作

对13章风格迁移任务进行讲解，并对其中的部分操作如pil与tensor呼唤进行具体介绍，方便后续调用！

2023-04-06 15:42:02 464

原创 d2l图像分割数据集制作

本文主要讲述图像分割Segmentation数据集的制作。

2023-04-05 22:17:31 527

原创 datawhale天池二手车比赛

听老师讲了很多，并结合天池正式赛里面的lgb与xgb模型baseline与特征工程，进行代码试验.

2023-03-31 09:43:35 768

原创解决： RuntimeError: CUDA error: device-side assert triggered CUDA kernel errors might be

主要可能出现的原因：1.传入传出的通道数不对；2.net最终全连接输出的class数目对不上labels；3. devices没有具体到某一个，而是一个list;4. 关了重新再连。建议先用一个单tensor如下，进行检验net的输入输出正确性，再放到dataset上。笔者首先尝试了前三个，结果还是报这个错，确认修改无误了把这玩意关了，再打开，正常运行了。

2023-03-27 20:50:25 4469 1