柯南博客园-优快云博客

原创多模态—文字生成图片

第一阶段：图片经过编码器编码为图片向量，当然我们应该注意这个过程存在无损压缩（图片假设200*200，如果用one-hot表示，我们还需要考虑通道，色彩表示，则其维度要达到200*200*（256^3），可以想象这个维度多高，经过编码器进行压缩编码，在进行解码器进行解码获取图片，不断训练，知道其误差极小，训练出一个较好的编码器和解码器。DALL-E是一个用于文字生成图片的模型，这也是一个很好思路的模型。实现过程：文字进行GPT获取图片编码，图片编码经过解码器来获取图片，以实现文字生成图片。

2024-10-05 00:20:49 570

原创多模态—图文匹配

在模型训练时我们需要N个图片和N个文本对进行训练，文本通过text encoder形成文本语义向量，text encoder可以采用BERT，GPT，Bart等，图片也需要通过image encoder进行转化为图片向量，可以采用resnet，Vgg，ViT等。如下图所示，其对角线表示文图匹配对，我们作为正样本1，其余均是负样本-1，这里可以知道正样本是N个，负样本是N*N-N个，当N足够大时，正负样本数据不均衡问题会很明显，怎么做呢，我们需要对负样本采样。采样的策略是随机，还是顺序？

2024-10-04 23:35:52 977

原创 Vision Transformer

按照往常我们的想法transformer，Bert等模型都只能用来做NLP的问题，很少有人能去想做CV的问题，但是Vit的出现，打破了常规的认识，让我们知道了其实NLP和CV是没有界限的，只是技术的落后，把我们的想法限制住了。BERT模型的提出是用来做NLP的，通过BERT模型可以学习句子的语义，当然BERT的模型调用，输出有两个一个就是语义向量，另一个就是句子中所有token向量，那么语义向量是怎么表示的呢？BERT在进行句子编码时，会自动在句子头部添加[CLS]，注意这个是不用我们自己添加的，[CL

2024-10-04 23:04:13 416

原创 Bert模型特征提取代码实现

为了适应模型处理的需要，input_ids的长度被规范化为一个固定的值。在这个规范化过程中，长度超出预定值的输入会被截断，而短于此长度的输入则通过添加特定的填充标记（[PAD]，通常对应的整数标识符为0）来补齐。及其衍生体中，输入文本首先经过一个分词处理流程，其中文本被细分为单词或子单词（subwords），每个分词随后映射到一个唯一的整数标识符。Bert官网已经有训练好的Bert模型，即下载可以使用，在训练模型时，需要保证不对Bert模型参数进行修改。vocat.txt存储的语料库。

2024-10-02 22:13:09 1987

原创解决“RuntimeError: CUDA Out of memory”的方案。

1. 减少“batch_size”

2024-09-28 10:24:58 258

原创 ubuntu报错you don‘t have enough free space in /var/cache/apt/archivers.

使用df -h命令查看；

2024-09-27 20:12:40 403

原创免费的论文翻译软件有哪些推荐

以高质量翻译闻名，支持文件上传，提供较为自然的翻译效果。这些工具都能帮助你进行免费的论文翻译，选择适合的即可！：支持多种语言，用户可以上传文档进行翻译，简单易用。：允许上传文档并保持格式，支持多种语言翻译。：支持文本选择翻译，适合处理 PDF 文件。：提供PDF文档翻译功能，简单直观。

2024-09-26 11:38:45 2123

原创 ubuntu为什么安装vmware tools还是无法和主机之间拖拉文件？

其实VM虚拟机安装了tools工具是可以实现虚拟机和主机之间的拖拉的，很多教程中也实现了，但是自己一弄就不好使，这是为什么？因为你看到的教程是实现了主机windows系统和虚拟机中windows系统的拖拉文件，但是。那应该怎么解决这个问题呢？借助这个工具就可以实现了。

2024-09-26 00:07:25 752

原创 Jupyter中找不到已经创建好的虚拟环境

有小伙伴在终端已经建立好了虚拟环境，但是在Jupyter中却没有该虚拟环境，别急，只需要执行下面语句，就可以了网上很多教程，其执行命令很多，但其实没有那个必要，而且有很多都无用，只需要在虚拟环境中执行conda install nb_conda如果对你有帮助，就点赞，关注一下吧

2024-09-25 21:32:16 629

原创安装requirement.txt指定的依赖包

许多Python项目中都包含了requirements.txt文件，该文件记录了当前程序的所有依赖包及其精确版本号。

2024-09-24 20:52:14 1075

原创为什么pandas出现没有属性read_csv报错

首先，可以尝试在终端去使用pandas.read_csv()，如果存在问题，肯能是python版本和pandas版本发生冲突，我使用python3.6和python3.7，根据网上匹配信息，进行pandas安装，但很遗憾无法使用read_csv。其次，有的朋友可能发现终端使用read_csv没有问题，但是在pycharm中使用还是没有read_csv()，这种情况有两种可能，一，缓存原因，重启pycharm；这些是网上很多人都发了的，我仔细检查去，没什么用。我是第二种情况，重新安装好了。

2024-09-23 10:47:04 1394 1

原创循环神经网络

RNN是一种由记忆的网络，通常会把隐藏层的输出存入记忆单元，在下一层输入时，不仅仅要考虑输入的信息，还要考虑记忆单元的信息。记忆元简称单元，记忆元的值被称为隐状态。假设所有激活函数都是线性的，所有的权重都是1，输入序列为[1,1],[1,1],[2,2].可以计算出三次的输出值分别是[4,4]，【12，12】，【32，32】RNN的架构输入信息上海相同，但是记忆元的值不一样，导致其输出结果不同。

2024-09-08 11:02:30 441

原创自注意力机制（下篇）

位置编码用来记录向量的位置当然很多位置向量是借助正弦和余弦函数进行设定的，那么可以采用其他的方法吗？答案是肯定的，其位置向量的设定有很多种，同时目前也正处于研究之中。比如循环神经网络其实也可以用来产生位置编码，但其效果可能大多不如正弦函数。

2024-09-07 13:28:32 466

原创自注意力机制（上篇）

在进行语义情感分析时，判断其是积极还是消极的，对于语句的处理，往往是将词转化为向量，而一个句子则是一组向量序列，需要将这组向量序列输入到模型中，才能输出其是积极还是消极的。对于词汇的编码，有很多方法，其一，独热编码，即有多少词汇，则向量的维度即是多少，这种方法可以让词汇之间没有关联。可以看到特点，其编码只有一个维度是1，其余均为0.其二，词嵌入。将词汇表示成向量，其向量中包含语义的信息，所以可以通过向量计算出事物之间的关联。相似的事物会相距较近。

2024-09-07 13:08:28 1414

原创批量归一化&卷积神经网络

A：彩色图像的每个像素都可以描述为红色（red）、绿色（green）、蓝色（blue）的组合，这 3 种颜色就称为图像的 3 个色彩通道。这种颜色描述方式称为 RGB 色彩模型，常用于在屏幕上显示颜色。图像有大有小，而且不是所有图像尺寸都是一样的。常见的处理方式是把所有图像先调整成相同尺寸，再“丢”到图像的识别系统里面。以下的讨论中，默认模型输入的图像尺寸固定为 100像素 × 100像素。一张图像是由 100×100×3 个数字所组成的，把这些数字排成一排就是一个巨大的向量。

2024-09-03 21:15:20 1360

原创模型如何进行优化

首先，我们需要考虑一个问题，就是模型的设计问题，模型设计过于简单，却用来处理复杂问题，导致模型的效果不佳，则这是模型的偏差导致的；如果模型设计较为复杂，但是模型的测试集结果不如简单模型的效果，我们需要对两个模型的训练集加以分析，如果复杂模型的训练集效果比简单模型的训练集效果差，那原因只有一个，就是复杂模型的优化做的不好。这种情况，我们需要先看测试集损失值，如果测试集损失值很小，那么我们的模型训练很成功，如果测试集训练的结果不好，其损失值比较大，我们需要考虑是过拟合或者测试集与训练集不匹配的问题。

2024-09-01 21:39:29 895

原创自适应学习率

为了解决标签之间的距离关系问题，设计了独立向量，使得标签之间是独立的。分类问题常常需要考虑独热向量。

2024-08-31 14:15:09 1458

原创为什么使用激活函数？

神经网络不是新的技术，80、90 年代就已经用过了，后来为了要重振神经网络的雄风，所以需要新的名字。每一排称为一层，称为隐藏层（hidden layer），很多的隐藏层就“深”，这套技术称为深度学习。从图中可以观察到红色线条（分段线性曲线）作为真实情况是无法用类似一条蓝色线条来描述的，同时我们可以看到不同的w影响的是斜率，不同的b影响的是截距。这也是为什么我们平时看见的神经网络是多层的原因，其实归根到底，一个完整的网络激活函数的使用采用的是这两种方式。其实Relu,和Sigmoid都是常用的激活函数。

2024-08-30 22:45:15 477

原创寻找模型训练最优点

引入动量后，每次在移动参数的时候，不是只往梯度的反方向来移动参数，而是根据梯度的反方向加上前一步移动的方向决定移动方向。一般梯度下降走到一个局部最小值或鞍点时，就被困住了。但有动量还是有办法继续走下去，因为动量不是只看梯度，还看前一步的方向。即使梯度方向往左走，但如果前一步的影响力比梯度要大，球还是有可能继续往右走，甚至翻过一个小丘，也许可以走到更好的局部最小值，这就是动量有可能带来的好处。

2024-08-27 14:55:14 675

原创初识机器学习

机器学习可以看作是找函数的问题，其类型可以分为回归，分类，结构化学习回归是根据一个预测对象的相关数值因素，来预测该对象的未知数值。例如：预测PM2.5的明天的数值，则可以将今天的PM2.5相关数值，温度，臭氧浓度等相关数值作为输入，则由机器学习模型（可看作一个函数）来预测下一天的PM2.5数值作为输出分类是对于输入对象可以根据模型算法来进行分类，其分类结果的范围是已知的，其标签是已经设定好的。分类任务要让机器做选择题，例如：AlphaGo，其输出结果也是分类结果，即棋盘19*19的位置作为分类标签。

2024-08-26 21:11:28 623 1

qq_51925699的博客