- 博客(33)
- 问答 (1)
- 收藏
- 关注
原创 【多模态读论文系列】MINIGPT-4论文笔记
分享第三篇多模态论文阅读笔记论文地址:https://arxiv.org/pdf/2304.10592代码:https://minigpt-4.github.io/
2024-11-07 12:30:36
1247
1
原创 【多模态读论文系列】LLaMA-Adapter V2论文笔记
本文提出了 LLaMA-Adapter V2,一种参数高效的视觉指令模型。主要通过以下方法来增强LLaMA-Adapter解锁更多可学习参数:解锁更多的可学习参数(例如,norm, bias 和 scale),将指令跟随能力分布到整个LLaMA模型中,而不仅仅是Adapter部分。早期融合策略:将视觉token只输入到LLM的早期层,尽早融入视觉知识。联合训练方法:引入了一种图像-文本对和指令跟随数据的联合训练方法,通过优化不同组的可学习参数来减轻这两个任务(图像-文本对齐和指令跟随)之间的干扰。
2024-11-05 13:18:20
1094
2
原创 【多模态读论文系列】LLaVA论文笔记
从CC3M数据集中筛选出59.5万对图像-文本对,主要筛选方法是使用spacy计算CC3M数据集上每个名词短语出现的频率,首先筛选出频率大于3的名词短语,对于频率大于3小于100的名词短语对应的图像-文本对全部加入候选数据集,频率大于100的,随机抽取100个包含该名词短语的图像-文本对加入候选数据集。视觉提示调优是一种参数高效的微调方法,通过引入少量的可学习参数将图像映射到Prompt空间(任务相关的连续向量),学习最优的一个Prompt向量,来将预训练的模型迁移到特定的任务上。仅考虑有明确答案的问题。
2024-11-02 17:12:30
1227
1
原创 从头开始构建GPT标记器
SolidGoldMagikarp”实际上是一个Reddit用户,分词数据集与实际语言模型的训练数据集非常不同,所以在分词数据集中,可能有大量的Reddit数据,因为“SolidGoldMagikarp”是一个经常发帖的人,这个词出现的频率很高,所以被合并成一个单独的标记,但是当你训练模型的时候,这些字符串没有在Reddit的数据中出现,这个标记在优化的开始是随机初始化的,并且在模型训练的过程中从未被更新过。随着词汇量的增加,嵌入表的大小也会增加,从而线性层的大小也会增加,所以要消耗更多的计算资源;
2024-05-30 20:02:32
1211
1
翻译 什么是编码器和解码器?
一般来说,编码器和解码器Transformers都使用相同的自注意力层来编码token。主要区别在于编码器旨在学习可用于各种预测类任务(如分类)的嵌入,而解码器则设计用于生成新文本,例如回答用户查询。
2024-05-21 20:18:07
641
原创 如何让机器理解人类语言?Embedding技术详解
在语言理解方面,人类的能力是无与伦比的。因为人脑能够轻松理解语言中的各种情感信息,例如幽默、讽刺、负面情绪等,只是我们必须了解句子所用的语言。例如,如果有人用英语评论我的文章,如果不借助翻译我可能很难理解对方想要表达的内容,所以为了有效的沟通,我们需要用对方最熟悉的语言进行交流。同理,为了让机器能够处理并理解任何类型的文本,需要我们将文本表示为机器能够理解的“语言”。那么,机器最擅长理解哪种语言呢?没错,就是数字。无论我们提供什么样的数据给机器,例如视频、音频、图片或是文本,机器最终都只能处理数字。
2024-05-13 15:44:51
1115
原创 AutoDL如何下载huggingface模型
本人使用AutoDL下载huggingface时,下面是我尝试过的一些方法,但有的方法对我来说没用,最后一种方法是最方便的,如果不想尝试前面的几种方法可以直接用最后一种。由于AutoDL和阿里网盘是可以相互传输数据的,所以就先通过colab将模型下载到阿里网盘,再将模型上传到AutoDL。如果使用huggingface官网下载模型,首先需要利用token登陆,如果没有token,需要先在。查阅资料后解释是模型太大,下载过程网路不稳定,需要关闭VPN,所以该方法对下载太大的模型可能行不通。
2024-05-10 13:05:16
7818
12
原创 模型训练加速策略:掌握数据并行的力量
在深入讨论之前,我们首先需要理解何为“数据并行”(Data Parallelism)。数据并行是并行计算的一种形式,它涉及到在多个处理单元(如GPU)上同时执行计算任务。在深度学习中,这意味着模型可以在不同的GPU上同时训练,每个GPU处理数据集的不同部分。
2024-05-08 11:00:00
1030
原创 为什么要梯度累积
随着深度学习模型变得越来越复杂,模型的训练通常需要更多的计算资源,特别是在训练期间需要更多的内存。在训练深度学习模型时,在硬件资源有限的情况下,很难使用大批量数据进行有效学习。大批量数据通常可以带来更好的梯度估计,但同时也需要大量的内存。梯度累积是一种巧妙的技术,它允许在不增加内存需求的情况下,有效地使用更大的批量数据来训练深度学习模型。
2024-05-06 16:09:33
1657
原创 kaggle酶稳定性预测第三名解决方案分享
我分别使用了如下三个数据集训练了三个11-fold xgb模型。数据集1数据集2数据集3和以下公共笔记本ensemble后得到最终结果。rosettarmsd第一点是利用三维坐标来构建突变残基的环境,例如相邻残基和突变残基之间的相对距离。第二点是,现有的服务器或模型,如Rosetta、FoldX、ESM等,在这场比赛中取得了不错的成绩。第三点是找到方法来区分野生型和突变型。在这次比赛中,很多公共笔记本都使用了野生型,但注意野生型和突变型的区别可能也会有所帮助。参考资料:[1]
2023-04-20 13:36:17
1580
6
原创 数据结构与算法----单链表
单链表文章目录单链表创建节点链表的打印链表的插入尾插:在最后一个结点的后面插入一个新的结点尾删尾删完整代码如下头插头删头删完整代码如下查找&修改在指定位置结点后面插入完整代码:删除指定位置结点后面的一个结点完整代码创建节点struct SListNode{ SListDataType data; struct SListNode* next;};为了方便表示,再给结构体定义新的类型名typedef struct SListNode{ SListDataType data;
2021-12-06 21:14:04
940
29
空空如也
机器学习交叉验证问题
2022-03-29
TA创建的收藏夹 TA关注的收藏夹
TA关注的人