HanSomeLing-优快云博客

原创 Qwen2-VL笔记

qwen2-vl中说：“We have retained the Qwen-VL framework, which integrates vision encoders and language models.”，但是代码上qwen2-vl和qwen-vl的模型结构并不一致，除了动态分辨率和旋转位置编码外，连接部分用的是一层mlp（类似于llava的结构），而不是qwen-vl的类q-former结构。文章的消融实验的结果感觉并不支持文章的创新点，动态分辨率和多模态旋转位置编码并没有很大的性能提升。

2024-09-27 14:19:14 1863

原创 Qwen-VL技术报告笔记

之前有很多文章说qwen-vl用的是q-former的架构，这里我看并不是用了q-former的架构，只能说是用了q-former的的思想，都有一个query向量，但是q-former是一个多层的transformer架构，比较复杂（blip2-opt-2.7b包含12层的transformer，感兴趣的可以去看看源码，transformers库也集成了这个模型），这里只是用了一个交叉注意力层，简化了很多，已经有点接近于llava的架构了。数据集的信息和构建方法就不介绍了，感兴趣的可以去看原文。

2024-09-27 14:08:56 1087

原创 llava 1.6笔记

设计了AnyRes技术（上一篇llava 1.5的笔记有介绍），可以将图片切分成{2×2,1×{2,3,4},{2,3,4}×1}{2×2,1×{2,3,4},{2,3,4}×1}多种形式。高质量用户数据的标准：指令数据的多样性和回答的有效行。1×{2,3,4}：这里的 1 表示图像保持一行，但列的数量可以是 2、3 或 4，即可以将图像水平分割成 2、3 或 4 个小块。{2,3,4}×1：这里的配置则是将图像垂直分割为 2、3 或 4 行，而列数保持为 1，也就是说每个垂直的切片是一个完整的纵列。

2024-09-26 10:25:29 449

原创 llava1.5笔记

之前的llava模型以简单的结构，优秀的能力成为了大多数图文多模态大模型的标准结构。今天看看同样的作者在llava基础上开发的llava 1.5又有哪些改进，通过这些改进也可以帮我们找找解决问题的思路。一、引言和背景llava模型在很多下游任务和基准测试上取得了优异的成绩，尤其是在对话式视觉推理，但是在单词或者短语回答的传统视觉问答上的效果不如后来的InstructBLIP等模型。到底是模型结构的差异还是训练数据的差异并不清楚，这篇文章就来整体、细致的分析一下llava模型，并做一些改进。

2024-09-24 15:40:20 1303 1

原创 Flamingo论文笔记

2、语言模型的交叉注意力机制使用了0初始化的tanh门控，如果不用，效果会有下降；Perceiver Resampler可以接受多张图片的输入，图像经过编码器后加入时间维度的位置向量，展平后和新引入的Query向量进行注意力的计算（和blip2中的q-former有点类似），再经过前馈神经网路和残差结构得到固定长度的特征向量。本文的创新点：1、提出了一个新的图文模型的架构，可以通过少量的上下文学习执行多模态任务，并且可以高效的处理任意交错的视觉图像和文本，并生成文本；2、设计了模型少样本评估的基准测试；

2024-09-23 17:00:39 536 1

原创遥感领域图文大模型综述论文笔记

几个比较有代表性的工作是：RemoteCLIP（基于遥感图片训练的clip模型，后续可以当作遥感图文大模型的视觉编码器）、RSGPT（主要贡献是提供了一个人工注释的、高质量遥感图文数据集）、RS5M（500万条遥感对话数据集）、DiffusionSat（遥感图像生成）、GeoChat（基于llava在遥感数据上进行微调，不仅支持整体场景描述，也支持针对特定区域对话，也可以定位特定的对象，这个工作同时也生成了一个新的遥感领域的多模态指令遵循数据集）。这里的总结是我个人的总结，不是论文作者的总结。

2024-09-20 11:36:08 1054 1

原创 BLIP-2论文笔记

Q-Former通过一组可学习的查询向量从冻结的图像编码器中提取视觉特征，当作冻结的图像编码器和冻结的LLM之间的连接器，提取出对LLM生成所需文本最有用的视觉特征。blip2的Q-Former预训练与blip相似，也是设计了3个loss：图像-文本对比学习（ITC）、基于图像的文本生成（ITG）损失、图像-文本匹配（ITM，一个二分类任务）。语言生成的预训练是将连接了冻结图像编码器的Q-Former经过一层全连接层进行维度的转换，拼接到语言模型的最前面，输入的语言模型生成文本。2、模型架构和训练策略。

2024-09-18 14:10:01 972 1

原创 BLIP论文笔记

这个项目项目的初衷是想训练一个对中文支持更友好的图文多模态模型，所以挑了qwen-vl的图片编码器，语言模型选择了qwen2，这个项目提供了模型权重组合的方法，用中文数据集对模型进行训练，可以完成基本的中文图文问答。本文的大意是之前已经有了一些视觉-语言的预训练的工作，但是这些工作存在2个主要缺陷：1、模型层面，大部分都是采用编码器的结构，在生成文本的时候不好用，还有一些编码器-解码器的结构，但是尚未成功应用于图像-文本检索任务；训练的时候将三个loss直接相加，当成总的loss，用来更新模型。

2024-09-10 10:57:10 588 1

原创 LLaVA论文笔记

这个项目项目的初衷是想训练一个对中文支持更友好的图文多模态模型，所以挑了qwen-vl的图片编码器，语言模型选择了qwen2，这个项目提供了模型权重组合的方法，用中文数据集对模型进行训练，可以完成基本的中文图文问答。模型结构没什么可以说的，就是一个一个语言模型、一个图片encoder（这里用的clip），中间用一个mlp的projection将图片encoder的特征投影到和llm相同的尺寸，和llm的embedding拼接后输入llm，其余就和语言模型一样了。这里的像素值和标准差是clip提供的默认值。

2024-09-06 13:46:35 947 1

原创从0开始训练一个中文图文大模型

这个项目项目的初衷是想训练一个对中文支持更友好的图文多模态模型，所以挑了qwen-vl的图片编码器，语言模型选择了qwen2，做完之后才发现这不是和qwen-vl差不多嘛。不过大家可以学习这个思路和流程，可以组合不同的图片编码器和语言模型，再在自己的数据集上训练，看看是否有更好的结果。这个项目提供了模型权重组合的方法，用中文数据集对模型进行训练，可以完成基本的中文图文问答。

2024-09-05 13:49:33 367

原创大模型不同tokenizer训练效果对比

由于我需要从头训练一个中英文的模型，所以这里选择了开源tokenizer：qwen2（通义千问的分词器）、glm4（智谱的分词器），和两个我根据自己数据训练的分词器：custom、custom_tong。考虑到我训练分词器的算法是BPE算法，这种算法将出现频率最高的词添加进词表，为了照顾部分数据集（主要是代码数据）可能因为比较小，不会出现在词表中，所以我从每个数据集中随机抽取同样大小的文本（共1.5G）训练分词器custom_tong。感觉开源模型中通义还是很好的模型，效果挺好的，开源的种类也多。

2024-09-02 15:42:38 407 2

原创对比不同开源大语言模型的结构有什么区别？

今天我们来分析和对比一下目前比较流行的几个开源LLM在模型结构上有什么区别，这里挑选的openai的gpt2、llama、qwen2、mistral和olmo。

2024-08-19 11:40:32 1161

原创从0开始训练一个大模型，跑通chatgpt所有流程

今天介绍一个我的github开源项目：Zero-Chatgpt（https://github.com/AI-Study-Han/Zero-Chatgpt）。从0开始训练一个大模型，跑通chatgpt训练所有流程。根据这个项目，你只需要收集自己的数据就可以直接跑一个你自己的大模型，可以根据你自己手边的计算资源自由的缩放模型和数据大小。

2024-08-14 11:21:04 217 1

原创有人有pile的数据集吗？22个来源，825G的那个版本，有感谢

有人有pile的数据集吗？

2023-11-07 12:11:24 293

原创 springboot项目中在普通类中注入bean的问题

#springboot项目中在普通类中注入bean直接在普通类中使用@Autowired注入bean，会导致注入的对象为null。这是因为普通类无法通过@Autowired注入bean，使用@Autowired注入bean要求这个类也注入到spring容器中，交给容器管理。##解决方法一：新建一个spring工具类参考博客：https://blog.youkuaiyun.com/weixin_42805929/article/details/116062432?utm_medium=distribute.pc_a

2022-06-02 17:36:30 1485 1

原创排序算法

1、插入排序插入排序就和打扑克排序一样，从头开始，每次插入一个新的元素。从已排序部分尾部开始，若新的元素满足排序，则插入，不然原位置元素后移移位，最后插入新的元素。若原本已排序（最好情况），时间复杂度为O(n)，若原为逆序（最坏情况），则为O(n^2)。...

2020-10-26 20:35:19 130

qq_37261783的博客