谁怕平生太急-优快云博客

原创 Qwen2.5-Coder技术报告阅读

这项工作推出了Qwen2.5-Coder，这是Qwen系列的最新成员。基于顶级开源LLM（大型语言模型）Qwen2.5，Qwen2.5-Coder通过对Qwen2.5-1.5B和Qwen2.5-7B在大规模数据集上的广泛预训练和后训练进行开发。为了保证预训练数据的质量，我们通过收集公共代码数据，从网络文本中提取高质量的代码相关内容，并使用高级分类器过滤低质量数据，汇编了一个数据集（20 Technical Report表示这一步骤）。此外，我们构建了一个精心设计的指令微调数据集。

2024-11-15 17:19:04 693

原创 MHA实现

（1）关键点说明：多头注意力机制：将输入分成多个头，每个头独立计算注意力（2）维度变换：输入：(batch_size, sequence_length, embedding_dim)多头处理：(batch_size, num_heads, sequence_length, dim_per_head) 后面两项用于 Q、K的计算维度变换的核心是用 view和permute来进行（3）注意力计算：Q×K^T 得到注意力分数除以维度的平方根进行缩放 torch.sqrt()使用softmax

2024-11-13 09:53:50 228

原创最近看到还不错的blog

一、统一嵌入解码器架构图像编码器：通常是预训练的视觉变换器，如CLIP、OpenCLIP图像编码器的过程：图像划分为小块、经过线性投影层、再接上Transformer encoder。上面的线性投影层：目的是将被展平为向量的图像块投影到与 Transformer 编码器兼容的 embedding尺寸。图像编码器之后的Projector：投影器通常是一个线性投影层，目的是将图像编码器的输出投影到与text token embedding的维度相匹配的维度。也可以叫做适配器、连接器。

2024-11-12 17:58:35 291

原创华为诺亚方舟新作：GUI Agent综述

然后使用ChatGPT选择下一个操作。这种方法有效地整合了历史操作和用户UI，而无需对底层LLM进行任何修改。此外，Zheng等人(2024)提出了SeeAct，一个基于GPT-4V的通用网络代理。

2024-11-10 22:56:48 1564 3

原创俄亥俄州立大学：GUI代理的通用视觉定位

我们展示了一个简单的方案，包括基于网络的合成数据和对LLaVA架构的轻微调整，对于训练此类视觉定位模型出奇地有效。我们收集了迄今为止最大的GUI视觉定位数据集，包含1000万个GUI元素及其在130万个屏幕截图上的指称表达，并用它来训练UGround，这是一个用于GUI代理的强大的通用视觉定位模型。

2024-11-05 17:42:14 1046

原创上海AI Lab - OS-Atlas：一般GUI代理的基础行动模型

从业者通常不愿使用开源VLM，因为它们在与闭源版本相比时，在GUI定位和Out-Of-Distribution（OOD）场景中存在显著的性能差距。为了促进该领域的未来研究，我们开发了OS-Atlas——一个基础的GUI动作模型，它通过数据和建模方面的创新，在GUI定位和OOD代理任务中表现出色。OOD：Out-Of-Distribution 没见过的界面我们投入了大量工程精力开发了一个开源工具包。

2024-11-04 15:48:57 1053

原创论文阅读：MultiUI 利用网页UI进行丰富文本的视觉理解

grounding和QA部分的数据集占比较大、同时消融实验显示其作用相对较大，并且grounding部分作用和效果呈现scaling正相关提供了很多web数据处理成多模态训练集的prompt、思路等、提供了开源代码：https://neulab.github.io/MultiUI/1M URLs2个平台3种能力：视觉理解和推理、文本识别、定位基于充分结构化的网页来合成多模态指令数据集。

2024-10-29 10:51:12 459

原创苹果：Ferret-UI 2

构建一个通用的用户界面（UI）理解模型具有挑战性，原因包括平台多样性、分辨率差异和数据限制。在这篇论文中，我们介绍了Ferret-UI 2，这是一个跨多个平台（包括iPhone、Android、iPad、Webpage和AppleTV）设计的多模态大型语言模型（MLLM），旨在实现普遍的UI理解。Ferret-UI 2基于Ferret-UI的基础，引入了三个关键创新：支持多种平台类型、通过自适应缩放实现高分辨率感知，以及利用GPT4o和标记集视觉提示生成高级任务训练数据。

2024-10-29 09:33:04 1470

原创论文阅读：三星-TinyClick

我们介绍了一个用于图形用户界面（GUI）交互任务的单轮代理，使用了视觉语言模型Florence-2-Base。该代理的主要任务是识别与用户指令相对应的UI元素的屏幕坐标。它在Screenspot和OmniAct上表现出强大的性能，同时保持了0.27B参数的紧凑规模和最低的延迟。相关的改进来自于多任务训练和基于MLLM的数据增强。手动注释的语料库很少，但我们表明，MLLM增强可能产生更好的结果。

2024-10-29 09:22:07 955 1

原创智谱 - AutoGLM

AutoGLM：接收文字/语音指令，模拟人类操作手机。比如：（2）在12306上购买火车票项目地址：https://xiao9905.github.io/AutoGLM。

2024-10-28 10:14:13 695

原创论文阅读：华为的LiMAC

输入是一个文本目标和一系列过去的移动感知，比如截图和相应的UI树，来生成精确的动作。针对智能手机固有的计算限制，我们在LiMAC中引入了一个小型Action Transformer（AcT），它与微调的视觉-语言模型（VLM）相结合，用于实时决策和任务执行。我们在两个开源移动控制数据集上评估了LiMAC，展示了我们的小型形态因数方法相对于Florence2和Qwen2-VL等开源VLM的微调版本的优越性能。

2024-10-25 15:05:41 1308 2

原创面试问题记录1

文本大模型推理加速的技术方案种类繁多，不同技术针对的瓶颈不同。

2024-10-19 11:22:57 1039

原创 qwen2vl 训练记录

image_grid_thw’: tensor([[ 1, 98, 146]], device=‘cuda:0’)}} 三个维度的大小时间、高度、宽度 grid_t, grid_h, grid_w。4、qwen2vl lora训练时，可以设置 freeze_vision_tower为false、增加的参数量大概在 0.06%（图片限制在 512token时）/ 0.4%（图片在3300token时）因为图片和视频帧的同步、乘以2、所以高度（即宽度） = 49 * 2 = 98。

2024-10-16 14:41:41 1071

原创 llava1.5论文阅读

通过视觉指令微调增强的基线方法论文摘要：我们发现，LLaVA中的全连接视觉语言连接器非常强大且数据效率高。

2024-10-11 15:36:30 1017 1

原创多模态模型中常用的图像和语言表示之间的连接方案

以下是一些在多模态模型中常用的图像和语言表示之间的连接方案：

2024-10-11 15:11:01 431

原创论文阅读 BLIP-2

使用冻结的图像编码器和大型语言模型进行语言-图像预训练的BLIP-2 通过一个轻量级的查询变换器弥合了模态之间的差距。第一阶段通过冻结的图像编码器视觉-语言表示学习。第二阶段通过一个冻结的语言模型从视觉到语言的生成学习。

2024-10-11 15:04:21 1292 1

原创 llava论文阅读

我们首次尝试仅使用语言模型GPT-4来生成多模态的语言-图像指令跟随数据。通过在生成的数据上进行指令微调，我们引入了LLaVA（Large Language and Vision Assistant）：一个端到端训练的大型多模态模型，它将视觉编码器与LLM（Large Language Model）连接起来，用于通用的视觉和语言理解。构建了两个评价基准。llava的效果：在一个合成的多模态指令遵循数据集上相对于GPT-4获得了85.1%的相对分数。

2024-10-11 11:12:03 910 1

原创读论文《MobileVLM: A Vision-Language Model for Better Intra- and Inter-UI Understanding》

（1）提出 unique page 机制、用BM25算法来检索当前app的前5个节点、用规则去重。测试集有两种：unseenApp（49个app中的7个app不用来训练）、 seenapp（42个app中每个任务随机抽取700条数据）用3个客观指标来评价：SQuAD F1*（用在ocr、vlm生成）、IoU（交并比）、Action Accuracy。XML文档：描述了UI页面的结构和内容、包括按钮、文本box元素、和页面布局信息。基于抽取的元素、模型需要去分析每个元素的类型（可点击、可输入、可滑动）

2024-10-01 11:28:07 1044

原创 Qwen2-VL论文阅读笔记

Naive Dynamic Resolution - 用2D-RoPE取代绝对位置编码推理阶段的序列长度是可控的【推理阶段的不定长的vision tokens是怎么处理的？遵从qwenvl的三阶段：用image-text单独训练ViT、解冻所有参数训练理解能力、最后冻住ViT只训练LLM遵循格式化数据。预训练阶段目的：学习图文关系、通过ocr的图像文本上下文识别、图片分类任务。平衡长视频处理的计算需求与整体训练效率，我们动态调整每个视频帧的分辨率，限制每个标记的总数视频到16384。

2024-09-25 11:41:29 1412 1

原创读什么书，怎么读

只有当你知道自己是什么样的情况，适合在这种情况下看什么书的时候，才能最大限度提升读书的作用。1、分享、用输出倒逼输入。2、输入-输出-输入。

2024-09-03 08:46:24 140

原创交叉熵和MSE的区别

交叉熵损失通常用于分类问题，尤其是二分类和多分类问题。它度量的是预测概率分布与真实标签概率分布之间的差异。

2024-07-30 20:57:40 934

原创黄帝内经 - 4

由《素问》、《灵枢》组成、各9卷、共162篇、是一段时间的医学论文收集、整理、编纂而成。被誉为“医家之宗”。

2024-07-28 18:12:28 409

原创黄帝内经 - 3

"金生水"意味着金行（肺）有助于水行（肾）的生成或功能。肺主气，主持全身的气，包括呼吸之气和一部分宗气。肺气的调节有助于肾气的升降。肺气充足、通畅时，能帮助肾气的蒸腾气化，使肾的功能得到正常的发挥。肺具有宣发和肃降的功能，能够把体内的津液向全身输布，或者往下输送至肾。津液被输布到肾脏以后，进一步蒸腾化生，成为肾的精气一部分，从而助益肾水。肺金和肾水在生理上相互滋养，肺主呼吸，外合皮毛，肺的清肃作用有赖于肾的滋养。同时，肾脏的精气上承于肺，使肺气得以润泽，从而使呼吸功能增强。

2024-07-26 19:09:05 805

原创黄帝内经 - 2

合理饮食：每个季节都有适应的食物，可以根据季节调整饮食安排。规律作息：保持规律的作息，保证充足的睡眠，有助于身体恢复和免疫力提升。适度运动：坚持适度的运动，有助于提高身体素质和抵抗力。心情愉悦：保持愉快的心情，减少精神压力，有助于身心健康。以上建议可以根据个人体质和健康状况进行调整，若有特殊健康问题，建议咨询专业医生的意见。

2024-07-26 18:46:56 917

原创黄帝内经 - 1

黄帝内经 = 素问 + 灵枢形式：黄帝和臣子对话、讨论等内容素问：天人合一、五行学说、气血运行灵枢：经络、针灸。

2024-07-26 11:09:10 896

原创长期主义：中医

体验一下中医的各类治疗方法，如针灸、推拿、拔罐和草药治疗，这些亲身体验可以帮助你更好地理解中医理论和实践。记住，学习中医是一个长期的过程，需要耐心和恒心。开始阅读一些权威的中医基础书籍。现代中医教材，如《中医基础理论》、《中医诊断学》和《中药学》，也可以给你打下坚实的基础。这些活动通常会请有经验的中医专家进行讲解，能够帮助你深入了解具体的中医知识和实践技能。找到一位经验丰富的中医师进行学习，可以是通过正式的学徒方式，也可以是定期咨询和交流。阅读最新的中医期刊和研究文章，掌握中医领域的新进展和新发现。

2024-07-26 10:49:32 309

原创刷题-动态规划

获得不相邻的元素最大和输入：[1,2,3,1]输出：4。

2024-07-23 21:04:36 236

原创 Transformer合集

位置编码：https://zhuanlan.zhihu.com/p/454482273自注意力：https://zhuanlan.zhihu.com/p/455399791长文概述：https://zhuanlan.zhihu.com/p/630356292缓存和效果的拉扯（MHA、MQA、GQA、MLA）：https://spaces.ac.cn/archives/10091为什么Pre Norm不如Post Norm？

2024-07-23 20:48:38 356

原创学习资料集合

Triton中部署vLLM：https://github.com/triton-inference-server/tutorials/tree/main/Quick_Deploy/vLLM。源码：https://zhuanlan.zhihu.com/p/659219334 、 https://www.bilibili.com/video/BV1fF41197XT/?经济日报：http://paper.ce.cn/pc/layout/202404/09/node_01.html。

2024-07-23 14:26:10 606

原创刷题-二分查找

else:return l # 返回 target的最小值、原因是r对应的是最小值-1= target:end = lower_bound(nums, target+1) - 1 # 返回的是 target+1 的最小index。

2024-07-19 16:11:11 166

原创刷题-二叉树

二叉树的中序遍历class Solution: def inorderTraversal(self, root: Optional[TreeNode]) -> List[int]: # 中序：左中右 ans, stk = [], [] # 用栈来存中间结果先进后出 while root or stk: if root: stk.append(root) # 根节点先入栈

2024-07-19 15:46:13 242

原创最简单的Lora训练代码

【代码】最简单的Lora训练代码。

2024-07-19 14:54:08 775

转载最简单的网络

【代码】最简单的网络。

2024-07-19 13:58:54 172 1

原创 PEFT的几种方式

P-Tuning v2在原有的P-Tuning基础上进行改进，提供了一种称作“深层prompt”的方式，该方式将prompt嵌入到语言模型的每一层中去，而不只是输入层。这两种方法都属于参数效率型微调方法的一部分，即它们通过仅调整相对较少的额外参数来实现对预训练模型的优化，而非直接微调模型的所有参数。在应用上，P-Tuning v2理论上具有在微调时进行更深层次、更灵活和更精细调节模型行为的能力，并且可能提供比原始的P-Tuning更好的任务适应性。将prompt转换为可学习的Embedding层。

2024-07-18 11:17:23 424

原创 Liling weng新blog：幻觉

量子位的总结作者原文

2024-07-17 17:19:01 117

原创 AI教育-Andrej Karpathy（卡帕西）创业了

卡帕西的新工作。

2024-07-17 17:10:52 201

原创胰岛素与血糖

肾衰竭会导致原本应该出现在尿液当中的东西漂浮在血液里，钙磷失衡使骨头腐烂，过量的氮改变大脑的化学物质，钾的变化「扰乱心脏」的电生理状态，一切都是因为身体无法处理糖分导致。，细胞不希望葡萄糖持续涌入，细胞就降低了胰岛素受体（细胞膜糖蛋白、是胰岛素和靶细胞结合的必需品）的数量，意味着不会从血液中接受那么多的糖分，而使葡萄糖留在血液中，，使其脱水，造成神经功能障碍，导致「昏迷」。吃掉大量含脂肪和糖的食物，身体组织吸收的糖分饱和，转为脂肪储存，身体无法处理过量摄入的糖分，便在血液中积聚，（免疫系统被激活），

2024-07-17 15:35:09 259

空空如也

空空如也