- 博客(180)
- 收藏
- 关注
原创 Qwen2.5-Coder技术报告阅读
这项工作推出了Qwen2.5-Coder,这是Qwen系列的最新成员。基于顶级开源LLM(大型语言模型)Qwen2.5,Qwen2.5-Coder通过对Qwen2.5-1.5B和Qwen2.5-7B在大规模数据集上的广泛预训练和后训练进行开发。为了保证预训练数据的质量,我们通过收集公共代码数据,从网络文本中提取高质量的代码相关内容,并使用高级分类器过滤低质量数据,汇编了一个数据集(20 Technical Report表示这一步骤)。此外,我们构建了一个精心设计的指令微调数据集。
2024-11-15 17:19:04
693
原创 MHA实现
(1)关键点说明:多头注意力机制:将输入分成多个头,每个头独立计算注意力(2)维度变换:输入:(batch_size, sequence_length, embedding_dim)多头处理:(batch_size, num_heads, sequence_length, dim_per_head) 后面两项用于 Q、K的计算维度变换的核心是用 view和permute来进行(3)注意力计算:Q×K^T 得到注意力分数除以维度的平方根进行缩放 torch.sqrt()使用softmax
2024-11-13 09:53:50
228
原创 最近看到还不错的blog
一、统一嵌入解码器架构图像编码器:通常是预训练的视觉变换器,如CLIP、OpenCLIP图像编码器的过程:图像划分为小块、经过线性投影层、再接上Transformer encoder。上面的线性投影层:目的是将被展平为向量的图像块 投影到 与 Transformer 编码器 兼容的 embedding尺寸。图像编码器之后的Projector:投影器通常是一个线性投影层,目的是将图像编码器的输出投影到 与text token embedding的维度相匹配的维度。也可以叫做 适配器、连接器。
2024-11-12 17:58:35
291
原创 华为诺亚方舟新作:GUI Agent综述
然后使用ChatGPT选择下一个操作。这种方法有效地整合了历史操作和用户UI,而无需对底层LLM进行任何修改。此外,Zheng等人(2024)提出了SeeAct,一个基于GPT-4V的通用网络代理。
2024-11-10 22:56:48
1564
3
原创 俄亥俄州立大学:GUI代理的通用视觉定位
我们展示了一个简单的方案,包括基于网络的合成数据和对LLaVA架构的轻微调整,对于训练此类视觉定位模型出奇地有效。我们收集了迄今为止最大的GUI视觉定位数据集,包含1000万个GUI元素及其在130万个屏幕截图上的指称表达,并用它来训练UGround,这是一个用于GUI代理的强大的通用视觉定位模型。
2024-11-05 17:42:14
1046
原创 上海AI Lab - OS-Atlas:一般GUI代理的基础行动模型
从业者通常不愿使用开源VLM,因为它们在与闭源版本相比时,在GUI定位和Out-Of-Distribution(OOD)场景中存在显著的性能差距。为了促进该领域的未来研究,我们开发了OS-Atlas——一个基础的GUI动作模型,它通过数据和建模方面的创新,在GUI定位和OOD代理任务中表现出色。OOD:Out-Of-Distribution 没见过的界面我们投入了大量工程精力开发了一个开源工具包。
2024-11-04 15:48:57
1053
原创 论文阅读:MultiUI 利用网页UI进行丰富文本的视觉理解
grounding和QA部分的数据集占比较大、同时消融实验显示其作用相对较大,并且grounding部分作用和效果呈现scaling正相关提供了很多web数据处理成多模态训练集的prompt、思路等、提供了开源代码:https://neulab.github.io/MultiUI/1M URLs2个平台3种能力:视觉理解和推理、文本识别、定位基于充分结构化的网页来合成多模态指令数据集。
2024-10-29 10:51:12
459
原创 苹果:Ferret-UI 2
构建一个通用的用户界面(UI)理解模型具有挑战性,原因包括平台多样性、分辨率差异和数据限制。在这篇论文中,我们介绍了Ferret-UI 2,这是一个跨多个平台(包括iPhone、Android、iPad、Webpage和AppleTV)设计的多模态大型语言模型(MLLM),旨在实现普遍的UI理解。Ferret-UI 2基于Ferret-UI的基础,引入了三个关键创新:支持多种平台类型、通过自适应缩放实现高分辨率感知,以及利用GPT4o和标记集视觉提示生成高级任务训练数据。
2024-10-29 09:33:04
1470
原创 论文阅读:三星-TinyClick
我们介绍了一个用于图形用户界面(GUI)交互任务的单轮代理,使用了视觉语言模型Florence-2-Base。该代理的主要任务是识别与用户指令相对应的UI元素的屏幕坐标。它在Screenspot和OmniAct上表现出强大的性能,同时保持了0.27B参数的紧凑规模和最低的延迟。相关的改进来自于多任务训练和基于MLLM的数据增强。手动注释的语料库很少,但我们表明,MLLM增强可能产生更好的结果。
2024-10-29 09:22:07
955
1
原创 智谱 - AutoGLM
AutoGLM:接收文字/语音指令,模拟人类操作手机。比如:(2)在12306上购买火车票项目地址:https://xiao9905.github.io/AutoGLM。
2024-10-28 10:14:13
695
原创 论文阅读:华为的LiMAC
输入是一个文本目标和一系列过去的移动感知,比如截图和相应的UI树,来生成精确的动作。针对智能手机固有的计算限制,我们在LiMAC中引入了一个小型Action Transformer(AcT),它与微调的视觉-语言模型(VLM)相结合,用于实时决策和任务执行。我们在两个开源移动控制数据集上评估了LiMAC,展示了我们的小型形态因数方法相对于Florence2和Qwen2-VL等开源VLM的微调版本的优越性能。
2024-10-25 15:05:41
1308
2
原创 qwen2vl 训练记录
image_grid_thw’: tensor([[ 1, 98, 146]], device=‘cuda:0’)}} 三个维度的大小 时间、高度、宽度 grid_t, grid_h, grid_w。4、qwen2vl lora训练时,可以设置 freeze_vision_tower为false、增加的参数量大概在 0.06%(图片限制在 512token时)/ 0.4%(图片在3300token时)因为 图片和视频帧的同步、 乘以2、所以高度(即宽度) = 49 * 2 = 98。
2024-10-16 14:41:41
1071
原创 论文阅读 BLIP-2
使用冻结的图像编码器和大型语言模型进行语言-图像预训练的BLIP-2 通过一个轻量级的查询变换器弥合了模态之间的差距。第一阶段通过冻结的图像编码器视觉-语言表示学习。第二阶段通过一个冻结的语言模型从视觉到语言的生成学习。
2024-10-11 15:04:21
1292
1
原创 llava论文阅读
我们首次尝试仅使用语言模型GPT-4来生成多模态的语言-图像指令跟随数据。通过在生成的数据上进行指令微调,我们引入了LLaVA(Large Language and Vision Assistant):一个端到端训练的大型多模态模型,它将视觉编码器与LLM(Large Language Model)连接起来,用于通用的视觉和语言理解。构建了两个评价基准。llava的效果:在一个合成的多模态指令遵循数据集上相对于GPT-4获得了85.1%的相对分数。
2024-10-11 11:12:03
910
1
原创 读论文《MobileVLM: A Vision-Language Model for Better Intra- and Inter-UI Understanding》
(1)提出 unique page 机制、用BM25算法来检索当前app的前5个节点、用规则去重。测试集有两种:unseenApp(49个app中的7个app不用来训练)、 seenapp(42个app中每个任务随机抽取700条数据)用3个客观指标来评价:SQuAD F1*(用在ocr、vlm生成)、IoU(交并比)、Action Accuracy。XML文档:描述了UI页面的结构和内容、包括按钮、文本box元素、和页面布局信息。基于抽取的元素、模型需要去分析每个元素的类型(可点击、可输入、可滑动)
2024-10-01 11:28:07
1044
原创 Qwen2-VL论文阅读笔记
Naive Dynamic Resolution - 用2D-RoPE取代绝对位置编码 推理阶段的序列长度是可控的 【推理阶段的不定长的vision tokens是怎么处理的?遵从qwenvl的三阶段:用image-text单独训练ViT、解冻所有参数训练理解能力、最后冻住ViT只训练LLM遵循格式化数据。预训练阶段目的: 学习 图文关系、通过ocr的图像文本上下文识别、图片分类任务。平衡长视频处理的计算需求与整体训练效率,我们动态调整每个视频帧的分辨率,限制每个标记的总数 视频到16384。
2024-09-25 11:41:29
1412
1
原创 读什么书,怎么读
只有当你知道自己是什么样的情况,适合在这种情况下看什么书的时候,才能最大限度提升读书的作用。1、分享、用输出倒逼输入。2、输入-输出-输入。
2024-09-03 08:46:24
140
原创 黄帝内经 - 3
"金生水"意味着金行(肺)有助于水行(肾)的生成或功能。肺主气,主持全身的气,包括呼吸之气和一部分宗气。肺气的调节有助于肾气的升降。肺气充足、通畅时,能帮助肾气的蒸腾气化,使肾的功能得到正常的发挥。肺具有宣发和肃降的功能,能够把体内的津液向全身输布,或者往下输送至肾。津液被输布到肾脏以后,进一步蒸腾化生,成为肾的精气一部分,从而助益肾水。肺金和肾水在生理上相互滋养,肺主呼吸,外合皮毛,肺的清肃作用有赖于肾的滋养。同时,肾脏的精气上承于肺,使肺气得以润泽,从而使呼吸功能增强。
2024-07-26 19:09:05
805
原创 黄帝内经 - 2
合理饮食:每个季节都有适应的食物,可以根据季节调整饮食安排。规律作息:保持规律的作息,保证充足的睡眠,有助于身体恢复和免疫力提升。适度运动:坚持适度的运动,有助于提高身体素质和抵抗力。心情愉悦:保持愉快的心情,减少精神压力,有助于身心健康。以上建议可以根据个人体质和健康状况进行调整,若有特殊健康问题,建议咨询专业医生的意见。
2024-07-26 18:46:56
917
原创 长期主义:中医
体验一下中医的各类治疗方法,如针灸、推拿、拔罐和草药治疗,这些亲身体验可以帮助你更好地理解中医理论和实践。记住,学习中医是一个长期的过程,需要耐心和恒心。开始阅读一些权威的中医基础书籍。现代中医教材,如《中医基础理论》、《中医诊断学》和《中药学》,也可以给你打下坚实的基础。这些活动通常会请有经验的中医专家进行讲解,能够帮助你深入了解具体的中医知识和实践技能。找到一位经验丰富的中医师进行学习,可以是通过正式的学徒方式,也可以是定期咨询和交流。阅读最新的中医期刊和研究文章,掌握中医领域的新进展和新发现。
2024-07-26 10:49:32
309
原创 Transformer合集
位置编码:https://zhuanlan.zhihu.com/p/454482273自注意力:https://zhuanlan.zhihu.com/p/455399791长文概述:https://zhuanlan.zhihu.com/p/630356292缓存和效果的拉扯(MHA、MQA、GQA、MLA):https://spaces.ac.cn/archives/10091为什么Pre Norm不如Post Norm?
2024-07-23 20:48:38
356
原创 学习资料集合
Triton中部署vLLM:https://github.com/triton-inference-server/tutorials/tree/main/Quick_Deploy/vLLM。源码:https://zhuanlan.zhihu.com/p/659219334 、 https://www.bilibili.com/video/BV1fF41197XT/?经济日报:http://paper.ce.cn/pc/layout/202404/09/node_01.html。
2024-07-23 14:26:10
606
原创 刷题-二分查找
else:return l # 返回 target的最小值、原因是r对应的是最小值-1= target:end = lower_bound(nums, target+1) - 1 # 返回的是 target+1 的最小index。
2024-07-19 16:11:11
166
原创 刷题-二叉树
二叉树的中序遍历class Solution: def inorderTraversal(self, root: Optional[TreeNode]) -> List[int]: # 中序:左中右 ans, stk = [], [] # 用栈来存中间结果 先进后出 while root or stk: if root: stk.append(root) # 根节点先入栈
2024-07-19 15:46:13
242
原创 PEFT的几种方式
P-Tuning v2在原有的P-Tuning基础上进行改进,提供了一种称作“深层prompt”的方式,该方式将prompt嵌入到语言模型的每一层中去,而不只是输入层。这两种方法都属于参数效率型微调方法的一部分,即它们通过仅调整相对较少的额外参数来实现对预训练模型的优化,而非直接微调模型的所有参数。在应用上,P-Tuning v2理论上具有在微调时进行更深层次、更灵活和更精细调节模型行为的能力,并且可能提供比原始的P-Tuning更好的任务适应性。将prompt转换为可学习的Embedding层。
2024-07-18 11:17:23
424
原创 胰岛素与血糖
肾衰竭会导致原本应该出现在尿液当中的东西漂浮在血液里,钙磷失衡使骨头腐烂,过量的氮改变大脑的化学物质 ,钾的变化「扰乱心脏」的电生理状态,一切都是因为身体无法处理糖分导致。,细胞不希望葡萄糖持续涌入,细胞就降低了胰岛素受体(细胞膜糖蛋白、是胰岛素和靶细胞结合的必需品)的数量,意味着不会从血液中接受那么多的糖分,而使葡萄糖留在血液中,,使其脱水,造成神经功能障碍,导致「昏迷」。吃掉大量含脂肪和糖的食物,身体组织吸收的糖分饱和,转为脂肪储存,身体无法处理过量摄入的糖分,便在血液中积聚,(免疫系统被激活),
2024-07-17 15:35:09
259
原创 LLM基础
2020年年中 GPT3.0:LLM往何处去的发展理念● 单从技术角度看,差距主要来自于对LLM的认知以及未来应往何处去的发展理念的不同。选手:OpenAI、Google、MetaLLM的技术脉络、ChatGPT带来的AI研究新范式。LLM从海量数据学到什么、如何存取、规模增大的影响、In Context Learning、Instruct、推理能力、思维链CoT是什么。
2024-07-17 15:28:50
459
原创 读《这就是ChatGPT》
这本书只重点讲了预训练部分,SFT、RM和强化学习未涉及参见OpenAI创始成员、前Tesla AI负责人 Andrej Karpathy 2023年5月的。
2024-07-17 15:21:52
164
原创 读“需求决定论”
【当你的自我被需求填满的时候,你发现过去极为关注的职场,如今不值一提了。那些人和事,尤其是不真心实意的人和形式主义的事,完全不值一提。晋升是一种需求,是对外部的要求,谁说一定要自己付出了?4、基于自我兴趣而产生的需求【最重要】需求有两类:工作需求和个人需求。2、基于个人提高而产生的需求。1、基于家庭而产生的需求。3、基于社交而产生的需求。
2024-07-17 15:09:58
246
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人