- 博客(185)
- 收藏
- 关注
原创 Step-GUI 技术报告解读
模型训练、标准化接口、真实场景评估1、数据生成:如何高效、低成本地获取可靠训练数据2、部署协议:如何安全、标准地部署成为新问题;敏感数据(如屏幕截图)最好能留在本地设备处理。3、场景评测:如何科学评估一个GUI智能体是否真的“好用”?
2025-12-26 16:19:49
114
原创 一些大模型算法的面试QA
相比传统的 RLHF(PPO 算法),DPO 不需要训练奖励模型 (Reward Model),直接在偏好数据(Chosen/Rejected)上优化。Q4:微调的关键趋势:现在更强调数据多样性和质量(Synthetic Data)。实战感悟:它极大地简化了 “上下文提取” 的复杂性,让模型能以标准化的方式安全地访问私有数据,是未来 Agent 生态标准化的核心。验证环节(Self-Reflection): 在 Agent 流程中加入一步“自审”,让模型检查自己的答案是否与检索到的事实冲突。
2025-12-18 10:48:17
844
原创 浅读智谱经典之作《MobileRL》
通用图形用户界面(GUI)智能体是 AI 领域最具前景的挑战之一。随着视觉语言模型(VLM)的飞速发展,构建能够自主操作移动应用(如 Android/iOS)的 Agent 已成为可能。然而,将强化学习 (RL)多步任务中,只有最终成功才给 1 分奖励。任务难度分布不均,导致大量计算资源浪费在极难任务上。移动端模拟器(Emulator)运行缓慢,每一次交互采样的成本极高。**智谱(Zhipu AI)**提出的MobileRL框架,正是针对这些挑战的创新性解决方案。MobileRL 引入了。
2025-12-13 17:00:20
916
原创 GRPO再理解
GRPO(广义相对策略优化)是基于策略梯度和信任区域思想的算法。要理解其中的优势(Advantage)和重要性采样(Importance Sampling, IS)的相互作用,我们需要分解它们在策略更新中的作用。
2025-12-11 15:34:21
595
原创 Qwen3-8B推理和训练分别占用多大的显存
加载模型权重和处理当前对话的KV缓存。模型权重:参数量 x 每个参数占用字节数。80亿参数,BF16精度(2字节),则约需16GBKV缓存:与处理的序列长度、批次大小直接相关。
2025-12-08 15:34:20
435
原创 Qwen2.5-Coder技术报告阅读
这项工作推出了Qwen2.5-Coder,这是Qwen系列的最新成员。基于顶级开源LLM(大型语言模型)Qwen2.5,Qwen2.5-Coder通过对Qwen2.5-1.5B和Qwen2.5-7B在大规模数据集上的广泛预训练和后训练进行开发。为了保证预训练数据的质量,我们通过收集公共代码数据,从网络文本中提取高质量的代码相关内容,并使用高级分类器过滤低质量数据,汇编了一个数据集(20 Technical Report表示这一步骤)。此外,我们构建了一个精心设计的指令微调数据集。
2024-11-15 17:19:04
1090
原创 MHA实现
(1)关键点说明:多头注意力机制:将输入分成多个头,每个头独立计算注意力(2)维度变换:输入:(batch_size, sequence_length, embedding_dim)多头处理:(batch_size, num_heads, sequence_length, dim_per_head) 后面两项用于 Q、K的计算维度变换的核心是用 view和permute来进行(3)注意力计算:Q×K^T 得到注意力分数除以维度的平方根进行缩放 torch.sqrt()使用softmax
2024-11-13 09:53:50
375
原创 最近看到还不错的blog
一、统一嵌入解码器架构图像编码器:通常是预训练的视觉变换器,如CLIP、OpenCLIP图像编码器的过程:图像划分为小块、经过线性投影层、再接上Transformer encoder。上面的线性投影层:目的是将被展平为向量的图像块 投影到 与 Transformer 编码器 兼容的 embedding尺寸。图像编码器之后的Projector:投影器通常是一个线性投影层,目的是将图像编码器的输出投影到 与text token embedding的维度相匹配的维度。也可以叫做 适配器、连接器。
2024-11-12 17:58:35
346
原创 华为诺亚方舟新作:GUI Agent综述
然后使用ChatGPT选择下一个操作。这种方法有效地整合了历史操作和用户UI,而无需对底层LLM进行任何修改。此外,Zheng等人(2024)提出了SeeAct,一个基于GPT-4V的通用网络代理。
2024-11-10 22:56:48
2492
3
原创 俄亥俄州立大学:GUI代理的通用视觉定位
我们展示了一个简单的方案,包括基于网络的合成数据和对LLaVA架构的轻微调整,对于训练此类视觉定位模型出奇地有效。我们收集了迄今为止最大的GUI视觉定位数据集,包含1000万个GUI元素及其在130万个屏幕截图上的指称表达,并用它来训练UGround,这是一个用于GUI代理的强大的通用视觉定位模型。
2024-11-05 17:42:14
1238
原创 上海AI Lab - OS-Atlas:一般GUI代理的基础行动模型
从业者通常不愿使用开源VLM,因为它们在与闭源版本相比时,在GUI定位和Out-Of-Distribution(OOD)场景中存在显著的性能差距。为了促进该领域的未来研究,我们开发了OS-Atlas——一个基础的GUI动作模型,它通过数据和建模方面的创新,在GUI定位和OOD代理任务中表现出色。OOD:Out-Of-Distribution 没见过的界面我们投入了大量工程精力开发了一个开源工具包。
2024-11-04 15:48:57
1423
原创 论文阅读:MultiUI 利用网页UI进行丰富文本的视觉理解
grounding和QA部分的数据集占比较大、同时消融实验显示其作用相对较大,并且grounding部分作用和效果呈现scaling正相关提供了很多web数据处理成多模态训练集的prompt、思路等、提供了开源代码:https://neulab.github.io/MultiUI/1M URLs2个平台3种能力:视觉理解和推理、文本识别、定位基于充分结构化的网页来合成多模态指令数据集。
2024-10-29 10:51:12
526
原创 苹果:Ferret-UI 2
构建一个通用的用户界面(UI)理解模型具有挑战性,原因包括平台多样性、分辨率差异和数据限制。在这篇论文中,我们介绍了Ferret-UI 2,这是一个跨多个平台(包括iPhone、Android、iPad、Webpage和AppleTV)设计的多模态大型语言模型(MLLM),旨在实现普遍的UI理解。Ferret-UI 2基于Ferret-UI的基础,引入了三个关键创新:支持多种平台类型、通过自适应缩放实现高分辨率感知,以及利用GPT4o和标记集视觉提示生成高级任务训练数据。
2024-10-29 09:33:04
1711
原创 论文阅读:三星-TinyClick
我们介绍了一个用于图形用户界面(GUI)交互任务的单轮代理,使用了视觉语言模型Florence-2-Base。该代理的主要任务是识别与用户指令相对应的UI元素的屏幕坐标。它在Screenspot和OmniAct上表现出强大的性能,同时保持了0.27B参数的紧凑规模和最低的延迟。相关的改进来自于多任务训练和基于MLLM的数据增强。手动注释的语料库很少,但我们表明,MLLM增强可能产生更好的结果。
2024-10-29 09:22:07
1096
1
原创 智谱 - AutoGLM
AutoGLM:接收文字/语音指令,模拟人类操作手机。比如:(2)在12306上购买火车票项目地址:https://xiao9905.github.io/AutoGLM。
2024-10-28 10:14:13
1051
原创 论文阅读:华为的LiMAC
输入是一个文本目标和一系列过去的移动感知,比如截图和相应的UI树,来生成精确的动作。针对智能手机固有的计算限制,我们在LiMAC中引入了一个小型Action Transformer(AcT),它与微调的视觉-语言模型(VLM)相结合,用于实时决策和任务执行。我们在两个开源移动控制数据集上评估了LiMAC,展示了我们的小型形态因数方法相对于Florence2和Qwen2-VL等开源VLM的微调版本的优越性能。
2024-10-25 15:05:41
1512
3
原创 qwen2vl 训练记录
image_grid_thw’: tensor([[ 1, 98, 146]], device=‘cuda:0’)}} 三个维度的大小 时间、高度、宽度 grid_t, grid_h, grid_w。4、qwen2vl lora训练时,可以设置 freeze_vision_tower为false、增加的参数量大概在 0.06%(图片限制在 512token时)/ 0.4%(图片在3300token时)因为 图片和视频帧的同步、 乘以2、所以高度(即宽度) = 49 * 2 = 98。
2024-10-16 14:41:41
1839
原创 论文阅读 BLIP-2
使用冻结的图像编码器和大型语言模型进行语言-图像预训练的BLIP-2 通过一个轻量级的查询变换器弥合了模态之间的差距。第一阶段通过冻结的图像编码器视觉-语言表示学习。第二阶段通过一个冻结的语言模型从视觉到语言的生成学习。
2024-10-11 15:04:21
1519
1
原创 llava论文阅读
我们首次尝试仅使用语言模型GPT-4来生成多模态的语言-图像指令跟随数据。通过在生成的数据上进行指令微调,我们引入了LLaVA(Large Language and Vision Assistant):一个端到端训练的大型多模态模型,它将视觉编码器与LLM(Large Language Model)连接起来,用于通用的视觉和语言理解。构建了两个评价基准。llava的效果:在一个合成的多模态指令遵循数据集上相对于GPT-4获得了85.1%的相对分数。
2024-10-11 11:12:03
980
1
原创 读论文《MobileVLM: A Vision-Language Model for Better Intra- and Inter-UI Understanding》
(1)提出 unique page 机制、用BM25算法来检索当前app的前5个节点、用规则去重。测试集有两种:unseenApp(49个app中的7个app不用来训练)、 seenapp(42个app中每个任务随机抽取700条数据)用3个客观指标来评价:SQuAD F1*(用在ocr、vlm生成)、IoU(交并比)、Action Accuracy。XML文档:描述了UI页面的结构和内容、包括按钮、文本box元素、和页面布局信息。基于抽取的元素、模型需要去分析每个元素的类型(可点击、可输入、可滑动)
2024-10-01 11:28:07
1251
原创 Qwen2-VL论文阅读笔记
Naive Dynamic Resolution - 用2D-RoPE取代绝对位置编码 推理阶段的序列长度是可控的 【推理阶段的不定长的vision tokens是怎么处理的?遵从qwenvl的三阶段:用image-text单独训练ViT、解冻所有参数训练理解能力、最后冻住ViT只训练LLM遵循格式化数据。预训练阶段目的: 学习 图文关系、通过ocr的图像文本上下文识别、图片分类任务。平衡长视频处理的计算需求与整体训练效率,我们动态调整每个视频帧的分辨率,限制每个标记的总数 视频到16384。
2024-09-25 11:41:29
1738
1
原创 读什么书,怎么读
只有当你知道自己是什么样的情况,适合在这种情况下看什么书的时候,才能最大限度提升读书的作用。1、分享、用输出倒逼输入。2、输入-输出-输入。
2024-09-03 08:46:24
178
原创 黄帝内经 - 3
"金生水"意味着金行(肺)有助于水行(肾)的生成或功能。肺主气,主持全身的气,包括呼吸之气和一部分宗气。肺气的调节有助于肾气的升降。肺气充足、通畅时,能帮助肾气的蒸腾气化,使肾的功能得到正常的发挥。肺具有宣发和肃降的功能,能够把体内的津液向全身输布,或者往下输送至肾。津液被输布到肾脏以后,进一步蒸腾化生,成为肾的精气一部分,从而助益肾水。肺金和肾水在生理上相互滋养,肺主呼吸,外合皮毛,肺的清肃作用有赖于肾的滋养。同时,肾脏的精气上承于肺,使肺气得以润泽,从而使呼吸功能增强。
2024-07-26 19:09:05
1259
原创 黄帝内经 - 2
合理饮食:每个季节都有适应的食物,可以根据季节调整饮食安排。规律作息:保持规律的作息,保证充足的睡眠,有助于身体恢复和免疫力提升。适度运动:坚持适度的运动,有助于提高身体素质和抵抗力。心情愉悦:保持愉快的心情,减少精神压力,有助于身心健康。以上建议可以根据个人体质和健康状况进行调整,若有特殊健康问题,建议咨询专业医生的意见。
2024-07-26 18:46:56
1035
原创 长期主义:中医
体验一下中医的各类治疗方法,如针灸、推拿、拔罐和草药治疗,这些亲身体验可以帮助你更好地理解中医理论和实践。记住,学习中医是一个长期的过程,需要耐心和恒心。开始阅读一些权威的中医基础书籍。现代中医教材,如《中医基础理论》、《中医诊断学》和《中药学》,也可以给你打下坚实的基础。这些活动通常会请有经验的中医专家进行讲解,能够帮助你深入了解具体的中医知识和实践技能。找到一位经验丰富的中医师进行学习,可以是通过正式的学徒方式,也可以是定期咨询和交流。阅读最新的中医期刊和研究文章,掌握中医领域的新进展和新发现。
2024-07-26 10:49:32
357
原创 Transformer合集
位置编码:https://zhuanlan.zhihu.com/p/454482273自注意力:https://zhuanlan.zhihu.com/p/455399791长文概述:https://zhuanlan.zhihu.com/p/630356292缓存和效果的拉扯(MHA、MQA、GQA、MLA):https://spaces.ac.cn/archives/10091为什么Pre Norm不如Post Norm?
2024-07-23 20:48:38
414
原创 学习资料集合
Triton中部署vLLM:https://github.com/triton-inference-server/tutorials/tree/main/Quick_Deploy/vLLM。源码:https://zhuanlan.zhihu.com/p/659219334 、 https://www.bilibili.com/video/BV1fF41197XT/?经济日报:http://paper.ce.cn/pc/layout/202404/09/node_01.html。
2024-07-23 14:26:10
669
原创 刷题-二分查找
else:return l # 返回 target的最小值、原因是r对应的是最小值-1= target:end = lower_bound(nums, target+1) - 1 # 返回的是 target+1 的最小index。
2024-07-19 16:11:11
196
原创 刷题-二叉树
二叉树的中序遍历class Solution: def inorderTraversal(self, root: Optional[TreeNode]) -> List[int]: # 中序:左中右 ans, stk = [], [] # 用栈来存中间结果 先进后出 while root or stk: if root: stk.append(root) # 根节点先入栈
2024-07-19 15:46:13
269
原创 PEFT的几种方式
P-Tuning v2在原有的P-Tuning基础上进行改进,提供了一种称作“深层prompt”的方式,该方式将prompt嵌入到语言模型的每一层中去,而不只是输入层。这两种方法都属于参数效率型微调方法的一部分,即它们通过仅调整相对较少的额外参数来实现对预训练模型的优化,而非直接微调模型的所有参数。在应用上,P-Tuning v2理论上具有在微调时进行更深层次、更灵活和更精细调节模型行为的能力,并且可能提供比原始的P-Tuning更好的任务适应性。将prompt转换为可学习的Embedding层。
2024-07-18 11:17:23
505
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅