- 博客(150)
- 资源 (4)
- 收藏
- 关注
原创 【文献阅读】DBellQuant: Breaking the Bell with Double-Bell Transformation for LLMs Post Training Binarizat
摘要:本文提出DBellQuant框架,通过创新的双钟形可学习变换(LTDB)算法实现大语言模型(LLM)的高效训练后量化。该方法将单钟形权重分布转换为更适配二值化的双钟形分布,同时通过逆变换平滑激活值异常值。实验表明,DBellQuant在保持模型性能的同时,首次实现近1位权重压缩与6位激活量化。在LLaMA2-13B等模型上,其困惑度(14.39)显著优于现有方法(21.35),为LLM的高效部署提供了突破性解决方案。该技术大幅降低了计算和内存需求,使大模型在资源受限环境中的应用成为可能。
2025-12-19 22:06:57
738
原创 HQQ 半二次量化:大型机器学习模型的高效量化方法
《半二次量化:高效压缩大型机器学习模型的新方法》摘要 本文提出了一种名为半二次量化(HQQ)的新型模型压缩技术,通过创新性地采用促进稀疏性的损失函数和半二次求解器,实现了无需校准数据的快速高效量化。实验表明,HQQ在Llama-2-70B等大型模型上仅需不到5分钟即可完成量化,速度较主流GPTQ方法提升50倍以上。在2位极低比特量化场景下,量化后的70B模型性能超越全精度13B模型,同时内存占用降低80%。该方法在视觉Transformer模型上也展现出优势,4位量化的ViT-B-32模型零样本准确率较传统
2025-12-17 21:02:16
930
原创 【工程开发】EndoRobo-EnvAwareNav(一)
EndoRobo-EnvAwareNav是一个实时内窥镜环境感知和导航系统,采用模块化架构实现医疗内窥镜的3D重建。系统包含相机模块(图像采集与预处理)、Python接口(深度学习推理)、重建模块(点云构建与优化)和核心功能模块。数据流从图像采集开始,经过位姿/深度估计,最终构建稠密和稀疏点云并进行肠腔重建。系统采用多线程设计优化性能,支持插件式扩展和配置驱动,针对肠腔结构进行特殊处理(管状约束、中心线提取等),并包含完善的误差处理机制(置信度过滤、闭环检测)。
2025-11-03 12:36:13
716
原创 多模态大规模模型概述
多模态大规模模型(MLLMs)能整合处理文本、图像、音频等数据,在医疗、金融等领域应用广泛。最新算法包括:1)基于课程采样的强化学习,动态调整训练难度提升效率;2)统一嵌入解码器,实现多模态数据统一处理;3)跨模态注意力机制,增强信息整合能力;4)混合方法结合前两者优势。未来发展方向包括扩展模型规模、提升训练效率、增强泛化能力,以及向音频、视频等新模态拓展。该领域研究受益于丰富的数据集支持,核心算法在推理能力和效率方面取得显著进展。
2025-11-03 12:33:20
877
原创 【工程开发】GLM-4.1V调试
GLM-4.1V-Thinking是新一代开源视觉语言大模型(VLM),基于GLM-4-9B基座开发,支持多模态输入(最高4K分辨率图像/视频/PDF等)和64K长上下文。该模型通过RLCS强化学习显著提升推理能力,在28项评测中23项达到10B参数级别最佳。提供两种推理框架:transformers(灵活但较慢)和vLLM(高性能API服务)。微调方面,建议使用ZeRO-3策略避免训练异常,相比ZeRO-2可减少30%显存占用。模型已集成思维链推理机制,支持中英双语,并开源了训练用的VLM奖励系统。
2025-11-03 12:32:43
721
原创 具身智能(一)关于VLA模型π0
Physical Intelligence公司推出的π₀模型代表了通用机器人策略领域的重大进展。这款融合视觉-语言-动作三模态的基础模型,通过8种不同机器人收集的多样化数据集训练,具备执行复杂物理任务的能力。π₀创新性地结合互联网规模预训练知识和实时动作输出功能,在衣物折叠、餐桌清理等传统难题上展现出超越专用模型的性能。测试显示,π₀在五项评估任务中均显著优于OpenVLA等现有模型。这一突破为机器人基础模型的发展开辟了新路径,预示着未来机器人将能像人类一样灵活适应物
2025-11-03 12:31:09
1089
原创 【文献阅读】GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning
《GLM-4.1V-Thinking:基于可扩展强化学习的通用多模态推理模型》 摘要:本文介绍了GLM-4.1V-Thinking,这是一款专注于提升通用多模态理解与推理能力的视觉-语言模型。研究团队通过大规模预训练构建了具备潜力的视觉基础模型,随后提出了带课程采样的强化学习(RLCS)方法,显著提升了模型在STEM问题解决、视频理解、OCR等多个任务中的表现。开源的GLM-4.1V-9B-Thinking模型在28个公开基准测试中展现出卓越性能:不仅优于同等规模的Qwen2.5-VL-7B模型,还在18个
2025-11-03 12:18:41
1021
原创 LLM面试基础(二)
用通俗的语言解释SWISH要理解 SWISH,咱们可以先把它看作 **“会‘拐弯’的信息筛选器”**—— 它和 ReLU、GELU 的核心目的一样(从模型处理的一堆信号里,挑出有用的留下),但筛选方式更 “灵活”,既不像 ReLU 那样 “一刀切”,也不像 GELU 那样依赖复杂的概率计算,而是靠一个简单的 “乘法互动” 实现 “软筛选”。
2025-11-03 12:10:12
780
原创 LLM面试基础(一)
当前主流的大模型架构主要分为三类:1)Encoder-Decoder结构(如T5、BART),擅长理解类任务;2)CausalDecoder结构(如LLaMA),适合文本生成;3)PrefixDecoder结构(如ChatGLM),在对话场景表现突出。其中Decoder-only结构凭借简单高效、适配性强等优势成为主流选择。 在训练机制上,CausalDecoder对所有token计算损失,而PrefixDecoder仅对输出计算损失。归一化技术中,LayerNorm和RMSNorm用于稳定训练,DeepN
2025-09-07 22:05:03
772
原创 【文献阅读】SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot
本文提出SparseGPT算法,首次实现大规模GPT模型的高效一次性剪枝。该方法能在4.5小时内完成1750亿参数模型的剪枝,达到60%稀疏度且精度损失极小。通过将剪枝问题转化为稀疏回归实例,并设计新型近似求解器,SparseGPT克服了传统方法计算成本高的问题。实验表明,该方法在OPT-175B和BLOOM-176B等超大模型上表现优异,且发现模型规模越大压缩效果越好。该算法支持半结构化稀疏模式,并能与权重量化技术结合使用,为大型语言模型的高效
2025-08-25 21:09:36
1212
1
原创 【文献阅读】Lossless data compression by large models
摘要:本文提出了一种基于大型人工智能模型的无损数据压缩方法LMCompress,在文本、图像、音频和视频四种数据类型上均显著优于传统压缩算法。该方法通过特定领域的预训练模型(如iGPT、bGPT-audio等)对数据进行语义理解,生成预测概率分布后使用算术编码进行压缩。实验表明,LMCompress将JPEG-XL、FLAC和H.264等传统算法的压缩率降低了一半,文本压缩率达到zpaq的三分之一。研究验证了"理解即压缩"的核心观点,为突破香农熵限制提供了新范式,在6G通信、数据存储等领
2025-08-23 16:05:12
1400
原创 【文献阅读】A Comprehensive Study on Quantization Techniques for Large Language Models
大型语言模型量化技术研究综述 摘要:本文系统研究了大型语言模型(LLM)的量化技术,旨在解决模型计算需求大与资源受限设备部署之间的矛盾。研究表明,通过降低模型参数精度可显著减小存储需求,如GPT-3从350GB降至90GB。研究比较了训练后量化(PTQ)和量化感知训练(QAT)两种主要方法,分析了仿射/尺度量化、量化粒度等关键技术。重点探讨了GPTQ和LLM-QAT等先进算法,显示在4比特精度下可实现接近原始模型的性能。研究发现,选择合适的量化精度对保持模型性能至关重要,未来研究应进一步优化精度配置策略,以
2025-08-23 15:21:30
1023
原创 【文献阅读】Advances and Challenges in Large Model Compression: A Survey
摘要: 随着大模型在AI领域的广泛应用,其庞大的参数量和计算需求成为资源受限环境部署的主要瓶颈。本文系统综述了大模型压缩技术(剪枝、知识蒸馏、量化、低秩分解等)的进展与挑战,分析其在保持性能的同时减小模型规模的关键方法。研究指出,当前技术仍面临压缩与性能平衡、策略优化及新模型适配等挑战,未来需开发智能轻量化框架、探索跨模态压缩及可解释性结合等方向。该综述为推进高效AI模型部署提供了重要参考。 关键词:大模型;模型压缩;人工智能;轻量化
2025-08-22 22:22:17
823
原创 【文献阅读】A review of state-of-the-art techniques for large language model compression
摘要:大型语言模型(LLMs)的快速发展推动了自然语言处理领域的重大进步,但其大规模部署仍面临计算、内存和能效等挑战。本文系统综述了剪枝、量化、知识蒸馏和神经架构搜索(NAS)等最先进的压缩技术,这些技术可有效减小模型规模、提高推理速度并降低能耗。研究提出了一个整合传统指标(如准确率和困惑度)与高级标准(延迟-准确率权衡、参数效率、多目标优化等)的评估框架,并探讨了公平感知压缩、对抗性鲁棒性和硬件特定优化等前沿趋势。文章还分析了NAS驱动的自适应架构设计方法,以及混合压缩策略在不同部署场景中的应用。通过案例
2025-08-22 15:26:13
1162
原创 【文献阅读】SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models
SPHINX-X:扩展多模态大语言模型的数据与参数规模 摘要:本文提出SPHINX-X,一个基于SPHINX框架扩展的多模态大语言模型(MLLM)系列。通过简化架构和训练流程,包括移除冗余视觉编码器、采用可学习跳过标记处理无效子图像,以及将多阶段训练简化为单阶段一体化范式,显著提升了训练效率。研究整合了涵盖语言、视觉和跨模态任务的多样化公开数据集,并特别构建了两个专用数据集:OCR密集型数据集增强文本识别能力,Set-of-Mark数据集提升细粒度视觉理解。实验表明,在参数规模从1.1B到8×7B的不同基础
2025-08-03 15:59:05
938
原创 【文献阅读】Surgical embodied intelligence for generalized task autonomy in laparoscopic robot-assisted
摘要: 2025年7月,SCIENCE ROBOTICS发表研究,提出基于具身智能的手术机器人自主化框架VPPV,通过开源模拟器SurRoL实现腹腔镜手术任务的通用自动化。该框架整合视觉解析、强化学习策略与经典控制器,成功在达芬奇机器人(dVRK)和商业化系统(Sentire)上完成7项技能训练与5项手术辅助任务(如针头抓取、软组织牵开),并实现零样本模拟到现实迁移。离体动物实验成功率最高达95%,活体猪试验验证了监督自主性的可行性。研究为手术机器人自主化提供了开源基础设施与通用学习范式,推动AI与经典控制
2025-07-29 12:02:29
1323
原创 FP16 和 BF16
FP16和BF16是两种16位浮点数格式,用于深度学习以节省计算资源。FP16(5位指数+10位尾数)节省显存但易数值溢出,适合推理;BF16(8位指数+7位尾数)动态范围接近FP32,更适合训练,尤其在大模型中。微调大模型时,优先选择BF16(硬件支持前提下),因其稳定性更高;若硬件不支持,可用FP16配合混合精度技术(FP16计算+FP32主权重更新)。混合精度通过损失缩放和梯度裁剪避免FP16的数值问题,而BF16无需额外处理。实际应用中需结合基座模型精度、硬件兼容性及任务需求选择,并监控训练
2025-07-25 16:22:59
1488
原创 【经验】bitsandbytes安装-LLAVA-1.5库调试
【环境配置问题摘要】在H100显卡(Ubuntu 20.04/CUDA 12.1&12.6)运行LLaVA-1.5时出现bitsandbytes库兼容性问题。错误显示系统无法找到匹配的CUDA运行时库(libcudart.so.11.0/12.0),且检测到路径冲突和非预期目录。尝试通过降级到CUDA 11.8和PyTorch 2.0.0+cu118解决,但后续出现FlashAttention的libc10.so和libcudart.so.11.0缺失问题。临时方案包括:添加LD_LIBRARY_P
2025-06-28 19:25:54
1015
原创 迈向泛在智能:端侧大语言模型现状与展望
近年来,大语言模型技术在多个领域取得了突破性进展,为实现泛在智能提供了坚实的基础。然而,泛在智能要求在各种场景中实现无缝的智能体验,这对大语言模型的部署和应用提出了新的挑战。云上部署大模型时,面临实时性、安全性和个性化需求难以兼顾的问题,限制了其在不同环境中的适用性。这些挑战促使研究者探索端侧部署大语言模型的前景,以期在更接近数据源的位置实现更高效的智能服务。然而,端侧的资源限制为大语言模型的部署、推理与应用带来了严峻的挑战。本文首先探讨了这些挑战,并系统梳理了端侧大模型部署与推理应用的关键技术进展,包括模
2025-06-10 11:49:16
1399
原创 【经验】安装apex库
摘要:为在H800 GPU(计算能力9.0)上运行LLaMA2-Accessory项目,需解决PyTorch版本与CUDA兼容性问题。原环境使用CUDA 11.7和PyTorch 2.0.1(仅支持最高sm_86架构),与H800不兼容。解决方案包括:卸载旧版PyTorch,安装支持CUDA 12.1的PyTorch 2.3.0,并通过多CUDA版本共存管理切换运行环境。最终使用特定编译命令成功安装apex库,验证新环境支持H800的计算能力。整个过程涉及CUDA版本管理、PyTorch版本适配和apex库
2025-06-07 14:30:00
1080
2
原创 【文献阅读】LLaVA-med: training a large language-and-vision assistant for biomedicine in one day
会话式生成式人工智能在赋能生物医学从业者方面已展现出显著潜力,但当前研究主要集中于单模态文本。多模态会话式人工智能通过利用公共网络上数十亿的图像 - 文本对取得了快速进展,但此类通用领域的视觉 - 语言模型在理解和讨论生物医学图像方面仍不够成熟。在本文中,我们提出了一种经济高效的方法来训练视觉 - 语言会话助手,该助手能够回答关于生物医学图像的开放式研究问题。关键思想是利用从 PubMed Central 提取的大规模、覆盖广泛的生物医学图注数据集,使用 GPT-4 从图注中自动生成遵循开放式指令的数据
2025-06-05 20:39:07
1290
原创 【文献阅读】SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models
我们提出 SPHINX-X,这是基于 SPHINX 开发的扩展多模态大型语言模型(MLLM)系列。为改进架构和训练效率,我们对 SPHINX 框架进行修改,移除冗余视觉编码器,通过跳过标记绕过全填充子图像,并将多阶段训练简化为单阶段全集成范式。为充分释放 MLLM 的潜力,我们整合了覆盖语言、视觉和视觉 - 语言任务公开资源的综合性多领域多模态数据集。我们进一步用精心策划的 OCR 密集型和标记集(Set-of-Mark)数据集丰富该集合,扩展其多样性和通用性。通过在包括 TinyLlama1.1B
2025-06-05 16:31:41
1152
原创 【文献阅读】(LLAVA-1.5)Improved Baselines with Visual Instruction Tuning
大型多模态模型(LMM)最近通过视觉指令调优展现出令人鼓舞的进展。在本文中,我们首次在 LLaVA 框架下的可控环境中系统研究了 LMM 的设计选择。我们发现,LLaVA 中全连接的视觉 - 语言连接器出人意料地强大且数据高效。通过对 LLaVA 进行简单修改,即使用带有 MLP 投影的 CLIP-ViT-L-336px 视觉编码器,并添加带有响应格式提示的学术任务导向 VQA 数据,我们建立了更强的基线,在 11 个基准测试中均达到了最先进水平。我们最终的 130 亿参数检查点仅使用 120 万公开可用数
2025-06-05 14:53:07
915
原创 【文献阅读】Minigpt-v2 large language model as a unified interface for vision-language multi-task learning
大型语言模型已展现出作为各类语言相关应用通用接口的卓越能力。受此启发,我们旨在构建一个统一接口,以完成图像描述、视觉问答和视觉接地等多项视觉语言任务。实现这一目标的挑战在于使用单一模型通过简单的多模态指令高效执行多样化的视觉语言任务。为解决这一问题,我们引入 MiniGPT-v2,该模型可作为统一接口以更好地处理各种视觉语言任务。我们提出在训练模型时为不同任务使用唯一标识符。这些标识符使我们的模型能够轻松区分每个任务指令,还能提高模型对每个任务的学习效率。经过三阶段训练,实验结果表明,与其他视觉语言通用
2025-06-05 11:59:40
821
原创 【文献阅读】Qwen2-vl: Enhancing vision-language model‘s perception of the world at any resolution
我们提出了 Qwen2-VL 系列,这是对先前 Qwen-VL 模型的高级升级,重新定义了视觉处理中传统的预定分辨率方法。Qwen2-VL 引入了原生动态分辨率机制,使模型能够将不同分辨率的图像动态处理为不同数量的视觉标记。这种方法使模型能够生成更高效、准确的视觉表示,紧密贴合人类感知过程。模型还集成了多模态旋转位置嵌入(M-RoPE),促进文本、图像和视频的位置信息有效融合。我们采用统一范式处理图像和视频,增强了模型的视觉感知能力。为探索大型多模态模型的潜力,Qwen2-VL 研究了大型视觉语言模
2025-06-04 19:00:43
817
原创 【文献阅读】LLaVA-Surg: towards multimodal surgical assistant via structured surgical video learning
多模态大型语言模型(LLMs)在各个领域取得了显著成功,但医学领域的研究主要集中在单模态图像上。与此同时,当前用于视频的通用领域多模态模型仍然缺乏理解手术视频并进行对话的能力。一个主要原因是手术领域缺乏相关数据集。在本文中,我们创建了一个新的数据集 Surg-QA,由 102,000 个手术视频 - 指令对组成,是迄今为止同类数据集中最大的。为了构建该数据集,我们提出了一种新颖的两阶段问答生成管道,利用 LLM 从公开的手术讲座视频中以结构化方式学习手术知识。该管道将生成过程分解为两个阶段,显著降低
2025-06-04 13:29:46
935
原创 【文献阅读】Biomedgpt: A unified and generalist biomedical generative pre-trained transformer for
传统生物医学人工智能(AI)模型专为特定任务或模态设计,在实际部署中灵活性有限,且难以利用整体信息。通用 AI 因其在解释不同数据类型和为多样化需求生成定制输出方面的多功能性,有望解决这些局限性。然而,现有的生物医学通用 AI 解决方案通常对研究人员、从业者和患者来说是重量级且闭源的。在此,我们提出 BiomedGPT,这是首个开源且轻量级的视觉 - 语言基础模型,设计为能够执行各种生物医学任务的通用模型。BiomedGPT 在 25 项实验中的 16 项中取得了最先进的结果,同时保持了计算友好的模
2025-06-03 21:11:46
1475
原创 【文献阅读】SPHINX: A Mixer of Weights, Visual Embeddings and Image Scales for Multi-modal Large Language
我们提出了SPHINX,这是一种通用多模态大型语言模型(MLLM),实现了模型权重、视觉嵌入和图像尺度的联合混合。首先,为了增强视觉-语言对齐,我们在预训练期间解冻大型语言模型(LLM),并引入了由真实世界和合成数据训练的LLM之间的权重混合策略。通过直接集成来自两个领域的权重,混合后的LLM可以高效融合多样化语义并具备良好的鲁棒性。其次,我们建议从各种网络架构、预训练范式和信息粒度中提取全面的视觉嵌入,为语言模型提供更鲁棒的图像表示。我们进一步提出一种有效策略,旨在更好地捕捉高分辨率图像的细粒度外
2025-06-02 21:52:50
1222
原创 【文献阅读】Learning Transferable Visual Models From Natural Language Supervision
最先进的计算机视觉系统经过训练,可预测一组固定的预先确定的对象类别。这种受限的监督形式限制了它们的通用性和可用性,因为指定任何其他视觉概念都需要额外的标记数据。直接从关于图像的原始文本中学习是一种很有前途的替代方法,它利用了更广泛的监督来源。我们证明,预测哪个标题与哪个图像匹配这一简单的预训练任务,是一种从互联网收集的 4 亿(图像,文本)对数据集上从头开始学习最先进图像表示的有效且可扩展的方法。预训练后,自然语言用于引用已学习的视觉概念(或描述新概念),使模型能够零样本迁移到下游任务。我们研究了
2025-06-02 16:45:51
1903
原创 【文献阅读】Surgical-VQA: Visual Question Answering in Surgical Scenes using Transformer
手术中的视觉问答(VQA)研究目前仍处于起步阶段。专业外科医生资源稀缺,且常被临床和学术工作压身,这使得他们难以及时回答患者、医学生或低年住院医师关于手术流程的疑问。有时,学生和低年住院医师为避免打断课堂,也会克制提问。尽管已有计算机辅助模拟器和过往手术录像供他们观察和提升技能,但答疑仍高度依赖医学专家。若能有一个可靠的 “Surgical-VQA 系统” 作为 “第二意见”,既能为专家分担答疑压力,又能为学习者提供支持。然而,标注医疗数据的匮乏和领域特定术语的存在,限制了手术流程 VQA 的研究进展。在此
2025-05-31 19:08:31
1147
原创 SmolVLM2: The Smollest Video Model Ever(七)
表示你调用 OpenAI API 时达到了组织(organization)的请求速率限制(RPM,Requests Per Minute,每分钟请求数)。的请求速率达到了上限(最大 RPM 为 3),需要等待 1 秒钟后再尝试。成本上来讲,kimi应该是更便宜一些,还免费送了15块钱。解决:在调用的时候加一个计时器去限制一下。错误信息中明确指出你的账号所在组织。总的来说,kimi输出的起码。# 保存模型到本地指定目录。
2025-05-29 16:06:39
1036
原创 【文献阅读】Hierarchical Reinforcement Learning: A ComprehensiveSurvey
分层强化学习(HRL)能够将具有挑战性的长时决策任务自主分解为更简单的子任务。在过去几年里,HRL 研究领域取得了显著发展,产生了大量方法。为了系统地研究 HRL,全面概述这一广阔领域十分必要。我们对各种 HRL 方法进行综述,涉及学习分层策略、子任务发现、迁移学习以及使用 HRL 的多智能体学习等方面的挑战。本文根据一种新颖的方法分类法进行综述,并基于此提出一系列重要的开放性问题,以推动 HRL 未来的研究。此外,我们在补充材料中概述了一些评估 HRL 方法的合适任务领域,以及 HRL 在实际应用中的
2025-05-29 16:01:09
1141
原创 【文献阅读】V2-SfMLearner: Learning Monocular Depth and Ego-motion for Multimodal Wireless Capsule Endosco
深度学习可从胶囊内镜视频中预测深度图和胶囊自运动,辅助三维场景重建和病变定位。然而,胶囊内镜在胃肠道内的碰撞会导致训练数据中存在振动干扰。现有解决方案仅关注基于视觉的处理,忽略了振动等辅助信号,这些信号可减少噪声并提高性能。因此,我们提出 V²-SfMLearner,一种将振动信号集成到基于视觉的深度和胶囊运动估计中的多模态方法,适用于单目胶囊内镜。我们构建了包含振动和视觉信号的多模态胶囊内镜数据集,并且我们的人工智能解决方案开发了一种使用视觉 - 振动信号的无监督方法,通过多模态学习有效消除振动干
2025-05-27 20:22:01
1312
原创 【文献阅读】EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery
近年来,多模态大语言模型(MLLMs)在计算机辅助诊断和决策中展现出巨大潜力。在机器人辅助手术领域,MLLMs 可作为手术培训和指导的有效工具。然而,临床应用中仍缺乏专门用于手术场景理解的 MLLMs。本文引入 EndoChat,以解决外科医生在手术场景理解中遇到的各种对话范式和子任务。为训练 EndoChat,我们通过一种新型流程构建了 Surg-396K 数据集,该流程基于收集的大规模内窥镜手术数据集,系统提取手术信息并生成结构化注释。此外,我们引入多尺度视觉令牌交互机制和基于视觉对比的推理机制
2025-05-27 11:11:05
1095
原创 【文献阅读】Mixture of Lookup Experts
专家混合模型(MoE)在推理过程中仅激活部分专家,使得模型即使在参数规模扩大时仍能保持较低的推理 FLOPs 和延迟。然而,由于 MoE 动态选择专家,所有专家均需加载到 VRAM 中。其庞大的参数规模仍限制了部署,而仅在需要时将专家加载到 VRAM 的卸载策略会显著增加推理延迟。为解决这一问题,我们提出 Lookup 专家混合模型(MoLE),这是一种在通信和 VRAM 使用方面均高效的新型 MoE 架构。在 MoLE 中,专家在训练期间为前馈网络(FFNs),以嵌入层的输出作为输入。推理前,这些专家可重
2025-05-26 22:07:11
1016
原创 【文献阅读】Depth Anything Unleashing the Power of Large-Scale Unlabeled Data
本文提出了 Depth Anything [1],这是一种高度实用的稳健单目深度估计解决方案。我们的目标不是追求新颖的技术模块,而是构建一个简单而强大的基础模型,能够在任何情况下处理任何图像。为此,我们通过设计一个数据引擎来收集和自动标注大规模无标签数据(约 6200 万),从而扩大数据集规模,显著扩大了数据覆盖范围,进而能够降低泛化误差。我们研究了两种简单而有效的策略,使数据规模扩大具有前景。第一,利用数据增强工具创建一个更具挑战性的优化目标,这迫使模型积极寻找额外的视觉知识并获得稳健的表征。
2025-05-08 16:39:23
888
原创 SmolVLM2: The Smollest Video Model Ever(六)
继续微调数据集问题代码中使用的数据集是示例idimagesvideo link600047611331100254611311200050522231本地数据集解析与对应关系在本地文件中:这里的test-xxx.parquet里面封装的就是数据集的prompt还有一些文本信息,不过是以二进制形式存储的,所以直接打开看不懂。对应着frames_real_test里面的80个文件夹。
2025-04-27 14:12:27
1224
原创 【腹腔镜数据集】Cholec80+CholecSeg8k2020+Endoscapes2024
计算机辅助手术的发展旨在提高手术的正确性和安全性。然而,研究人员和工程师却面临着开发和训练更好算法所需的注释数据有限的问题。因此,同步定位与建图(SLAM)等基础算法的发展受到限制。基于Cholec80数据集,从Cholec80中的17个视频片段中提取了8,080个腹腔镜胆囊切除术图像帧,对图像进行注释并向公众发布。该数据集名为 CholecSeg8K。这些图像中的每一个都以十三个类别的像素级注释,这些类别通常在腹腔镜胆囊切除术中发现。
2025-04-24 11:39:07
1566
4
原创 【文献阅读】General surgery vision transformer: A video pre-trained foundation model ...【GenSurgery数据集】
缺乏公开可用的数据和专门的基础模型是外科计算研究的主要障碍。为此,(i)我们开源了迄今为止最大的普通外科手术视频数据集,该数据集包含680小时的手术视频,涵盖28种手术的机器人和腹腔镜技术数据;(ii)我们提出了一种基于前向视频预测在手术视频上对普通外科视觉Transformer(GSViT)进行视频预训练的技术,该技术可用于实时手术应用,我们还开源了GSViT的代码和权重;(iii)我们还发布了针对10种手术的GSViT特定手术微调版本的代码和权重;(iv)我们在Cholec80阶段注释任务中展示了GSV
2025-04-24 11:30:00
987
原创 【文献阅读】VidLPRO: A Video-Language Pre-training Framework for Robotic and Laparoscopic...【GenSurg+数据集】
它使模型能够学习丰富且可泛化的表示,这些表示可以通过最小的微调适应各种下游任务,如图像 - 文本检索 [18, 19, 20]、视觉问答 [21, 22, 23, 24, 25]、视频理解 [26, 27, 28, 29, 30] 和零样本分类 [31, 32]。这是预期的,因为更多的帧提供了手术过程更丰富的表示,从而允许更精确的相位识别。此外,为了预训练VidLPRO,作者引入了GenSurg+,这是通过使用生成式文本GPT-4生成的17k对配对的GenSurgery的扩展版本,基于原始叙述生成的字幕。
2025-04-24 10:30:48
769
gkd计算机学院算法设计与分析刘老师课后习题+答案完整版2020
2020-12-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅