• 博客(94)
  • 收藏
  • 关注

原创 榨干H100算力!GLM-4.6V×vLLM 极致推理实战:从9B到106B MoE的全链路优化

不止于“跑通”,更要“极致”.大模型部署的核心,不是能跑就行,而是把硬件潜力发挥到极致。这是一套可直接用于生产环境的部署方案:既能承载 MoE 权重,也能稳住长文本场景,同时让 MoE 的推理性能真正跑出来。这套方案不仅适用于GLM-4.6V,更可迁移到其他VLM模型,为高并发多模态服务提供了可直接落地的参考。如果你也在部署大模型时遇到算力浪费、显存不足等问题,不妨试试这套方案,让你的 H100 真正“物超所值”!关注“大模型实验室​Lab4AI”,第一时间获取前沿 AI 技术解析!

2026-01-07 17:13:27 290

原创 科研党狂喜!PaperDebugger 让 AI 在编辑器内帮你写完论文

新加坡国立大学团队开发了PaperDebugger插件系统,通过多智能体协作实现论文写作全流程辅助。该系统深度集成在Overleaf编辑器中,提供实时写作、审阅和编辑功能,支持自动优化语句、智能查找文献等操作,避免了传统写作工具频繁切换的问题。研究团队于2025年12月发布该成果,为科研人员提供了高效的AI辅助写作解决方案。

2025-12-29 16:22:09 147

原创 告别修图翻车!阿里 Qwen 团队 & 港科大提出 Qwen-Image-Layered ,面向内在可编辑性的图层分解

阿里Qwen团队与港科大提出Qwen-Image-Layered模型,通过图像分层分解解决视觉生成模型编辑一致性问题。该模型将图像分解为多个RGBA图层,实现元素独立编辑而不影响其他内容,支持缩放、移动等基本操作。相比传统平面光栅图像,这种分层表示有效避免了语义漂移和几何错位问题,为复杂场景提供高保真编辑方案。研究成果发表于2025年12月17日,相关论文可通过Lab4AI平台获取。

2025-12-29 16:05:32 204

原创 港大团队提出 DeepCode ,让 Agent 真能“读论文写可运行代码”

港大团队提出DeepCode框架,突破AI读论文写代码的瓶颈。该研究针对现有代码生成智能体难以复现完整可运行项目的痛点,提出结构化处理方案:通过分层切片论文内容生成项目蓝图(Blueprint),利用CodeMem维持多文件一致性,借助CodeRAG补充缺失细节,最后通过自动化验证确保可执行性。在PaperBench基准测试中,DeepCode以73.6%的准确率显著优于商用Agent(43.3%)和人类专家(72.4%)。研究证明,通过优化信息流而非单纯扩大模型规模,能在有限上下文内实现稳定可复现的代码生

2025-12-29 15:44:24 534

原创 小模型驱动大智能:NVIDIA 新研究实现 2.5 倍效率提升,成本直降 70%

NVIDIA与港大团队提出ToolOrchestra框架,通过训练小型语言模型作为智能编排器,动态协调多种工具完成复杂任务。该研究将多工具任务建模为马尔可夫决策过程,采用强化学习优化任务完成效果、效率和用户偏好。实验表明,该方法在保持性能的同时实现2.5倍效率提升和70%成本降低,并发布ToolScale数据集支持相关研究。这一"小模型驱动大智能"的范式为构建低成本、可扩展的AI系统提供了新思路。

2025-12-25 13:46:09 307

原创 数小时视频,关键仅几秒:AI 如何像侦探一样找到答案?LongVT:先定位再核验,精准不瞎猜

《LongVT:基于工具调用的长视频推理智能体框架》提出了一种创新的AI长视频理解方法。该研究由MiroMindAI与南洋理工大学领衔,联合多所高校共同完成。针对传统视频问答模型在数小时长视频中难以定位关键片段的痛点,研究团队设计了模仿人类"浏览-聚焦-验证"思维的iMCoTT推理范式,并构建了包含24.7K样本的VideoSIAH数据集。通过三阶段训练策略(监督微调+强化学习+强化微调),最终模型LongVT-7B-RFT在多个基准测试中表现优异,特别在证据稀疏场景下较次优模型提升约6

2025-12-25 11:13:57 866

原创 告别漫长等待:3D生成进入“秒时代”!Apple 重新定义实时视图合成

摘要:Apple最新研究SHARP框架实现单图秒级3D合成,突破传统神经渲染技术瓶颈。该技术通过端到端神经网络直接回归120万3D高斯基元,结合深度调整模块和自监督微调策略,在1秒内完成高质量3D场景构建。相比扩散模型提速三个数量级,零样本测试中LPIPS和DISTS指标显著提升25-43%,解决了单目深度估计模糊问题,为AR/VR应用提供实时、高保真的3D合成方案。

2025-12-25 10:49:57 410

原创 H100 真的被封印了吗?我用 vLLM+FP8 把吞吐拉爆了

摘要:本文展示了如何利用vLLM框架和FP8量化技术在NVIDIA H100 GPU上显著提升大模型推理性能。通过将Llama-3-8B模型的权重和KV Cache压缩为FP8格式,实现了60.3%的吞吐量提升(达到11,921 tok/s),并将单卡并发请求承载能力从170提升至1,033。实验证明,vLLM的PagedAttention技术与H100的FP8 TensorCore相结合,能有效解决显存瓶颈问题,同时保持模型精度。建议生产环境采用FP8量化作为默认配置,单张H100可稳定承载约60 QPS

2025-12-23 14:22:52 913

原创 实测腾讯混元HY-World 1.5:虚拟世界的推理实战

腾讯混元HY-World1.5发布:开创3D世界生成新纪元 腾讯混元开源了HY-World1.5世界模型,这是首个具备实时交互和长期几何一致性的开源3D世界生成系统。该模型采用Next-Frames-Prediction视觉自回归训练,支持24帧/秒的流式生成,并保持场景一致性。测试显示,模型能精准还原"江南水乡"等复杂场景,提供三种推理模式:双向模型(高保真)、自回归模型(实时性优先)和蒸馏模型(极速生成)。用户可通过Lab4AI平台一键体验,自定义输入图像、提示词和相机轨迹。这一突破

2025-12-23 10:08:26 764

原创 集结MIT、英伟达等名校名企!FoundationMotion革新视频运动理解,开源模型竟超闭源大模型

FoundationMotion是全自动数据标注pipeline,通过“检测-跟踪-生成”三步提取视频运动信息并生成结构化数据,视频预处理裁剪片段、过滤摄像机剧烈运动视频,物体检测与跟踪含开放词汇检测、人类中心检测及时序跟踪,分别识别通用物体、聚焦人机交互、维持跨帧一致性,GPT-4o-mini将跟踪数据转为含7维度的自然语言,同时生成5类运动理解问答对,模拟运动逻辑推理需求。运动理解是物理推理的基础,但现有视觉-语言模型在真实世界视频的运动分析上仍表现不足:缺乏大规模、细粒度的运动标注数据是关键限制。

2025-12-22 14:01:03 325

原创 Qwen-Video-8B与LLaMA-Factory联动实现垂类视频理解

Qwen3-VL的目标,是让模型不仅能“看到”图像或视频,更能真正看懂世界、理解事件、做出行动。为此,Qwen团队在多个关键能力维度上做了系统性升级,力求让视觉大模型从“感知”走向“认知”,从“识别”迈向“推理与执行”。LLaMA Factory是一个一站式的大模型微调框架。它整合了主流的高效训练技术,适配市场上数百个开源模型,让用户无需编写代码就能在网页端完成模型微调全流程。无论是角色扮演、专业问答还是多模态应用,LLaMA Factory都能提供可视化、可控、轻量化的微调解决方案。

2025-12-19 15:51:33 710 1

原创 刚刚,谷歌正式发布Gemini 3 Flash

北京时间12月17日凌晨,谷歌正式发布了新一代AI模型Gemini 3 Flash,这款被称为“为速度而生的前沿智能”模型,在性能、成本和速度三个方面实现了突破性进展,有望重塑大模型性价比的天花板。

2025-12-18 14:18:25 901

原创 腾讯混元世界模型 HY-World 1.5发布并开源:首个开源、实时交互、长期几何一致性的世界模型来了

今日,腾讯混元发布并开源 HY-World 1.5(WorldPlay),其支持实时交互生成、保持3D-致的世界模型。适用于风格多样的场景生成,支持3D重建、文本触发事件等多种应用。HY-World 1.5到24 FPS 生成一致性的长时域流式视频,与现有技术相比表现优异。其在不同场景中表现出强大的泛化能力,支持真实世界和风格化环境中的第一人称和第三人称视角,实现了3D重建、可提示事件和无限世界扩展等多样化应用。

2025-12-18 11:33:34 528

原创 告别手敲 tabular:Table2LaTeX-RL 高保真表格生成复现

详细论文解读请查看往期文章NeurlPS2025| 告别手动制表:电子科大+之江实验室提出Table2LaTeX-RL创新性高保真表格生成方法科学论文中的复杂表格一直是自动化处理中的硬骨头:多级表头、跨行跨列单元格、嵌套结构和数学公式都极其依赖精细的版面控制。

2025-12-18 10:33:03 1007

原创 多模态赋能情绪理解:Qwen3-VL+LLaMA-Factory 的人脸情绪识别实战

本项目依托Lab4AI平台,基于LLaMA-Factory成功对Qwen3-VL进行了完整的微调流程。我们将传统的人脸情绪识别任务与多模态大语言模型(MLLM)相结合,探索了MLLM在视觉情绪理解中的应用。通过微调Qwen3-VL,我们成功将传统的分类任务转化为多模态推理任务,显著提升了模型在复杂场景下的鲁棒性和准确率。这一方案不仅在人脸情绪识别上取得了显著提升,还为其他视觉任务的多模态大模型应用提供了新的思路,具有广泛的应用前景。

2025-12-17 17:41:55 1227 1

原创 LLaMA-Factory 答疑系列二:高频问题 + 官方解决方案,建议收藏备用

本文整理了LLaMA-Factory大模型微调工具使用中的9个高频问题及解决方案,涵盖显存管理、数据格式、训练优化等关键点。主要内容包括:1)多服务器通信方法;2)学术资源加速技巧;3)预训练样本数差异原因;4)LoRA参数设置问题;5)显存占用优化方案;6)多模态数据格式规范;7)Jupyter文件操作异常处理;8)训练数据顺序控制;9)模型输出异常排查方法(模板匹配、过拟合处理等)。文章还介绍了Lab4AI平台提供的算力支持和课程资源,帮助开发者提升大模型微调实践能力。

2025-12-17 15:35:51 427

原创 Qwen3-VL + LLaMA-Factory 怎么玩?手把手教你做一个会打分会挑错的作文批改助手

在K12 和高等教育阶段,作文批改一直是教学反馈中最费时、最主观、最难标准化的一环。核心痛点集中在教师批改压力巨大、评分主观性强难以统一以及反馈滞后难以形成写作闭环。随着大语言模型的发展,我们终于迎来了一个新选项:让大模型真正学会“像语文老师一样”看作文、打分数、写评语。今天,我们就通过一个在上可一键复现的完整项目,拆解这条路径:如何利用在仅有300 篇高中作文 的小样本条件下,完成一个 “能打分 + 会写评语” 的中文作文智能批改助手,非常适合老师、教研员和教育 AI 开发者快速验证效果。

2025-12-17 11:56:47 393

原创 成本杀手!LLaMA-Factory 助阵 Qwen3-VL:低预算下的高效医疗影像全揭秘

还在为医疗影像大模型的“高算力、高显存”门槛头疼吗?2025年10月,Qwen3-VL-30B-A3B-Instruct 的开源,带来了革命性的解决方案。它独创的,可以在保持顶级性能的同时,仅激活参数,直接将显存占用降低 60%!今天,我们将深度解析一个完整的实战项目:如何利用LLaMA-Factory 框架,高效微调 Qwen3-VL,让模型能够在有限的医学影像数据上,更好地理解图像内容、描述可见结构,并生成符合医学语境的分析文字。这套。

2025-12-17 11:36:51 364

原创 LLaMA-Factory 课程答疑系列一:10个关键问题速查,官方认证解法让训练推理不踩雷

A:微调日志中进度条显示 error 通常是 进度条组件的渲染问题,而非训练程序的功能错误。其本质是工具库(如 tqdm)在特定终端环境下无法正常动态刷新进度条,因此输出 error 标记。只要训练日志中后续有正常的训练指标(如损失、步数)输出,训练逻辑即为正常,无需担心。

2025-12-17 10:45:21 696

原创 AAAI 2026 为什么开源 LLM 搞不定数据分析?浙江大学揭秘核心原因

论文标题:作者团队:浙江大学发布时间:2025年11月13日大语言模型(LLMs)在自动化数据分析任务中具有巨大潜力,但现有开源模型在面向高强度推理场景时仍存在明显局限。为此,本工作系统研究了提升开源 LLM 数据分析能力的策略。首先构建了一个涵盖多样且贴近真实场景的种子数据集,从数据理解、代码生成和策略规划三个核心维度对模型表现进行评测。

2025-12-16 16:08:50 285

原创 GLM-4.6V开源:重新定义多模态AI的行动范式

12月8日,,作为GLM系列在多模态方向上的重要迭代,GLM-4.6V在技术架构和应用场景上都实现了突破性进展。

2025-12-16 14:54:33 1027

原创 这个985实验室8篇论文被AAAI2026录用

厦门大学ASC实验室8篇论文被AAAI2026录用,涉及激光雷达里程计、目标检测、协同感知、步态识别等前沿方向。这些研究在算法创新和应用落地方面取得突破,如RCP-LO框架提升了激光雷达里程计的泛化能力,Physically-Based LiDAR Smoke Simulation增强了目标检测的鲁棒性,V2VLoc实现了无GNSS信号的协同感知。实验室成果展现了在人工智能领域的领先实力,同时获得Lab4AI科研平台的技术支持,为从理论研究到实际应用提供了完整解决方案。

2025-12-11 14:52:57 1242

原创 吴恩达发布论文自动审阅器,ICLR评审接近人类水平

AI正在改变学术论文评审的游戏规则。斯坦福大学教授吴恩达近日发布了一款创新的Agentic Reviewer(智能体审稿人)工具,旨在解决学术圈长期存在的论文评审周期过长问题。这款工具在ICLR 2025审稿数据上的测试表现令人惊讶——

2025-12-10 14:40:32 440

原创 这所211大学在AAAI 2026上发表6篇论文

近日,人工智能领域顶级国际会议(The 40th Annual AAAI Conference on Artificial Intelligence,CCF-A)公布录用结果,计算机科学与技术学院共有6篇研究论文被录用,实现AAAI国际顶会论文的历史性突破。第四十届人工智能顶级国际会议——AAAI 2026(The 40th Annual AAAI Conference on Artificial Intelligence)将于2026年1月20日至27日在新加坡博览中心召开。

2025-12-08 14:22:46 635

原创 写论文的人都应该知道的宝藏工具:Zotero

Zotero是一款免费开源的跨平台文献管理工具,能有效解决科研人员的文献管理难题。它支持一键抓取文献、智能分类整理、自动生成参考文献等功能,并可通过插件扩展知网文献抓取等特色功能。相比同类工具,Zotero具有完全免费、操作简便等优势,特别适合学生和科研人员使用。安装后建议配置WebDAV同步解决存储空间限制问题。该工具能显著提升文献管理效率,让研究者专注于核心科研工作。

2025-12-04 18:20:36 785

原创 NeurIPS 2025 Spotlight!跨模态重识别革命!东北大学等 MDReID 图像信息智能匹配

论文标题:作者团队:东北大学、厦门大学、新加坡国立大学发布时间:2025年10月27日✅Lab4AI平台提供AI导读和AI翻译等工具,辅助论文阅读。想象一下:警察想要通过监控录像找到一个嫌疑人。但是,不同监控摄像头的类型可能完全不同——有的拍的是普通的彩色照片(RGB),有的是黑白但能夜间看清的(NIR),还有的是能感知热量的热成像(TIR)。这就带来了一个难题:如果用一张彩色照片(RGB)去热成像(TIR)照片里找人,传统系统可能就失灵了。这篇论文就是为了解决这个“张冠李戴”的实际问题。

2025-12-03 15:45:57 428

原创 NeurIPS 2025|南开大学提出 VidEmo 实现更精准的情感解读

《VidEmo:面向情感中心视频基础模型的树状推理框架》提出创新性情感分析模型VidEmo,突破传统视频AI在复杂情绪识别上的局限。该研究通过三阶段推理框架(属性感知-表情分析-情感理解)和210万样本的EmoCFG数据集,使AI能像心理专家般解读细微情绪。实验显示,VidEmo在15项任务中超越开源VideoLLMs,微表情检测等任务表现突出,下游情感识别准确率提升9.4%。该成果由南开大学、鹏城实验室和快手科技联合研发,为情感计算领域提供新范式。

2025-12-02 17:57:12 370

原创 NeurIPS 2025 | 浙大、浙工大等团队提出LRMs 自适应思考:简单任务快处理,复杂任务深分析

论文标题:作者团队:浙江大学、阿里巴巴云、浙江工业大学发布时间:2025年10月30日✅Lab4AI平台提供AI导读和AI翻译等工具,辅助论文阅读。您还可以投稿复现这篇论文~

2025-12-02 17:24:22 343

原创 李飞飞最新访谈:空间智能是AI的下一个前沿,Transformer可能被淘汰?

斯坦福大学教授李飞飞在播客中分享了对AI未来的大胆预测,强调空间智能将重塑游戏规则。2025年11月,斯坦福大学教授、World Labs创始人李飞飞参加了一档播客访谈,深入探讨了空间智能(Spatial Intelligence)和世界模型(World Models)的核心意义。她指出,当前的大型语言模型(LLM)虽令人惊叹,但仅靠文本无法实现通用人工智能(AGI),AI必须像人类一样通过视觉和行动体验物理世界。

2025-12-02 14:56:30 830

原创 NeurIPS 2025!采样成本降 50%+ 准确率提升!南大等团队的RPC方法刷新 LLM 推理上限

论文标题:作者团队:南京大学、瑞士苏黎世联邦理工学院发布时间:2025年10月17日✅Lab4AI平台提供AI导读和AI翻译等工具,辅助论文阅读。您还可以投稿复现这篇论文~

2025-12-02 14:23:53 408

原创 看完《疯狂动物城》心痒痒?试试ComfyUI,让朱迪和尼克走进你的画布

最近,《疯狂动物城》再度以超高热度回归大众视野。大银幕上朱迪的勇敢坚定、尼克的幽默机敏,还有那座让人无限着迷的动物乌托邦,当片尾曲响起,你是否也曾有过一丝意犹未尽?过去这是梦想——而如今,借助强大的 AI 绘画工具,我们终于可以实现这种“再创作”。尤其是,能让尼克和朱迪呈现出惊人细腻、贴近原作、又带一点新艺术风味的图像效果。今天,就带大家在 Lab4AI 上复现这份魔法。

2025-12-01 10:15:50 1099

原创 代码跑通算复现成功吗

论文复现的关键在于代码跑通和精读论文。首先需要获取开源代码和数据集,进行数据预处理和环境配置,调试运行直至代码成功执行。若遇到困难,可使用Lab4AI.cn平台一键跑通,该平台提供现成的环境、代码和数据集。代码跑通后需精读论文,理解设计思路并思考改进方案,从而生成创新点子。复现过程可能遇到参数不符、环境配置等问题,需耐心调试。

2025-11-28 15:38:11 393

原创 清华团队NeurIPS2025最高分论文重磅发现:RLVR训练只是效率优化,大模型推理能力并未超越基座边界

清华大学与上海交通大学团队2025年发表的研究《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》挑战了强化学习与可验证奖励(RLVR)提升大模型推理能力的传统认知。研究发现当前RLVR方法仅优化了模型从基座已有能力中的采样效率,并未真正拓展其能力边界。通过对比实验证实,知识蒸馏能引入新能力,而RLVR模型表现始终受限于基础模型。该研究揭示了现有RLVR方法的局限性

2025-11-28 15:36:47 350

原创 复杂部署退退退!DeepSeek-OCR 轻量化文档理解,3分钟私有部署搞定

DeepSeek-OCR突破传统OCR局限,通过“压缩+解码”架构高效解析多模态文档。其核心包括双阶段视觉压缩引擎(DeepEncoder)和MoE解码器,能以10-20倍压缩比处理图像,在保持高精度的同时显著提升速度并降低显存占用。该技术仅需3B参数即可深度解析文字、表格、图表等内容,并支持3分钟私有化部署。Lab4AI平台提供全流程支持,用户可快速体验从文档上传到结构化输出的完整流程,实现高效落地的文档智能化处理。

2025-11-28 15:35:57 388

原创 NeurIPS 2025!电子科大同济等提出Table2LaTeX-RL:表格转 LaTeX 精准度再突破

摘要:电子科技大学等团队提出Table2LaTeX-RL框架,实现表格图像到高保真LaTeX代码的自动生成。该研究构建了120万对图像-代码数据集,创新性地采用双重奖励强化学习策略(VSGRPO),结合结构层和视觉层优化机制,显著提升复杂表格的生成质量。同时提出混合评估体系,突破传统指标局限,为学术文档数字化提供了新解决方案。论文已发布在arXiv平台。

2025-11-28 15:34:47 249

原创 NeurlPS 2025!香港大学等联合推出Concerto框架 突破单模态局限,为三维场景理解注入新范式

论文《Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations》提出创新框架解决多模态视觉学习痛点。通过"模内自蒸馏"优化单模态表征,结合"跨模态嵌入预测"关联2D-3D数据,实现协同空间表征。该框架在ScanNet等基准测试中表现优异,如ScanNet200语义分割达80.7% mIoU,且参数和数据效率高,仅需1%-5%标注数据。还支持开放世界任务,通过语言映射实现

2025-11-28 15:33:36 345

原创 Lab4AI Q&A 第一期:Flash Attention 安装 OOM、文件上传失败?解决方法在这

Lab4AI大模型实验室常见问题解决方案摘要:1)安装Flash Attention时出现OOM问题,建议改用预编译包或升级至H800*4卡配置;2)文件上传失败可改用Cyberduck工具通过SFTP传输;3)权限问题需将数据先写入user-data文件夹;4)数据集上传无大小限制;5)多服务器间支持通信,可通过/etc/hosts查看IP,并利用3.6TMbps IB网络进行分布式训练。

2025-11-28 15:31:07 363

原创 原来用聊天记录就可以创造数字分身!WeClone项目在Lab4AI上的复现

摘要:Lab4AI推出WeClone项目,帮助用户通过聊天记录创建数字分身。该项目提供两种体验方式:直接使用平台数据或导入个人聊天记录进行微调。操作流程简单,包含数据导出、预处理、模型微调和推理四个步骤。平台已预装环境,免除配置烦恼。测试显示微调后的AI能更好模仿特定语言风格(如客服话术)。该项目让数字分身创建变得简单易行,为用户提供个性化AI助手体验。

2025-11-28 15:29:33 855

原创 NeurlPS 2025!多伦多大学TIRE助力3D/4D 生成精准保留主体身份

本文提出TIRE方法,实现主体驱动的3D/4D生成。通过三阶段流程:Track识别填充区域、Inpaint逐步填充未观察区域、Resplat将2D结果重投影回3D空间。该方法在DreamBooth-Dynamic基准测试中表现优异,与其他3D/4D生成技术形成互补。研究团队来自多伦多大学等机构,成果发表于2025年10月。论文链接和阅读工具可通过Lab4AI平台获取。

2025-11-27 18:46:23 370

原创 NeurIPS 2025|让AI读懂第一视角的“内心独白”!浙大等联合突破性实现自我中心视频推理

论文名称:发布时间:2025年10月28日✅此平台提供AI导读和翻译等工具,辅助论文阅读。

2025-11-27 17:34:52 415

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除