• 博客(41)
  • 收藏
  • 关注

原创 写论文的正确姿势:用代码排版?没听错,就是 LaTeX!| 附保姆级安装教程

你是不是也被Word的格式崩溃折磨过?论文一改模板,公式全乱,页码飘移——如果你有过这样的经历,那么你该认识一下LaTeX。「LaTeX」,能轻松搞定专业公式和图表排版,堪称科研党的效率神器!今天就用最通俗的话,教你用LaTeX完成高质量学术排版,看完就能实操。

2025-11-20 18:01:29 880

原创 这所双非高校在AAAI 2026上发表11篇论文

近日,人工智能领域国际顶尖学术会议(第40届人工智能大会)论文录用结果公布。武汉科技大学计算机科学与技术学院5位老师的高质量论文被录用,录用数量超历年总和,体现了学院在人工智能前沿研究方面的持续发展与科研实力的显著提升。被录用的论文涵盖多个前沿研究方向,包括等,展现了武汉科技大学师生在人工智能基础理论与关键技术创新方面取得的显著进展。AAAI是由国际人工智能促进协会主办的年会,被中国计算机学会(CCF)推荐为A类国际学术会议,是人工智能领域公认的重要学术交流平台。

2025-11-20 11:46:35 849

原创 CVPR 2024 | 赋能大语言模型以精准理解视频时序瞬间 | LLM | 时序预测

当前的大型视频-语言模型(Video-LLMs)在理解视频的整体内容上取得了显著进展,但它们往往缺乏对视频时间维度的精细感知能力。对于“事件发生在何时?”或“在A事件之后立即发生了什么?”这类问题,现有模型难以给出准确回答。为了解决这一核心痛点,“VTimeLLM” 论文提出了一种全新的架构,旨在赋能大语言模型(LLM)精准地理解、定位和推理视频中的关键“瞬间”(Moments)。VTimeLLM 的核心思想是构建一个对时间信息高度敏感的视频理解框架。

2025-11-19 16:12:08 696

原创 CVPR 2022!经典论文!稳定扩散模型(Stable Diffusion)背后的革命性技术:隐空间扩散模型

在2022年之前,扩散模型虽然在图像生成质量上表现出色,但因其直接在像素空间进行迭代计算,导致训练和推理成本极高,难以高效生成高分辨率图像,限制了其广泛应用。这篇开创性的论文彻底改变了这一现状,提出了隐空间扩散模型 (Latent Diffusion Model, LDM)的概念。该论文的核心思想是,将计算成本高昂的扩散过程从高维的像素空间转移到一个维度低得多的隐空间 (Latent Space) 中进行。

2025-11-19 15:10:57 1000

原创 VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉

VideoLLaMA 3是基于Llama 3的前沿多模态基础模型,深度融合视觉、听觉与语言理解能力,支持高分辨率图像和长视频的端到端分析。其核心技术包括统一的视听语言架构、高效长视频词元化和万亿级多模态预训练,具备复杂的时空因果推理能力,可同步解析画面与音轨信息。该模型为影视分析、场景理解等任务提供强大支持,相关代码和预训练权重已在Lab4AI平台开源,用户可一键复现实验。

2025-11-18 17:46:20 313

原创 视频编辑的新成果!港科大&蚂蚁集团提出Ditto框架刷新SOTA!

论文标题:Scaling Instruction-Based VideoEditing with a High-Quality Synthetic Dataset作者团队:香港科大、蚂蚁集团、浙江大学、东北大学发布时间:2025年10月17日[👉Lab4AI大模型实验室论文阅读](https://www.lab4ai.cn/paper/detail/reproductionPaper?✅Lab4AI平台提供AI导读和翻译等工具,辅助您的论文阅读。

2025-11-18 16:38:15 371

原创 AAAI2025!北理工团队提出FBRT-YOLO:面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测

论文《FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection》提出了一种针对航拍图像目标检测的优化方法。针对航拍场景中小目标密集、尺度变化大等挑战,该研究通过轻量化网络设计、增强的多尺度特征融合、专设小目标检测层以及注意力机制等技术,显著提升了检测速度和精度。实验表明,FBRT-YOLO在保持高精度的同时实现了更快的处理速度,为无人机等边缘设备的实时目标检测提供了有效解决方案。论文已提供完整复现环境与预训练模型。

2025-11-18 16:36:11 220

原创 CVPR 2024 目标检测!开放词汇

在相当长的一段时间里,目标检测领域存在一个核心的权衡:要么选择像 YOLO 系列那样拥有极致速度但只能识别固定类别的“闭集”检测器,要么选择像 Grounding DINO 那样能够识别任意文本描述但速度较慢的“开放集”检测器。对于需要实时响应和灵活性的现实世界应用(如机器人、自动驾驶),这一直是个难题。于2024年初发布的 YOLO-World 彻底打破了这一局面。该研究首次成功地将开放词汇(Open-Vocabulary)能力与以速度著称的 YOLO 架构进行了深度融合。

2025-11-18 15:32:41 465

原创 【项目复现上新】突破推理瓶颈!LightLLM轻量化部署新范式,打造高性能法律智能体

本文探讨了LightLLM框架在法律智能体中的应用,解决大语言模型知识滞后和幻觉问题。通过RAG框架整合外部知识库,LightLLM实现轻量化部署与高效推理,支持多模型规模与量化策略。文章详细演示了在Lab4AI平台三步搭建法律智能体的过程:部署LLM服务、RAG服务和应用体验。该方案不仅适用于法律领域,还可迁移至金融、医疗等专业场景。Lab4AI平台提供算力、实验环境和社区支持,助力科研人员和开发者从理论到实践的完整闭环。

2025-11-17 17:27:08 601

原创 【项目复现上新】LLaMA Factory 微调实践:从零构建苏东坡角色扮演大模型 | 附Lab4AI平台一键复现指南

实现跨越时空的文化互动,生动体验AI技术赋能下的历史人物“复活”。

2025-11-17 16:21:40 437

原创 NeurlPS2025| 告别手动制表:电子科大+之江实验室提出Table2LaTeX-RL创新性高保真表格生成方法

表格是科学和技术文档的重要组成部分,为呈现定量数据、实验结果和复杂关系提供了结构化且简洁的格式。随着文档数字化变得越来越普遍,从图像自动生成表格代码的能力对于实现内容重用和高质量复制至关重要。然而,大多数现有方法专注于生成 HTML 表示 ,缺乏复杂表格所需的结构表现力和排版精度,尤其是那些具有嵌套标题、合并单元格或数学内容的表格。相比之下,LaTeX 是科学出版的标准,提供专业级表格所需的灵活性和保真度。尽管具有实际重要性,但从表格图像直接生成 LaTeX 代码的任务在之前的工作中受到的关注有限。

2025-11-17 10:38:56 385

原创 ICLR2026 !SAM3重磅来袭:能“听懂人话”的分割模型,性能狂飙2倍

SAM3(SegmentAnythingModel3)代表了图像和视频分割领域的重大突破,这是一个基于概念提示的统一模型,能够检测、分割和跟踪图像视频中的对象。其核心创新在于提出了可提示概念分割(PromptableConceptSegmentation,PCS),支持通过短名词短语(如“黄色校车”)、图像范例或二者组合作为提示,为所有匹配对象实例返回分割掩码和唯一标识。

2025-11-16 07:30:00 645

原创 7M参数,干翻巨无霸LLM!这款超小递归模型(TRM),在ARC-AGI上证明了“少即是多”

10月6日,三星AI实验室(Samsung SAIL Montréal)发表了名为Less is More: Recursive Reasoning with Tiny Networks 的论文。该论文提出了一种“**少即是多**”的更简单、更高效的递归推理模型—Tiny Recursive Model(TRM)。

2025-11-16 07:30:00 613

原创 无需人工奖励!Meta FAIR华人团队提出「早期经验学习范式」,AI智能体像人类一样“从错误中成长”

Meta 提出的 「早期经验」(Early Experience)范式,在模仿学习与强化学习之间架起桥梁,让智能体通过 「行动 - 观察 - 反思」自主学习,无需外部奖励。

2025-11-16 07:30:00 531

原创 【项目复现上新】Karpathy大神开源GitHub高分项目NanoChat!仅用100美元+8000行代码手搓ChatGPT

摘要: AI专家Andrej Karpathy开源项目nanochat以极低成本(100-1000美元)实现ChatGPT式对话功能,仅需8张H100 GPU训练4小时即可完成。该项目涵盖数据准备、预训练、微调等全流程(8000行代码),支持Rust分词器、强化学习优化及高效推理。大模型实验室Lab4AI提供“一键复现”工具链,简化环境配置与训练流程,支持科研复现和学习实践。平台还提供论文追踪、模型微调及LLaMA Factory官方课程,助力开发者低门槛探索大模型技术。 (150字)

2025-11-14 15:49:46 870

原创 10.7万条轨迹+4大机器人构型!RoboMIND开源数据集破解机器人通用操作难题 | 附一键复现指南

RoboMIND:推动多构型机器人操作研究的标准化数据集与基准 摘要:RoboMIND是一个突破性的大规模多构型机器人操作数据集,整合了来自4种不同机器人平台的10.7万条真实世界演示轨迹,涵盖479项任务和96类物体。该数据集首次建立了统一的数据收集标准,解决了现有数据集构型单一、规模有限、任务简单和缺乏标准化基准等核心问题。通过提供帧级语言指令标注和失败案例收集,RoboMIND为跨构型泛化研究提供了关键资源。实验人员可通过Lab4AI平台一键复现相关研究,该平台还提供从科研到落地的全流程支持。

2025-11-14 14:41:16 837

原创 【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理

摘要 DeepSeek-OCR是近期开源的突破性OCR技术,采用创新的"上下文光学压缩"方法,实现了显著的效率提升。该30亿参数模型通过视觉token高效压缩文本信息,仅用100个视觉token就能超越传统模型256个token的性能表现。其核心创新包括: 10倍无损压缩能力,保持97%解码精度 单张A40显卡处理20万页/日的惊人产能 混合架构设计(DeepEncoder+MoE解码器)平衡性能与效率 项目已获得广泛关注,在OmniDocBench等基准测试中展现出7-20倍的toke

2025-11-14 10:20:58 879

原创 仅需五步! SwanLab助力Qwen3-“VL “超小中文多模态模型的”拼接微调“之路

【摘要】Lab4AI推出Qwen3-"VL"实战课程,通过创新"拼接微调"技术将SmolVLM2视觉模块与Qwen3-0.6B模型对齐,结合SwanLab的实验追踪功能,帮助开发者低门槛构建中文多模态模型。该方案只需5步操作:准备账号、学习课程、配置监控、小批量训练(7-8分钟)和完整微调(30分钟)。

2025-11-13 10:51:45 277

原创 CBT-LLM 心理大模型微调,用 LLaMA Factory 微调框架就够啦!| 附一键复现指南

本文介绍了如何使用LLaMA Factory微调框架构建心理健康领域的大语言模型。研究团队基于CBT疗法原理,通过PsyQA数据集和提示模板生成专业问答数据,微调出CBT-LLM模型,在多项指标上表现优异。文章重点展示了基于Lab4AI平台的一键复现方案,无需复杂配置即可体验完整微调流程。该平台不仅能支持论文复现,还提供从科研到落地的全流程服务,包括前沿论文追踪、模型微调实践以及配套课程学习,助力研究者和开发者快速掌握大模型定制化技能,推动专业领域AI应用落地。

2025-11-12 15:16:35 625

原创 【项目复现上新】突破推理瓶颈!LightLLM轻量化部署新范式,打造高性能法律智能体

文章摘要:针对大语言模型在专业场景中的知识滞后和幻觉问题,本文提出基于LightLLM和LlamaIndex的法律智能体解决方案。LightLLM作为高效推理框架,通过多进程协同、共享内存等技术实现轻量化部署,显著提升推理速度。文章详细介绍了在Lab4AI平台快速搭建RAG法律智能体的三步实践流程,包括部署服务、知识库构建和应用测试。该方案不仅验证了轻量化RAG技术在业务环境中的可行性,还可扩展至金融、医疗等专业领域,为开发者提供高效稳定的AI系统部署方案。Lab4AI平台还提供科研支持、学习课程等全链条服

2025-10-30 14:34:47 690

原创 【每日Arxiv热文】北大新框架 Edit-R1 炸场!破解图像编辑 3 大难题,双榜刷 SOTA

当前基于指令的图像编辑虽借助扩散模型取得进展,但仍面临挑战,本研究突破SFT范式的泛化性与可控性限制,解决扩散模型结合 RL 时的策略优化偏差问题。

2025-10-29 11:39:42 752

原创 【每日Arxiv热文】还在为视频编辑发愁?港科大&蚂蚁集团提出Ditto框架刷新SOTA!

本文提出了一种创新的指令驱动视频编辑框架Ditto,通过构建高质量合成数据集Ditto-1M(包含100万个视频三元组)解决了数据稀缺问题。研究团队设计了自动化生成流程,结合图像编辑先验与视频生成技术,显著降低了计算成本。同时,提出的Editto模型采用模态课程学习策略,实现了从视觉引导到纯文本指令编辑的过渡。实验表明,该方法在指令跟随、时间一致性和视觉质量上均优于现有技术,为视频编辑领域建立了新基准。该研究为大规模视频编辑任务提供了数据生成和模型训练的完整解决方案。

2025-10-27 17:43:59 796

原创 【项目复现上新】Karpathy大神开源GitHub高分项目NanoChat!仅用100美元+8000行代码手搓ChatGPT

10月13日,AI领域大神AndrejKarpathy发布了自己的最新开源项目。截至当前,GitHub项目上已经达到29.1KStar。

2025-10-22 11:49:39 819

原创 【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理

DeepSeek团队于10月20日开源的DeepSeek-OCR,以“上下文光学压缩”为核心突破,重新定义了OCR(光学字符识别)的效率边界。

2025-10-22 10:55:50 982

原创 10.7万条轨迹+4大机器人构型!RoboMIND开源数据集破解机器人通用操作难题

开发鲁棒且通用的操作策略是机器人领域的关键目标。为实现有效的泛化能力,构建包含大量演示轨迹和在复杂真实环境中完成多样化任务的综合数据集至关重要。

2025-10-20 18:59:05 800

原创 【每日Arxiv热文】ICLR2026 !SAM3重磅来袭:能“听懂人话”的分割模型,性能狂飙2倍!

SAM3(SegmentAnythingModel3)代表了图像和视频分割领域的重大突破,这是一个基于概念提示的统一模型,能够检测、分割和跟踪图像视频中的对象。

2025-10-17 16:56:23 822

原创 【论文复现上新】NeurIPS 2023! 经典论文! DPO:你的语言模型,其实就是个奖励模型 | 强化学习 | 微调策略

于2023年发布的 "直接偏好优化" (Direct Preference Optimization, DPO) 论文提出了一种颠覆性的、更简单的对齐范式。DPO 的核心洞见是:我们完全不需要一个显式的奖励模型,也不需要强化学习。

2025-10-16 17:30:49 736

原创 7M参数,干翻巨无霸LLM!这款超小递归模型(TRM),在ARC-AGI上证明了“少即是多”

TRM仅使用一个超小的2层网络(7M参数),通过更直接、完整的递归和深度监督机制,在多个基准测试上显著超越了HRM和许多主流LLMs。其最引人注目的成果是在ARC-AGI-1上达到45%的测试准确率,超过了参数量是其数百万倍的LLMs。

2025-10-16 16:17:06 738

原创 【论文复现上新】AAAI2025!北理工团队提出FBRT-YOLO:面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测

北理工团队在AAAI 2025的论文中提出了一种专为实时航拍图像检测而深度优化的新架构FBRT-YOLO。阅读原文,欢迎访问Lab4AI.cn官网~

2025-10-14 19:10:07 789

原创 【每日Arxiv上新】无需人工奖励!Meta FAIR华人团队提出「早期经验学习范式」,AI智能体像人类一样“从错误中成长”

Meta AI研究团队提出"早期经验"范式,通过自监督学习连接模仿与强化学习。该框架让智能体通过探索-观察-反思循环自主学习,无需外部奖励信号。核心创新包括:1)隐式世界建模预测动作结果;2)自我反思机制生成改进建议。实验显示在复杂环境中任务成功率提升9.6%,泛化能力提高9.4%。研究模拟人类试错学习机制,为解决AI依赖专家数据、奖励设计困难等问题提供新思路。未来将探索长序列任务优化和物理世界迁移应用。

2025-10-14 11:21:27 713

原创 仅需五步! SwanLab助力Qwen3-“VL“超小中文多模态模型的”拼接微调“之路

传统的多模态模型训练面临诸多挑战,Lab4AI平台推出了Qwen3-"VL"实战课程,通过创新的"拼接微调"技术以及SwanLab 的实验追踪与可视化助力模型训练。

2025-10-09 17:55:53 440

原创 从 1959 年笨拙示教到 2025 年仿生突破:北大「灵巧手」登顶刊,具身智能如何炼成「类人操作」?

具身智能发展历经四个阶段:从1959年Unimate机器人的机械示教,到1986年行为革命的分布式智能,再到2004年认知融合的iCub项目,最终进入大模型革命时代。

2025-08-14 11:02:11 1091

原创 Transformer 大白话:AI 如何秒懂语言?

Transformer是ChatGPT等AI大模型的核心技术,通过创新架构实现高效语言理解,使AI能像人类一样理解上下文关联和深层语义,成为现代语言模型的基石技术。

2025-08-14 10:22:46 874

原创 当大模型遇上垂直领域:微调如何让 AI 从 “什么都会” 到 “样样精通”?

模型微调是将预训练大模型优化为特定领域专家的关键技术。通过在通用模型基础上使用专业数据调整参数,微调能显著提升模型在特定任务的表现。

2025-08-13 18:35:04 655

原创 运维界的“Cursor”来了!Chaterm让AI重塑云端管理,减轻命令行负担

合合信息在2025亚马逊云科技峰会上开源了运维AI工具Chaterm,该产品将传统命令行运维升级为AI智能代理模式。Chaterm提供Command和Agent两种操作方式,支持自然语言指令执行复杂运维任务,如服务器监控、软件安装等,同时确保本地存储密码密钥,保障数据安全。

2025-08-13 18:07:42 698

原创 3D 生成大模型全流程开源!腾讯 Hunyuan3D-2.1 解锁工业级生产:几何纹理双优化!

腾讯开源了工业级3D生成大模型Hunyuan3D-2.1,包含形状生成和纹理合成两个基础模型。该模型采用改进的DiT架构和PBR技术,能生成细节更精细、质感更真实的3D模型,在几何细节、纹理保真度和多视图一致性上优于同类模型。腾讯开源了完整的模型权重、训练代码及部署教程,支持开发者在本地部署和定制。实测显示,该模型能通过简单输入生成高质量的3D网格和纹理,适用于游戏、影视等场景。

2025-08-12 18:27:34 1051

原创 MCP:为你的大模型插上万能扩展坞

MCP协议正成为AI生态系统的关键连接器。该协议通过标准化接口,解决了AI模型与外部工具集成的复杂性问题,为开发者提供更高效的AI工具集成方案。

2025-08-05 14:56:43 630

原创 论文精选 | (ICCV 2025)从少样本示例中学习艺术图像编辑

精选论文提出了一种创新的两阶段照片涂鸦技术。该研究首先通过350万对数据预训练通用编辑模型OmniEditor;随后采用EditLoRA微调技术,仅需30-50对样本即可捕捉特定艺术风格。实验显示,该方法能有效平衡艺术风格迁移与背景完整性,为少样本条件下的个性化图像编辑提供了新思路。

2025-08-05 13:41:08 852

原创 论文精选 |(CVPR 2025)生成式摄影:面向真实文本到图像合成的场景一致性相机控制

该论文针对现有文本到图像模型在相机参数控制和场景一致性上的不足,提出“生成摄影”新范式。实验表明,该方法在保持场景一致性的同时,能精准控制光圈、色温等专业摄影参数,显著优于现有模型。代码已开源,支持快速体验不同相机参数下的生成效果。

2025-08-01 15:05:07 826

原创 算力需求 | 具身智能从科幻走向现实

具身智能正推动AI突破传统边界,让机器像人类一样通过多模态感知与环境互动。但高昂的硬件成本和低利用率问题仍是制约因素。具身智能的发展预示着AI将迈向更接近人类智能的新阶段。

2025-07-31 18:44:03 692

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除