AAAI 2026 为什么开源 LLM 搞不定数据分析？浙江大学揭秘核心原因

原创于 2025-12-16 16:08:50 发布 · 267 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#数据分析 #数据挖掘

AAAI 2026 为什么开源 LLM 搞不定数据分析？浙江大学揭秘核心原因

论文标题：Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study

作者团队：浙江大学

发布时间：2025年11月13日

👉一键直达论文

👉Lab4AI大模型实验室论文阅读

大语言模型（LLMs）在自动化数据分析任务中具有巨大潜力，但现有开源模型在面向高强度推理场景时仍存在明显局限。为此，本工作系统研究了提升开源 LLM 数据分析能力的策略。

首先构建了一个涵盖多样且贴近真实场景的种子数据集，从数据理解、代码生成和策略规划三个核心维度对模型表现进行评测。

💕研究结果表明

(1) 策略规划能力是影响整体性能的关键因素；

(2) 交互设计与任务复杂度会影响模型的推理表现；

(3) 数据质量相较于数据多样性更能决定模型的最终效果。

基于上述洞察，我们提出了一套数据合成方法，实验证明该方法能够提升开源 LLM 在数据分析任务中的推理与决策能力。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

大模型实验室Lab4AI

关注关注

8
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

参与评论您还未登录，请先登录后发表或查看评论

博客

Qwen-Video-8B与LLaMA-Factory联动实现垂类视频理解

12-19

587

Qwen3-VL的目标，是让模型不仅能“看到”图像或视频，更能真正看懂世界、理解事件、做出行动。为此，Qwen团队在多个关键能力维度上做了系统性升级，力求让视觉大模型从“感知”走向“认知”，从“识别”迈向“推理与执行”。LLaMA Factory是一个一站式的大模型微调框架。它整合了主流的高效训练技术，适配市场上数百个开源模型，让用户无需编写代码就能在网页端完成模型微调全流程。无论是角色扮演、专业问答还是多模态应用，LLaMA Factory都能提供可视化、可控、轻量化的微调解决方案。

博客

刚刚，谷歌正式发布Gemini 3 Flash

12-18

790

北京时间12月17日凌晨，谷歌正式发布了新一代AI模型Gemini 3 Flash，这款被称为“为速度而生的前沿智能”模型，在性能、成本和速度三个方面实现了突破性进展，有望重塑大模型性价比的天花板。

博客

腾讯混元世界模型 HY-World 1.5发布并开源：首个开源、实时交互、长期几何一致性的世界模型来了

12-18

425

今日，腾讯混元发布并开源 HY-World 1.5（WorldPlay），其支持实时交互生成、保持3D-致的世界模型。适用于风格多样的场景生成，支持3D重建、文本触发事件等多种应用。HY-World 1.5到24 FPS 生成一致性的长时域流式视频，与现有技术相比表现优异。其在不同场景中表现出强大的泛化能力，支持真实世界和风格化环境中的第一人称和第三人称视角，实现了3D重建、可提示事件和无限世界扩展等多样化应用。

博客

告别手敲 tabular：Table2LaTeX-RL 高保真表格生成复现

12-18

939

详细论文解读请查看往期文章NeurlPS2025| 告别手动制表:电子科大+之江实验室提出Table2LaTeX-RL创新性高保真表格生成方法科学论文中的复杂表格一直是自动化处理中的硬骨头：多级表头、跨行跨列单元格、嵌套结构和数学公式都极其依赖精细的版面控制。

博客

多模态赋能情绪理解：Qwen3-VL+LLaMA-Factory 的人脸情绪识别实战

12-17

832

本项目依托Lab4AI平台，基于LLaMA-Factory成功对Qwen3-VL进行了完整的微调流程。我们将传统的人脸情绪识别任务与多模态大语言模型（MLLM）相结合，探索了MLLM在视觉情绪理解中的应用。通过微调Qwen3-VL，我们成功将传统的分类任务转化为多模态推理任务，显著提升了模型在复杂场景下的鲁棒性和准确率。这一方案不仅在人脸情绪识别上取得了显著提升，还为其他视觉任务的多模态大模型应用提供了新的思路，具有广泛的应用前景。

博客

LLaMA-Factory 答疑系列二：高频问题 + 官方解决方案，建议收藏备用

12-17

377

本文整理了LLaMA-Factory大模型微调工具使用中的9个高频问题及解决方案，涵盖显存管理、数据格式、训练优化等关键点。主要内容包括：1）多服务器通信方法；2）学术资源加速技巧；3）预训练样本数差异原因；4）LoRA参数设置问题；5）显存占用优化方案；6）多模态数据格式规范；7）Jupyter文件操作异常处理；8）训练数据顺序控制；9）模型输出异常排查方法（模板匹配、过拟合处理等）。文章还介绍了Lab4AI平台提供的算力支持和课程资源，帮助开发者提升大模型微调实践能力。

博客

Qwen3-VL + LLaMA-Factory 怎么玩？手把手教你做一个会打分会挑错的作文批改助手

12-17

303

在K12 和高等教育阶段，作文批改一直是教学反馈中最费时、最主观、最难标准化的一环。核心痛点集中在教师批改压力巨大、评分主观性强难以统一以及反馈滞后难以形成写作闭环。随着大语言模型的发展，我们终于迎来了一个新选项：让大模型真正学会“像语文老师一样”看作文、打分数、写评语。今天，我们就通过一个在上可一键复现的完整项目，拆解这条路径：如何利用在仅有300 篇高中作文的小样本条件下，完成一个 “能打分 + 会写评语” 的中文作文智能批改助手，非常适合老师、教研员和教育 AI 开发者快速验证效果。

博客

成本杀手！LLaMA-Factory 助阵 Qwen3-VL：低预算下的高效医疗影像全揭秘

12-17

251

还在为医疗影像大模型的“高算力、高显存”门槛头疼吗？2025年10月，Qwen3-VL-30B-A3B-Instruct 的开源，带来了革命性的解决方案。它独创的，可以在保持顶级性能的同时，仅激活参数，直接将显存占用降低 60%！今天，我们将深度解析一个完整的实战项目：如何利用LLaMA-Factory 框架，高效微调 Qwen3-VL，让模型能够在有限的医学影像数据上，更好地理解图像内容、描述可见结构，并生成符合医学语境的分析文字。这套。

博客

LLaMA-Factory 课程答疑系列一：10个关键问题速查，官方认证解法让训练推理不踩雷

12-17

655

A：微调日志中进度条显示 error 通常是进度条组件的渲染问题，而非训练程序的功能错误。其本质是工具库（如 tqdm）在特定终端环境下无法正常动态刷新进度条，因此输出 error 标记。只要训练日志中后续有正常的训练指标（如损失、步数）输出，训练逻辑即为正常，无需担心。

博客

GLM-4.6V开源：重新定义多模态AI的行动范式

12-16

941

12月8日，，作为GLM系列在多模态方向上的重要迭代，GLM-4.6V在技术架构和应用场景上都实现了突破性进展。

博客

这个985实验室8篇论文被AAAI2026录用

12-11

1160

厦门大学ASC实验室8篇论文被AAAI2026录用，涉及激光雷达里程计、目标检测、协同感知、步态识别等前沿方向。这些研究在算法创新和应用落地方面取得突破，如RCP-LO框架提升了激光雷达里程计的泛化能力，Physically-Based LiDAR Smoke Simulation增强了目标检测的鲁棒性，V2VLoc实现了无GNSS信号的协同感知。实验室成果展现了在人工智能领域的领先实力，同时获得Lab4AI科研平台的技术支持，为从理论研究到实际应用提供了完整解决方案。

博客

吴恩达发布论文自动审阅器，ICLR评审接近人类水平

12-10

392

AI正在改变学术论文评审的游戏规则。斯坦福大学教授吴恩达近日发布了一款创新的Agentic Reviewer（智能体审稿人）工具，旨在解决学术圈长期存在的论文评审周期过长问题。这款工具在ICLR 2025审稿数据上的测试表现令人惊讶——

博客

这所211大学在AAAI 2026上发表6篇论文

12-08

599

近日，人工智能领域顶级国际会议（The 40th Annual AAAI Conference on Artificial Intelligence，CCF-A）公布录用结果，计算机科学与技术学院共有6篇研究论文被录用，实现AAAI国际顶会论文的历史性突破。第四十届人工智能顶级国际会议——AAAI 2026（The 40th Annual AAAI Conference on Artificial Intelligence）将于2026年1月20日至27日在新加坡博览中心召开。

博客

写论文的人都应该知道的宝藏工具：Zotero

12-04

580

Zotero是一款免费开源的跨平台文献管理工具，能有效解决科研人员的文献管理难题。它支持一键抓取文献、智能分类整理、自动生成参考文献等功能，并可通过插件扩展知网文献抓取等特色功能。相比同类工具，Zotero具有完全免费、操作简便等优势，特别适合学生和科研人员使用。安装后建议配置WebDAV同步解决存储空间限制问题。该工具能显著提升文献管理效率，让研究者专注于核心科研工作。

博客

NeurIPS 2025 Spotlight！跨模态重识别革命！东北大学等 MDReID 图像信息智能匹配

12-03

412

论文标题：作者团队：东北大学、厦门大学、新加坡国立大学发布时间：2025年10月27日✅Lab4AI平台提供AI导读和AI翻译等工具，辅助论文阅读。想象一下：警察想要通过监控录像找到一个嫌疑人。但是，不同监控摄像头的类型可能完全不同——有的拍的是普通的彩色照片（RGB），有的是黑白但能夜间看清的（NIR），还有的是能感知热量的热成像（TIR）。这就带来了一个难题：如果用一张彩色照片（RGB）去热成像（TIR）照片里找人，传统系统可能就失灵了。这篇论文就是为了解决这个“张冠李戴”的实际问题。

博客

NeurIPS 2025|南开大学提出 VidEmo 实现更精准的情感解读

12-02

347

《VidEmo：面向情感中心视频基础模型的树状推理框架》提出创新性情感分析模型VidEmo，突破传统视频AI在复杂情绪识别上的局限。该研究通过三阶段推理框架（属性感知-表情分析-情感理解）和210万样本的EmoCFG数据集，使AI能像心理专家般解读细微情绪。实验显示，VidEmo在15项任务中超越开源VideoLLMs，微表情检测等任务表现突出，下游情感识别准确率提升9.4%。该成果由南开大学、鹏城实验室和快手科技联合研发，为情感计算领域提供新范式。

博客

NeurIPS 2025 | 浙大、浙工大等团队提出LRMs 自适应思考：简单任务快处理，复杂任务深分析

12-02

332

论文标题：作者团队：浙江大学、阿里巴巴云、浙江工业大学发布时间：2025年10月30日✅Lab4AI平台提供AI导读和AI翻译等工具，辅助论文阅读。您还可以投稿复现这篇论文~

博客

李飞飞最新访谈：空间智能是AI的下一个前沿，Transformer可能被淘汰？

12-02

810

斯坦福大学教授李飞飞在播客中分享了对AI未来的大胆预测，强调空间智能将重塑游戏规则。2025年11月，斯坦福大学教授、World Labs创始人李飞飞参加了一档播客访谈，深入探讨了空间智能（Spatial Intelligence）和世界模型（World Models）的核心意义。她指出，当前的大型语言模型（LLM）虽令人惊叹，但仅靠文本无法实现通用人工智能（AGI），AI必须像人类一样通过视觉和行动体验物理世界。

博客

NeurIPS 2025！采样成本降 50%+ 准确率提升！南大等团队的RPC方法刷新 LLM 推理上限

12-02

401

论文标题：作者团队：南京大学、瑞士苏黎世联邦理工学院发布时间：2025年10月17日✅Lab4AI平台提供AI导读和AI翻译等工具，辅助论文阅读。您还可以投稿复现这篇论文~

博客

看完《疯狂动物城》心痒痒？试试ComfyUI，让朱迪和尼克走进你的画布

12-01

1071

最近，《疯狂动物城》再度以超高热度回归大众视野。大银幕上朱迪的勇敢坚定、尼克的幽默机敏，还有那座让人无限着迷的动物乌托邦，当片尾曲响起，你是否也曾有过一丝意犹未尽？过去这是梦想——而如今，借助强大的 AI 绘画工具，我们终于可以实现这种“再创作”。尤其是，能让尼克和朱迪呈现出惊人细腻、贴近原作、又带一点新艺术风味的图像效果。今天，就带大家在 Lab4AI 上复现这份魔法。