每周编辑精选
文章平均质量分 90
精选每周上新的公共教程、数据集以及 AI4S 论文解读等内容,干货满满
HyperAI超神经
链接人工智能新场景
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
低门槛试用Open-AutoGLM:屏幕理解+自动执行的智能体体验;Spatial-SSRL-81k构建空间感知的自监督提升路径
HyperAI 超神经为大家整理了 12.8-12.12 期间一系列极具价值且应用广泛的教程和数据集,涵盖智能体、计算机视觉、TTS 等多个领域~原创 2025-12-15 15:10:51 · 774 阅读 · 0 评论 -
开源性价比最优选!Mistral AI 发布 Ministral 3 系列模型,集成多模态理解与智能执行能力;从高动态舞蹈到日常行为,X-Dance 数据集解锁人体动画生成多维度测试
HyperAI 超神经为大家整理了 11.17-11.21 期间一系列极具价值且应用广泛的教程和数据集,涵盖计算机视觉、生物学、多模态等多个领域~原创 2025-12-08 15:55:58 · 1091 阅读 · 0 评论 -
实时目标检测SOTA!YOLOv13拓展全局感知能力;入选NeurIPS 2025,UltraHR-100K解锁超高分辨率文生图
HyperAI 超神经为大家整理了 10.20-10.24 期间一系列极具价值且应用广泛的教程和数据集,涵盖生物医学、 HPC 、数学推理、文本信息抽取等多个领域~原创 2025-11-10 14:08:17 · 1403 阅读 · 0 评论 -
文档解析新SOTA!MinerU新版本创新「由粗到细」两阶段解析策略;S2S领域基准首发!腾讯最新基准数据集评测语音模型能力
HyperAI 超神经为大家整理了 10.13-10.17 期间一系列极具价值且应用广泛的教程和数据集,涵盖生物医学、视频生成、语言理解、文本识别等多个领域~原创 2025-10-20 19:21:42 · 863 阅读 · 0 评论 -
一键部署Qwen3开源三件套!端到端架构突破跨模态能力;10w个体样本!Health&Lifestyle洞悉生活方式与健康关联
Qwen3-Omni-30B-A3B-Captioner 是由阿里巴巴通义千问团队发布的音频描述大模型,无需任何提示,该模型能够自动为复杂语音、影视声效等生成精准全面的描述,能识别说话人情绪、音乐元素(如风格、乐器)、敏感信息等,适用于音频内容分析、安全审核、意图识别、音频剪辑等多个领域。原创 2025-10-02 11:00:59 · 1066 阅读 · 0 评论 -
实现精细特征化 TCR 序列!深度学习框架 DeepTCR 拓展免疫学研究手段;5w 条肺癌患者数据背书!Lung Cancer Risk 详解肺癌风险因素
HyperAI 超神经为大家整理了 9.8-9.12 期间一系列极具价值且应用广泛的教程和数据集,涵盖影像生成、生物学、逻辑推理等多个领域~原创 2025-09-15 16:15:34 · 754 阅读 · 1 评论 -
风格与主题高质量融合!USO框架通过解耦与奖励学习实现二者兼得;1k本中医典籍!华东理工发布MedChatZH让AI更懂中医
HyperAI 超神经为大家整理了 9.1-9.5 期间一系列极具价值且应用广泛的教程和数据集,涵盖图像编辑、多模态推理等多个领域~原创 2025-09-09 17:04:22 · 995 阅读 · 0 评论 -
图像编辑新SOTA!Qwen-Image-Edit兼具语义与外观双重编辑能力;25种欧洲语言!Granary破题多语种模型数据荒
HyperAI 超神经为大家整理了 8.18-8.22 期间一系列极具价值且应用广泛的教程和数据集,涵盖图像编辑、多模态推理等多个领域~原创 2025-08-26 16:11:21 · 645 阅读 · 0 评论 -
性能赶超GPT-4.1-mini!MiniCPM-V 4.0达端侧图像模型新高度;HelpSteer3让AI回应更接近人类思维
该模型不仅继承了前代 MiniCPM-V 2.6 强大的单图、多图和视频理解性能,在 OpenCompass 评估中图像理解能力超越了 GPT-4.1-mini-20250414、Qwen2.5-VL-3B-Instruct 和 InternVL2.5-8B 等主流模型,更实现了参数减半至 4.1B,大幅降低了部署门槛。该数据集包含了 42,390 个样本,涵盖 4 种环境场景(雨、雾、夜晚、雪、晴朗天气)、不同的物体类别(汽车、卡车汽车、自行车、摩托车、步行者、交通标志交通灯)。原创 2025-08-19 15:36:29 · 1374 阅读 · 0 评论 -
1000w小时语音数据!语音模型Higgs Audio V2情感能力跃迁;MathCaptcha10k提升验证码识别技术
HyperAI 超神经为大家整理了 8.4-8.8 期间一系列极具价值且应用广泛的教程和数据集,涵盖自动驾驶、语音模型等多个领域~原创 2025-08-11 13:22:09 · 1112 阅读 · 0 评论 -
音频美学评估新范式!Audiobox-Aesthetics 首创四维音频量化;670 万个案例!Caselaw 解锁法律参考的合规蓝本
HyperAI 超神经为大家整理了 7.21-7.25 期间一系列极具价值且应用广泛的教程和数据集,涵盖音频分析、大模型等多个领域~原创 2025-07-28 11:57:02 · 757 阅读 · 0 评论 -
2.5k 个问题!HLE 突破性构建大语言模型精准评估体系;40 亿参数轻量级大语言模型 Jan-Nano,专为深度研究任务设计
近年来,大语言模型(LLM)取得了突破性进展,能够胜任解答问题、内容创作等多样化任务,展现出了强大能力。Benchmark 作为评估 LLM 发展能力的重要工具,对于 LLM 的能力改进与提升具有参考性意义,但目前热门 Benchmark 在难度设计方面存在欠缺,表现为前沿 LLMs 在现有的许多评估中均取得相近且较高的评分,导致 LLM 能力衡量准确性受限,也因此模糊了大模型的能力提升空间。原创 2025-07-21 13:56:31 · 1032 阅读 · 0 评论 -
推理能力跃迁!GLM-4.1V-Thinking推动认知智能演进;500万个分步思维数据示例!MathX-5M解锁数学推理新境界
来自 AMD 的 AI 架构师张宁,在「助力开源社区,剖析 AMD Triton 编译器」为题的演讲中,围绕公司在开源社区的技术贡献,系统解读了 AMD Triton 编译器的核心技术、底层架构支撑及生态建设成果,为开发者深入理解高性能 GPU 编程与编译器优化提供了全面视角。CIFAKE 是一个识别 AI 生成图像的合成数据集,该数据集是一个二分类图像数据集,对增强图像处理技术的鲁棒性、提升 AI 生成内容的辨识能力,尤其在新闻传播、社交媒体监控等领域,具有重要的实际应用价值。原创 2025-07-14 15:27:51 · 778 阅读 · 0 评论 -
OmniGen2 多模态推理×自我纠正双引擎,引领图像生成新范式;95 万分类标签!TreeOfLife-200M 解锁物种认知新维度
HyperAI超神经为大家整理了一系列极具价值且应用广泛的数据集,涵盖生物视觉、医疗分析、图像生成和农业等多个领域~原创 2025-07-09 11:11:00 · 869 阅读 · 0 评论 -
成本大幅降低!Distill-Any-Depth实现高精度深度估计;入选CVPR 2025!Real-IADD解锁工业检测新高度
Distill-Any-Depth 通过蒸馏算法整合多个开源模型的优势,仅需少量无标签数据即可实现高精度深度估计。原创 2025-06-23 14:16:49 · 1085 阅读 · 0 评论 -
告别代码烦恼!Seed-Coder 解锁高效编程;Mixture-of-Thoughts 涵盖多领域数据,实现高质量推理
Seed-Coder-8B-Instruct 仅需极少的人力投入,即可让 LLM 自行高效地管理代码训练数据,从而显著提升编码能力。通过自身生成和筛选高质量训练数据,可大幅提升模型代码生成能力。原创 2025-06-06 13:49:12 · 1143 阅读 · 0 评论 -
ComfyUI Chroma解锁文生图新维度;OpenMathReasoning数学推理数据集,首个专注数学推理的高质量数据集
该数据集涵盖了多种化学成分和物理属性,每条数据对应一种独特的材料。该数据集重点关注 5-9 级难度的数学问题,涵盖代数、微积分、数论、几何、概率、离散数学等多个领域,侧重挑战复杂推理能力,该数据集还通过语义匹配针对常见基准进行了细致的去污染处理,最大限度减少测试集泄露并促进模型公平评估。该数据集将图像和文本数据相结合,模拟真实场景中的信息检索与生成任务,例如新闻事件分析、视觉问答等,着重评估 MLLMs 在多模态上下文中利用检索文档知识的能力,包括对图像内容的理解、图文关联推理以及事实判断等方面。原创 2025-05-23 16:08:58 · 1000 阅读 · 0 评论 -
「吉卜力」画风生成神器—EasyControl 一键启动;单图秒变 3D 模型,TripoSG 革新 3D 资产生成
该模型在 LiveCodeBench v5 (8/1/24-2/1/25) 上实现了 60.6% 的 Pass@1 准确率,比基本模型 (53%) 提高了 8%,并且只用 14B 参数实现了与 OpenAI 的 o3-mini 相似的性能。该模型基于 Qwen2.5-VL 在 R1-Onevision 数据集上微调而成,擅长处理复杂的视觉推理任务,无缝整合视觉和文本数据,在数学、科学、深度图像理解和逻辑推理等领域表现出色,可作为强大的 AI 助手解决各种问题。近期,吉卜力风格的图像席卷各大社交媒体。原创 2025-04-27 16:14:02 · 719 阅读 · 0 评论 -
Stable Virtual Camera 重新定义3D内容生成,解锁图像新维度;BatteryLife助力更精准预测电池寿命
该数据集为 NVIDIA 于 GTC25 大会上发布的物理 AI 数据集,包含 15 TB 的数据,超过 320,000 条用于机器人训练的轨迹,以及多达 1,000 个通用场景描述 (OpenUSD) 资产,包括 SimReady 集合,涵盖了不同类型的道路和地理环境、不同的基础设施和不同的天气环境。数据集内含多个视觉场景,每个问题都配有 2 到 8 张图像,这些图像与文本交织在一起,形成复杂的多视觉场景,更贴近现实世界中的数学问题,能够有效评估模型处理多视觉信息的推理能力。原创 2025-03-28 17:13:20 · 1373 阅读 · 0 评论 -
扩散模型×音乐生成,DiffRhythm 分分钟完成歌曲创作!低门槛部署大语言模型,MiniMind 数据集重磅开源
来自剑桥大学的研究团队提出了一个名为 Celcomen 的虚拟组织模型,不仅能估计环境对单个细胞的影响,还能推测单个细胞对其周围环境及整体组织的影响,研究人员通过自一致性合成数据和真实世界数据实验验证了 Celcomen 模型在因果结构学习和解开因果关系方面的可识别性以及在真实和自模拟的空间转录组学数据中解开并恢复基因-基因相互作用的能力。该数据集包含用于对不同类型的垃圾进行分类和检测的图像和 YOLO 格式的注释,类别分别为:塑料、纸张和纸板、玻璃/金属、有机、废物、纺织品和电子产品(电子垃圾)。原创 2025-03-25 16:21:47 · 738 阅读 · 0 评论 -
开源顶流集结!QwQ-32B 解锁多元玩法,OpenManus 低成本构建 AI 智能体!vLLM v1 赋能高效模型推理
澳大利亚西澳大学等团队,提出了使用基于深度学习的自动化框架,该研究利用印度尼西亚一家医院的 200 次颅骨 CT 扫描,训练并测试了 3 种基于深度学习的网络配置,其中最准确的深度学习框架能够将性别和颅骨特征结合在一起进行判断,分类准确率可达 97%,显著高于人类观察者的 82%。R1-Onevision 数据集旨在赋予模型高级的多模态推理能力,它通过在自然场景、科学、数学问题、基于 OCR 的内容和复杂图表等多个领域的丰富、上下文感知的推理任务,弥合视觉和文本理解之间的差距。本文是数据集下载地址。原创 2025-03-14 16:13:37 · 1187 阅读 · 0 评论 -
Ebook2Audiobook 一键将电子书转有声读物;CVPR 首届跨域小样本对象检测挑战赛数据集上线
然而,YOLOv12 的推出改变了这一局面。澳大利亚西澳大学等团队,提出了使用基于深度学习的自动化框架,该研究利用印度尼西亚一家医院的 200 次颅骨 CT 扫描,训练并测试了 3 种基于深度学习的网络配置,其中最准确的深度学习框架能够将性别和颅骨特征结合在一起进行判断,分类准确率可达 97%,显著高于人类观察者的 82%。该数据集旨在通过高质量的标注数据,提升法律文书生成模型的性能,特别是在法律推理和文书撰写方面的能力,适用于法律智能系统、法律文书自动生成、法律问答系统等多种应用场景。原创 2025-03-07 19:06:24 · 1117 阅读 · 0 评论 -
超11w下载,OpenThoughts-114k推理数据集上线;首个AI短剧创作神器SkyReels-V1来了!告别高成本长周期
Owkin 公司立志实现生物学领域的首个AGI,已经解决了大众最担心的患者数据隐私问题,通过整合不同机构的多模态数据,为精准医疗提供了可靠的决策依据,助力乳腺癌、直肠癌等癌症的诊断和药物研发,已与赛诺菲、BMS 和阿斯利康等制药巨头合作。按照教程步骤操作,只需描述心中所想,即可生成高分辨率视频。它基于 Llama3.3-70B-Instruct 进行训练,采用强化学习和蒸馏技术提升推理表现,不仅继承了 Llama 系列模型的优势,还在此基础上进一步优化了推理能力,尤其在数学、代码与逻辑推理任务中表现突出。原创 2025-02-28 15:29:31 · 1381 阅读 · 0 评论 -
微软与腾讯技术交锋,TRELLIS引领3D生成领域多格式支持新方向
去年 11 月,腾讯推出 Hunyuan3D 生成模型,是业界首个同时支持文字和图像生成 3D 的开源大模型。紧接着不到一个月,微软便发布了全新框架 TRELLIS,加入 3D 资产生成领域的竞争中。TRELLIS 支持多格式输出,包括辐射场、3D 高斯和网格,为不同需求提供最大灵活性。优质公共数据集:10 个优质教程精选:6 个社区文章精选:8 篇热门百科词条:5 条1 月截稿顶会:7 个。原创 2025-01-13 17:33:50 · 1569 阅读 · 0 评论 -
在线运行 Llama 3.3 唯一开源 70B 模型,性能堪比 405B!LaTeX OCR 数据集上线,助力数学公式识别
MangaZero 数据集是一个专为漫画生成任务设计的大规模、多角色、多状态的漫画图像数据集,具体包含 43,264 页漫画和 427,147 个带注释的面板,支持在连续帧中可视化各种角色互动和动作,适用于多角色、多状态的漫画生成任务。该数据集是一个包含 3,371 张飞机图像的数据集,这些图像被分为 10 个类别文件夹,每个类别对应一个特定的飞机型号:A10、A400M、AG600、AH64、AV8B、An124、An22、An225、An72 和 B1 等。本文是对该公司的详细报道,点击速看。原创 2024-12-31 16:41:29 · 910 阅读 · 0 评论 -
Google DeepMind 推出了 SynthID-Text 技术,为 AI 内容监管提供了解决方案
11.18-11.22Weekly Highlights原创 2024-11-22 17:17:22 · 1193 阅读 · 0 评论 -
攻克OCR手写识别难点!InkSight教程上线,实现高精度转写;iNatSounds数据集发布,含23万自然物种音频
11.11-11.15Weekly Highlights原创 2024-11-18 16:34:41 · 1303 阅读 · 0 评论 -
极速体验最新版 Gradio 5!超 200 万用户使用;入选 ACCV’24,LoLI-Street 低光照图像增强数据集上线
10.21-10.25 Weekly Highlights!原创 2024-10-25 18:53:10 · 818 阅读 · 0 评论 -
一键部署Phi 3.5 mini+vision!多模态阅读基准数据集MRR-Benchmark上线,含550个问答对
近日,在上海交通大学 AI for Bioengineering 暑期学校活动中,钟博子韬博士以「AlphaFold 3:原理,应用与展望」为题,系统性地梳理了他的学习心得,并广泛整理了来自科研界的众多相关研究成果,向大家分享了他对于 AlphaFold 3 的深刻洞察,本文是演讲的核心内容梳理。复旦大学团队提出了一种新的微型化重构光谱仪设计,结合了传统光谱仪和计算重构光谱仪的优势,通过集成的自参考窄带滤波通道,使得人工智能算法可以在更高维度的参数空间进行光谱和算法参数的同时搜索。小模型又又又卷起来了!原创 2024-09-06 18:27:11 · 1138 阅读 · 0 评论 -
突破万字长文输出瓶颈!清华大学开源 LongWriter-6k 数据集;7 个 CCF A 类顶会即将截稿
近日,山东大学吕海泉、孙蓉、张凯及山西医科大学梅齐,联合螺旋矩阵公司等研究团队,取得了突破性进展,运用机器学习技术,基于 mRNA 的分析,成功开发了一种评估原发性乳腺癌患者样本中癌症干细胞特性的新方法 BCSC signature。本文是对研究论文的详细解读与分享。这个数据集包含了原始 Rider-Waite Tarot Deck 中 78 张牌的图像和相关文本描述,为研究者和艺术家提供了丰富的资源进行塔罗牌艺术和象征意义的探索,可用于训练模型生成塔罗牌风格的图像。本文是对研究论文的详细解读与分享。原创 2024-08-25 15:29:54 · 2171 阅读 · 0 评论 -
AI顶会KDD’25今日截稿!Llama 3.1中文微调数据集已上线,超大模型一键部署
7 月的 AI 圈真是卷完小模型卷大模型,精彩不停!大多数同学都能体验 GPT-4o、Mistral-Nemo 这样的小模型,但 Llama-3.1-405B 和 Mistral-Large-2 这样的超大模型让很多小伙伴犯了难。别担心!hyper.ai 官网在教程板块为大家提供了使用「Open WebUI」和使用「OpenAI 兼容 API 服务」两种方式启动这两个超大模型的教程!此外,还上线了...原创 2024-08-09 11:02:20 · 702 阅读 · 0 评论 -
AAAI‘25 今日截稿!SD 核心成员开源比 Midjourney 还强的文生图模型,现已提供一键启动
该框架统一了神经网络中损失函数的最小化与密度泛函理论中的能量泛函优化,相比传统的有监督学习方法,具有更高的准确性和效率,为发展深度学习 DFT 方法开辟了一条新的途径。最终的基准包含 2,138 个问题三元组,总共 6,414 个不同的问题,涵盖不同主题和难度级别。PubMedVision 是一个大规模且高质量的医疗多模态数据集,研究团队通过精细的数据处理方法,从 PubMed 国际医学期刊的论文中筛选出与医疗相关的图片及有信息量的图片描述,有效过滤了大量医疗无关的图片和上下文不相关内容。原创 2024-08-16 13:08:48 · 1215 阅读 · 0 评论 -
2024 Meet AI Compiler 北京线下聚会定档!千万级指令微调数据集 InfinityInstruct 开源
高质量的指令数据是训练和优化大语言模型不可或缺的资源,是提升模型性能的基石。该数据集是一个针对日文漫画的机器翻译评估数据集,包含五种不同风格(幻想、爱情、战斗、悬疑、生活)的漫画,数据集中共包含 1,593 个句子,848 个场景画面和 214 页漫画,由东京大学 Mantra 团队发布。该数据集是一个专注于城市建筑的图像数据集,它通常包含大量的城市建筑图像,这些图像可以用于训练和评估计算机视觉模型,特别是在建筑物检测、语义分割、实例分割等任务上,相关成果已收录于 CVPR 2024。原创 2024-06-18 18:56:52 · 1123 阅读 · 0 评论 -
PhotoMaker 腾讯推出个性化图像生成新高度;LawInstruct 首个法律大型指令数据集上线
浙江大学 GIS 实验室的研究人员引入了一种神经网络方法,对观测点间的多种空间邻近性度量进行非线性耦合,得到优化的空间邻近性度量,提升了模型对房价预测的准确性。除了生成个性化人物照片以外,它还能改变人物的年龄和性别,整合不同人物的特征创造新的人物信息,是一款非常使用的 AI 绘画工具。PhotoMaker 是由腾讯与南开大学联合开发的 AI 图像生成工具,不仅能够捕捉人物的面部特征,还能根据喜好生成逼真的人物图像,将个性化定制推向了新高度。狗有 113 个 WAV 文件,对应 598 秒的音频。原创 2024-06-24 18:46:10 · 1188 阅读 · 0 评论 -
独家中字!LeCun 学生 Alfredo 春季 AI 课程开播;CVPR‘24 遥感数据集下载
近日,纽约大学计算机科学助理教授、Yann LeCun 的学生——Alfredo Canziani 公开了自己的春季「AI 课程」,内容覆盖离散概率和朴素贝叶斯、感知机和逻辑回归、优化、统计和神经自然语言处理、神经网络分类、循环神经网络和卷积神经网络等主题。该数据集是一个包括 3,300 名受试者的视网膜神经疾病(青光眼)数据集,含有 2D 和 3D 图像数据,数据集中包含了来自 3 个主要种族群体(白人、黑人和亚洲人)相等数量的受试者,这避免了可能混淆公平学习问题的数据不平衡问题。原创 2024-07-01 18:57:08 · 706 阅读 · 0 评论 -
一键运行 ComfyUI SD3!大规模医学 VQA 评测数据集上线,涉及超 20 个人体器官和部位
它能够轻松将单色图像赋予丰富的色彩,或将简单的草图转换为逼真的图像。本文是该研究的详细解读和分享。该数据集主要覆盖木质山区,树木密度较低且地形复杂,包含总计 98,949 颗树木的 1,350 张图像训练集和 1,350 张图像测试集,每张图像的平均包含 36 棵树木,为模型在复杂地形中的性能提供了重要的测试环境。该数据集涵盖了 70 种不同的语言,为低资源语言提供了更多的训练数据,含共计 182,000 个指令微调对,旨在提升大型语言模型在遵循指令方面的性能,特别是在多样化的语言和任务上。原创 2024-07-12 15:03:58 · 952 阅读 · 0 评论 -
ICML最佳论文SD3上线公共教程!DreamBench++图像自动评估新基准来了,实现人类偏好深度对齐
MMUD 中的问题涉及 2 到 20 张图像,平均图像和文本标记长度为 8.2K 个标记,最大图像和文本长度达到 18K 个标记,对现有的多模态大型模型提出了重大挑战。华中科技大学白翔、刘禹良研究团队联合阿德莱德大学、安阳师范学院、华南理工大学,利用基于图像的生成模型,训练出了一种针对甲骨文破译优化的条件扩散模型 OBSD,为自然语言处理难以解决的古文字识别任务提供了一种新颖的方法。它允许使用少量图像来训练模型,使其能够在多种不同的情境中生成该特定个体的图像,同时保持其关键的视觉特征。原创 2024-07-26 18:05:49 · 779 阅读 · 0 评论 -
Llama 3.1中文微调数据集已上线,超大模型一键部署
该数据集是一个为遥感图像理解设计的多用途视觉-语言基准数据集,包含 29,614 张经过人工验证的详细字幕图像、52,472 个对象引用和 123,221 个问答对,旨在推进通用的、大规模的遥感图像视觉-语言模型的发展。该数据集是一个专为微调大语言模型而设计的数据集,包含了大量的问答对数据,每个问题都有中文和英文两个版本的答案,并且答案中融入了趣味幽默的元素,包括表情符号 (emoji) 的使用。BoWFire 数据集是一个专门用于火焰检测的图像数据集,旨在提高火灾检测的准确性并减少误报。原创 2024-08-12 16:38:08 · 1464 阅读 · 0 评论
分享