OpenBayes 一周速览丨OmniGen2「双轨架构」实现文本/图像分工协作,效果直逼GPT-4O;OCRBench文本识别基准数据集发布,含1K问答对

公共资源速递

4 个公共数据集:

* ReasonMed 医学推理数据集

* Miriad-5.8M 医学问答数据集

* WebClick 网页理解基准数据集

* OCRBench 文本识别基准数据集

2 个公共模型:

* MiniCPM4-8B

* Kimi-Dev-72B-GGUF

9 个公共教程:

深度估计 * 2

3D 生成 * 3

图像生成与处理 * 4

访问官网立即使用:openbayes.com

公共数据集

1. ReasonMed 医学推理数据集

ReasonMed 数据集包含 37 万个高质量的问答示例,覆盖临床知识、解剖学、遗传学等多个领域。数据从 3 个大型语言模型(Qwen-2.5-72B、 DeepSeek-R1-Distill-Llama-70B 和 HuatuoGPT-o1-70B)生成的 175 万条初始推理路径中提取,并经过严格的多智能体验证和优化流程提炼而成。

* 直接使用:

OpenBayes 控制台

2. Miriad-5.8M 医学问答数据集

Miriad-5.8M 数据集包含 582 万个医学问答对,涵盖了从基础科学到临床实践的各个方面,MIRIAD 提供了结构化的高质量问答对,支持 RAG、医学检索、幻觉检测和指令调整等各种下游任务。

* 直接使用:

OpenBayes 控制台

3. WebClick 网页理解基准数据集

WebClick 数据集包含来自 100 多个网站的 1,639 张英文网页截图,这些截图配有精确标注的自然语言指令和像素级点击目标。

* 直接使用:

OpenBayes 控制台

4. OCRBench 文本识别基准数据集

OCRBench 数据集是多模态大型模型光学字符识别(OCR)的评估基准,旨在评估大型多模态模型(LMM)在不同文本相关任务中的 OCR 能力。该数据集包含 1,000 个手动筛选和校正的问答对,这些问答对来自 5 项具有代表性的文本相关任务:文本识别、场景文本中心、文档导向、关

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值