公共资源速递
4 个公共数据集:
* ReasonMed 医学推理数据集
* Miriad-5.8M 医学问答数据集
* WebClick 网页理解基准数据集
* OCRBench 文本识别基准数据集
2 个公共模型:
* MiniCPM4-8B
* Kimi-Dev-72B-GGUF
9 个公共教程:
深度估计 * 2
3D 生成 * 3
图像生成与处理 * 4
访问官网立即使用:openbayes.com
公共数据集
1. ReasonMed 医学推理数据集
ReasonMed 数据集包含 37 万个高质量的问答示例,覆盖临床知识、解剖学、遗传学等多个领域。数据从 3 个大型语言模型(Qwen-2.5-72B、 DeepSeek-R1-Distill-Llama-70B 和 HuatuoGPT-o1-70B)生成的 175 万条初始推理路径中提取,并经过严格的多智能体验证和优化流程提炼而成。
* 直接使用:
2. Miriad-5.8M 医学问答数据集
Miriad-5.8M 数据集包含 582 万个医学问答对,涵盖了从基础科学到临床实践的各个方面,MIRIAD 提供了结构化的高质量问答对,支持 RAG、医学检索、幻觉检测和指令调整等各种下游任务。
* 直接使用:
3. WebClick 网页理解基准数据集
WebClick 数据集包含来自 100 多个网站的 1,639 张英文网页截图,这些截图配有精确标注的自然语言指令和像素级点击目标。
* 直接使用:
4. OCRBench 文本识别基准数据集
OCRBench 数据集是多模态大型模型光学字符识别(OCR)的评估基准,旨在评估大型多模态模型(LMM)在不同文本相关任务中的 OCR 能力。该数据集包含 1,000 个手动筛选和校正的问答对,这些问答对来自 5 项具有代表性的文本相关任务:文本识别、场景文本中心、文档导向、关

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



