产品更新丨OpenDataLab 移动端版本上线,随时随地查阅数据集;优化数据集信息展示,提升使用体验

OpenDataLab最新迭代升级

移动端最新版本全新上线

更多亮点,一起来看看

 01 

优化搜索框、标签栏展示形式

让查找与筛选功能更易用

为了让大家掌握“智能检索”的正确打开方式,我们在搜索框中新增了提示文案。

你可以根据提示,输入数据集名称、任务、标注类型等关键字,更快、更大范围地匹配到目标数据集。

智能检索框(图源:OpenDataLab数据集检索页)

另外,“任务类型”、“标注类型”2个标签栏也有了新的调整,原来的“折叠 / 展开”更新为了“滑动条”查看,提高了标签内容的查阅速度与使用体验。

任务类型、标记类型查看示意(图源:OpenDataLab标签模块)

 02 

优化数据集的概览内容

一秒 get 数据集的重要特征

如何快速判断、筛选目标数据集?那你一定得关注数据集概览信息。

我们将大家最关心的数据集的媒体类型、数据数量、文件体积、任务类型、标注类型 5 个关键字段优先展示在数据集概览中,只需扫一眼,即可快速、全面地了解数据集特征。

数据集概览内容(图源:OpenDataLab数据集概览模块)

 03 

优化数据集链接的拼接方式

提高链接可读性

数据集链接结构更新为 “平台网址+数据集名称”。如此清晰、易懂的拼接方式,增加了数据集使用、分享、链接调用的体验感。

数据集链接演示(图源:OpenDataLab数据集链接栏

 04 

新增OpenDataLab移动端版本

随时、随地检索、查阅数据集

为了让用户更方便、快速地找到目标数据集,我们现在推出了OpenDataLab 移动端。

只要拿起手机,就能随时随地查找、阅读数据集信息,通勤路上、休息的时候、就寝前……不再受设备、场景的限制。

移动端演示(图源:OpenDataLab移动端)

长按二维码识别或点击原文立即体验 ,记得收藏哦。

OpenDataLab公开数据集平台

https://opendatalab.com/

以上就是本期更新内容,欢迎体验。

在数据集查找、下载、使用过程中,你有任何问题、建议、感受,都可以找我们交流,你的认可及反馈是我们最大的前进动力。

更多数据集上架动态、更全面的数据集内容解读、最牛大佬在线答疑、最活跃的同行圈子……添加微信opendatalab_yunying 加入OpenDataLab交流群。

<think>好的,我现在需要回答用户关于大模型微调常用数据集的问题。首先,用户明确提到想了解这些数据集,所以我要从之前的引用中提取相关信息,并组织成清晰的分类。 根据引用[1],指令微调数据集分为自然语言处理任务数据集、日常对话数据集和合成数据集。引用[2]提供了很多具体的数据集名称和链接,比如InfinityInstruct-3M、M2Lingual、AgentInstruct等。我需要将这些数据集分类到上述三种类型中,或者根据领域分类,比如文本、图像、多模态等,可能更直观。 用户可能希望知道每个数据集的类型、用途和获取方式,所以需要逐一列出,并附上简要说明。同时,引用[4]提到了IMDB数据集使用方法,但用户的问题更关注大模型微调,所以可能需要强调不同数据集的应用场景,比如问答、多轮对话、多模态任务等。 需要注意引用格式,每个数据集后加上对应的引用标记,比如[^2]。同时,用户可能需要知道如何获取这些数据集,所以提供链接或平台信息很重要,如Hugging Face、OpenDataLab等。 最后,生成相关问题时要围绕大模型微调的数据集选择、构建、使用和挑战,确保问题具有实际意义,帮助用户深入理解。</think>### 大模型微调常用数据集分类及说明 大模型微调数据集根据应用场景和内容形式可分为以下类型,具体示例如下: #### 一、通用文本指令数据集 1. **InfinityInstruct-3M** 包含千万级指令-响应对,覆盖多种任务类型(如问答、摘要、翻译等),适用于通用能力激活[^2]。 2. **M2Lingual** 多语言多轮次指令数据集,支持跨语言对话和复杂任务处理,适合训练多语言模型[^2]。 3. **BELLE项目中文指令数据** 约200万中文指令数据,由社区生成,专注于中文语境下的指令遵循能力提升[^2]。 4. **DRCD中文问答数据集** 开放领域中文问答数据集,适用于问答类任务微调[^2]。 --- #### 二、多模态数据集 1. **Osprey-724K** 图像-语言指令对数据集,支持视觉理解与文本生成联合训练[^2]。 2. **LAMM-Dataset** 包含18.6万图像指令对和1万点云指令对,适用于机器人、自动驾驶等领域的多模态任务[^2]。 3. **GeoChat Instruct** 遥感领域多模态数据集,结合地理空间图像与指令响应,专用于遥感分析任务[^2]。 --- #### 三、领域专用数据集 1. **AgentInstruct** 面向智能体控制的指令数据,涵盖工具调用、环境交互等场景,适合训练任务型AI助手[^2]。 2. **MMDU-45k** 医疗领域多模态数据集,包含医学图像与文本指令,用于医疗诊断模型微调[^2]。 3. **弱智吧问答数据** 中文社区生成的幽默/非常规问答数据,可增强模型对非标准指令的响应能力[^2]。 --- #### 四、代码与工具使用数据集 1. **Code Alpaca**(示例补充) 代码生成与解释指令数据,常用于提升模型编程能力[^1]。 2. **ToolBench**(示例补充) 工具调用指令数据集,训练模型使用API和外部工具[^1]。 --- ### 数据集使用方法 1. **加载示例(基于Hugging Face)** ```python from datasets import load_dataset dataset = load_dataset("MBZUAI/GeoChat_Instruct") # 加载多模态数据集[^4] ``` 2. **构建提示格式** 需将原始数据转换为`<指令>\n<响应>`的结构,例如: ```text 指令:描述这张遥感图像的内容 响应:图像显示城市区域的道路网络和建筑分布...[^3] ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值