数据管理服务中的数据集类型与开源方案解析
在数据管理服务中,数据集的有效管理至关重要。本文将介绍不同的数据集类型以及一些开源的数据管理方法,帮助你更好地处理和管理数据。
1. 通用数据集(GENERIC DATASET)
通常,定义强数据集模式对数据集管理服务非常重要,但这里引入了一种自由格式的数据集类型——通用数据集。与强类型的 TEXT_INENT 数据集不同,通用数据集没有数据模式验证。服务会原样保存任何原始输入数据,构建训练数据时,也只是将所有原始数据按原始格式打包成训练数据集。
通用数据集听起来可能不是个好主意,因为它会将接收到的任何数据传递给下游训练应用,容易破坏训练代码中的数据解析逻辑,不适合用于生产环境。但在实验项目中,它提供了灵活性。在深度学习项目开始阶段,很多事情都不确定,如哪种深度学习算法效果最好、能收集到什么样的数据、应选择何种数据模式等。通用数据集类型就是为了在这些不确定性下,提供一种灵活处理任意数据的方式,以支持模型训练实验。当业务价值得到验证且选定深度学习算法后,就可以在数据集管理服务中定义强类型数据集。
2. 添加新数据集类型(IMAGE_CLASS)
假设数据科学家 Julia 希望将其实验性图像分类项目提升为正式项目。她的团队使用通用数据集开发图像分类模型并取得了良好效果,现在想定义强类型数据集(IMAGE_CLASS)来稳定原始数据收集和训练数据消费的数据模式,保护训练代码免受未来数据集更新的影响。
要支持新的数据集类型 IMAGE_CLASS,可以遵循以下三个步骤:
- 步骤一:定义训练数据格式
与 Julia 讨论后,
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



