一、探索数据集的重要性
数据集通常是大多数数据科学项目中最薄弱的环节。构建一个好的数据集可能非常困难。所以至少了解我们使用的数据集,并有办法探索和讨论它。
1、对于项目团队
解释指标和错误并提高数据集的质量:团队可以轻松检查一组预测有什么问题。也许数据看起来不像预期的那样?也许注释是错误的?如果是这种情况,它应该很容易修复。
了解模型是否可以处理某种情况并计划新功能:有时产品所有者/客户会询问模型是否能够处理新标签或新情况。团队应该能够更快地给出第一个答案和一些行动。
2、对于注释团队
如果注释团队有一个仪表板来探索当前数据集,它可以使用它来回答问题:
“如何标记这个项目?” :通过在仪表板中查找类似示例并找到正确的标签
“意外情况下应该怎么做?”:它可以在