本次讨论的主题是:数据维度分类中,习惯将无法归类或者数据模糊的归为“未知”,那么对于这些未知数据, 我们应该怎么处理呢?
问题:
- 1、“未知”对数据分析和可视化有什么影响?好处和坏处是什么?
- 2、需求方经常反馈看不懂“未知”数据,认为“未知”数据量级过大,你会怎么处理这种情况的?
- 示例:比如每个城市的用户数
北京 123
上海 123
……
未知:234
补充:为什么会出现未知的数据?原因多种多样,如果你没有遇到是最好的。现在可以假设的确遇到了这个问题,然后继续后面的讨论。
分析:
本话题是一个发散性的话题,并没有限制太多的内容,主要是想跟大家讨论一下当我们遇到未知数据的时候,我们应该怎么处理它们才是合适的。这个现象,在实际工作中我们可能也会遇到的, 大家也可以将它当成是一道面试题或者假设你现在就是遇到了这样的问题的场景来进行思考。
首先是先弄清楚为什么会产生未知的数据?弄清楚原因之后才能更好地对症下药。未知数据产生的原因是多种多样的,其中可能是:
- 1、数据的采集问题:
- 数据在采集到的时候就是未知的,如性别保密、生日保密等;
- 数据在采集的时候缺少了采集的字段;
- 2、数据的加工问题:在数据中间层进行加工的时候,由于考虑不周全或者特殊场景要求,在对数据进行清洗的