数据百问系列之三:关于未知数据的处理

本文探讨了在数据处理中遇到的未知数据问题,包括其对数据分析和可视化的利弊,以及如何应对需求方对未知数据的反馈。提出了从数据来源、数据加工、分析报告解释和文档整理四个方面来管理和处理未知数据,以确保数据完整性和提高数据可读性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本次讨论的主题是:数据维度分类中,习惯将无法归类或者数据模糊的归为“未知”,那么对于这些未知数据, 我们应该怎么处理呢?

问题:

  • 1、“未知”对数据分析和可视化有什么影响?好处和坏处是什么?
  • 2、需求方经常反馈看不懂“未知”数据,认为“未知”数据量级过大,你会怎么处理这种情况的?
  • 示例:比如每个城市的用户数
    北京 123
    上海 123
    ……
    未知:234

补充:为什么会出现未知的数据?原因多种多样,如果你没有遇到是最好的。现在可以假设的确遇到了这个问题,然后继续后面的讨论。

分析:
本话题是一个发散性的话题,并没有限制太多的内容,主要是想跟大家讨论一下当我们遇到未知数据的时候,我们应该怎么处理它们才是合适的。这个现象,在实际工作中我们可能也会遇到的, 大家也可以将它当成是一道面试题或者假设你现在就是遇到了这样的问题的场景来进行思考。

首先是先弄清楚为什么会产生未知的数据?弄清楚原因之后才能更好地对症下药。未知数据产生的原因是多种多样的,其中可能是:

  • 1、数据的采集问题:
    • 数据在采集到的时候就是未知的,如性别保密、生日保密等;
    • 数据在采集的时候缺少了采集的字段;
  • 2、数据的加工问题:在数据中间层进行加工的时候,由于考虑不周全或者特殊场景要求,在对数据进行清洗的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值