1、箱线图是否能传达一组数值属性的足够信息?
不一定。当分布为单峰时,箱线图及其描绘的描述性统计数据能提供紧凑的总结,但当分布不是单峰时,箱线图和它所描绘的描述性统计数据可能不足以甚至不适合表征一组数值,有必要更详细地查看数据。
2、在探索数据质量的背景下,直方图形状的哪些特征需要特别关注?
可视化分布时,直方图中可能揭示的异常特征需特别关注,如:
- 异常值
- 不现实的项目和项目组合
- 分布覆盖范围的缺口
- 偏差
- 以及对实体、时间点或空间位置的错误引用等
例如,时间直方图中出现以下特征时:
- 降至负数
- 极高峰值
- 无记录情况
可能意味着数据不符合预期,需要关注数据收集方式。
3、在数值时间序列中,什么是局部离群值,以及如何检测它?
在数值时间序列中,局部离群值是在具有距离的基础(如时间)上的分布里,某个覆盖层元素(值或值的组合)与它邻域内的覆盖层元素有显著差异。
检测局部离群值的方法包括:
- 使用数值与参考值(如平均值)对比的地图表示法(适用于地理空间的例子)。
- 对于时间序列,可根据时间顺序将数值可视化,对比某个时间点的值与相邻时间点值的差异;显著不同的值可能为局部离群值。
- 结合领域和应用特定的专家知识进行判断。
4、当数据集中存在缺失数据时,判断可用数据是否适合进行有效分析需要检查哪些方面?如何进行检查?
需要检查以下方面:
- 数据量是否足够用于分析和建模,即包含足够数量的实例以进行有效推断和得出结论。
- 数据覆盖范围是否足以代表分析对象,可能涉及数据可用的空间区域、时间段、数据所描述个体的年龄范围等。
- 缺失数据是否在假定的完整数据集中随机分布,即缺失数据和可用数据在与分析相关的基础上的分布是否相似,缺失数据的比例在基础上是否均匀。
检查方法:
- 数据量 :可通过数据库函数统计有多少数据记录在与分析相关的字段中缺失值,从而得出剩余用于分析的记录数量。
- 数据覆盖范围 :可获取字段值的范围或分类字段的值列表来评估,空间覆盖范围可通过显示可用数据项边界框的地图检查,更准确的判断可将边界框划分为网格并表示网格单元中的数据项计数。
- 检查缺失数据是否随机分布 :可看在涉及时间时,不同时间间隔中缺失数据的比例是否大致相同;在数据与空间相关时,不同空间位置或区域的缺失数据比例是否符合要求;在数据涉及实体时,不同实体组的缺失数据比例是否符合要求等。
5、研究电子邮件(或短信、社交媒体)活动的时间模式。为此,提取时间戳并探究它们随时间的分布情况。可以预期,这种时间分布反映了人类的自然活动周期,具有每日和每周的周期性模式、季节性趋势,以及与公共假期等相关的异常活动。找出异常活动(消息过多或过少)的日期和时间。比较发件和收件的模式。
该文本给出了研究邮件、短信或社交媒体活动时间模式的具体步骤和预期发现。
-
提取活动的时间戳并分析其分布
时间分布会体现人类自然活动周期,包括:
- 日常周期性
- 每周周期性
- 季节性趋势
- 与公共假

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



