特征和目标分布的分析与异常值识别
1. 连续和离散特征的概述
在数据分析中,理解连续和离散特征的分布比分类特征更为复杂。连续特征可以取无限个值,例如体重,一个人的体重可以是 70 千克、70.1 千克或 70.01 千克。离散特征则有有限个值,比如观察到的鸟类数量或购买的苹果数量。通常,离散特征是通过计数得到的,而连续特征通常是通过测量、称重或计时获得的。
连续特征一般以浮点数形式存储,除非被限制为整数。例如,人类的年龄是连续的,但通常会截断为整数。在大多数建模场景中,连续和离散特征的处理方式相似,我们不会将年龄建模为分类特征,因为我们假设年龄间隔在 25 岁到 26 岁和 35 岁到 36 岁之间具有大致相同的含义,但在极端情况下这种假设会失效,比如 1 岁到 2 岁和 71 岁到 72 岁的年龄间隔含义差异很大。数据分析师和科学家通常对连续特征与目标之间的线性关系持怀疑态度,尽管当这种关系成立时建模会更容易。
为了理解连续或离散特征的分布,我们需要考察其中心趋势、形状和离散程度。关键的统计指标包括:
- 中心趋势 :均值和中位数。
- 形状 :偏度和峰度。
- 离散程度 :范围、四分位距、方差和标准差。
下面我们将使用 COVID - 19 数据进行分析,该数据集包含截至 2021 年 6 月每个国家的总病例数、死亡数以及人口统计数据。
1.1 生成连续和离散特征的摘要统计信息
以下是生成摘要统计信息的步骤:
1. 加载数据并查看数据
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



