数据处理与管道构建:标准化与集成方案
1. 数据标准化目标与方法
1.1 目标
计算 Anscombe 四重奏系列样本中两个值的标准化值。当数据呈正态分布时,派生的标准化 Z 分数的均值为零,标准差为一;若数据不呈正态分布,这些值将偏离预期值。
1.2 分析数据模型类定义
在计算派生值(Z 分数)时,分析数据模型类定义有两种变体:
- “初始”版本 :缺少 Z 分数值,对象不完整,需要进一步计算。
- “最终”版本 :已计算出 Z 分数值,对象完整。
1.3 处理不完整和完整对象的方法
有两种常见方法来处理不完整和完整对象的区别:
- 方法一 :两个类不同,完整版本是不完整版本的子类,定义了额外的字段。这是更传统的面向对象方法,能清晰标记数据状态,但额外的类定义可能被视为冗余,因为不完整版本是临时数据,不会产生持久价值。
- 方法二 :派生值标记为可选,不完整版本初始值为 None。此方法有时用于函数式编程,可节省子类定义,稍作简化。
以下是使用 Python 的 pydantic 实现的示例代码:
from pydantic import BaseModel
class InitialSample(BaseModel):
x: float
y: float
class
超级会员免费看
订阅专栏 解锁全文
172万+

被折叠的 条评论
为什么被折叠?



