轻松学统计——随机变量介绍

随机变量的类别(Types of Variables)

1. 定性变数(Qualitative Random Variables)

  • 定义:也称为分类变量,这类变量的观测结果不能通过数值大小进行比较,而是依据其属性或类别来区分。它们主要用于描述事物的性质、类别或状态。
  • 例子
    • 性别(男性、女性等)
    • 国籍(中国、美国、日本等)
    • 产品缺陷类型(裂纹、颜色不均、尺寸不符等)

2. 定量变数(Quantitative Random Variables)

2.1 离散型资料(Discrete Random Variables)
  • 定义:这类变量的取值是可数的,通常为整数。它们通过计数得到,表示可以单独枚举的项目或事件。
  • 例子
    • 不良品个数(例如,生产线上的次品数)
    • 一份文档中的错别字数量
    • 晶圆上的缺陷点数
2.2 连续性变数(Continuous Random Variables)
  • 定义:这类变量可以在某个区间内取任何数值,意味着它们可以取无限多个值,并且通常通过测量获得。这些值可以是任意小数。
  • 例子
    • 重量:如人的体重、物体的质量
    • 高度:人的身高、建筑物的高度
    • 温度:室温、水的沸点

应用与分析

  • 定性变数分析:通常使用频数分布表、百分比、比例等描述性统计方法,以及卡方检验(χ²检验)等推论统计方法来分析不同类别的分布和关联性。

  • 定量变数分析

    • 离散型:可使用均值、中位数、众数、方差等指标进行描述性统计,以及卡方检验、泊松分布分析等方法。
    • 连续型:除了使用上述部分描述性统计指标(尤其是中位数和范围,而非均值和方差对于极端值敏感)外,还会采用概率密度函数(PDF)、累积分布函数(CDF)、区间估计、假设检验(如t检验、ANOVA)等方法进行深入分析。
       

练习:

定量随机变量通常以大写英文X或Y表示。

离散型变数之可能值:0或正整数

连续性变数可能值:任何实数

决定下列随机变数为定性或定量,若为定量则决定其属于离散型或连续型:

  1. 一片玻璃上之气泡数:这是一个定量随机变量,并且属于离散型。因为气泡的数量可以明确计数,其可能值为非负整数(包括0,即没有气泡的情况)。

  2. 晶圆厚度(thickness):这也是一个定量随机变量,但属于连续型。晶圆的厚度可以通过精密仪器测量得到,理论上可以取任何实数值,包括小数和整数。

  3. 一包速食面之净重:这同样是一个定量随机变量,且为连续型。净重的测量可以得到任何实数值,尽管在实际生产中可能存在一定的分装标准,导致实际观测值可能较为集中或呈现某些特定的离散值,但从理论上讲,净重可以是连续范围内的任何数值。

  4. 学生修统计课不及格的原因:这是一个定性随机变量。不及格的原因通常涉及分类信息,如“缺乏练习”、“理解难度高”、“缺勤过多”等,这些原因不能通过数量大小来衡量,而是依据其特性进行分类。

### 如何对分类变量执行相关性分析 对于分类变量之间的相关性分析,常用的方法之一是对应分析。该技术能够处理定性数据并揭示这些变量间的关系[^1]。 #### 对应分析简介 对应分析是一种多元统计工具,专门用于探索由定性变量组成的列联表内的模式。此方法把复杂的多维表格简化成二维图形展示,使得研究者能直观地看到各类别间的联系及其分布情况。尤其当面对具有多个水平的名义尺度或序数尺度的数据集时,这种方法尤为有用。 #### Python 实现示例 下面是一个基于 `sklearn` 库来完成简单二元分类变量之间关联度量的例子: ```python import pandas as pd from sklearn.preprocessing import LabelEncoder from scipy.stats import chi2_contingency # 创建样本数据框 data = {'CategoryA': ['red', 'blue', 'green', 'red'], 'CategoryB': ['circle', 'square', 'triangle', 'circle']} df = pd.DataFrame(data) # 将字符串标签编码为整数值以便计算 le_A = LabelEncoder() le_B = LabelEncoder() df['Encoded_CategoryA'] = le_A.fit_transform(df['CategoryA']) df['Encoded_CategoryB'] = le_B.fit_transform(df['CategoryB']) # 构建交叉表(即列联表) contingency_table = pd.crosstab(df['Encoded_CategoryA'], df['Encoded_CategoryB']) # 使用卡方检验评估独立性假设下的P值 chi2, p_value, dof, expected = chi2_contingency(contingency_table) print(f"P-value of Chi-Square Test: {p_value}") ``` 这段代码展示了如何利用 Pandas SciPy 来准备测试两个分类属性的相关程度。这里采用了 χ² 测试作为衡量标准,其 P 值可以帮助判断观察到的结果是否显著偏离随机预期——越小越好,意味着更强的相关证据存在[^2]。 另外一种方式是对定量与定性的混合型数据应用 Kendall 秩相关系数来进行非参数化等级相关测量。这可以通过调用 Scipy 中的 `kendalltau()` 函数轻松实现,正如引用材料所提到的一样
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值