5、概率知识与R语言实现详解-优快云博客

本文链接：https://blog.youkuaiyun.com/c6d7e8f9g/article/details/152438565

概率知识与R语言实现详解

1. 数据集缺失值处理

在处理数据集时，缺失值是一个常见的问题。对于包含缺失值（NAs）的数据集，有多种处理方法，常见的是插值法，如使用回归或K近邻（KNN）进行插值。不过，这里我们采用简单直接的方法，即删除包含NAs的行，使用 complete.cases() 函数实现。

以下是具体的R代码操作：

# 安装并加载必要的包
# install.packages("mlbench")
library(mlbench)
library(dplyr)
# 加载数据集
data("HouseVotes84")
# 查看数据集前几行
print.data.frame(head(HouseVotes84))
# 删除包含NAs的行
df = HouseVotes84[complete.cases(HouseVotes84),]
# 添加额外列用于后续操作
df$names <- rownames(df)
# 查看处理后数据集的前几行
print.data.frame(head(df))

2. 实验、结果与样本空间

在概率领域，实验是指执行后会产生唯一观察结果的过程，这些观察结果被称为实验的结果、观察单元或个体，所有结果的集合就是样本空间。以下是一些常见实验及其样本空间的示例：
| 实验 | 结果 | 样本空间 |
| — | — | — |
| 抛一次硬币 | 正面，反面 | S = {正面，反面} |
| 掷一次骰子 | 1, 2, 3, 4, 5, 6 | S = {1, 2