概率知识与R语言实现详解
1. 数据集缺失值处理
在处理数据集时,缺失值是一个常见的问题。对于包含缺失值(NAs)的数据集,有多种处理方法,常见的是插值法,如使用回归或K近邻(KNN)进行插值。不过,这里我们采用简单直接的方法,即删除包含NAs的行,使用 complete.cases() 函数实现。
以下是具体的R代码操作:
# 安装并加载必要的包
# install.packages("mlbench")
library(mlbench)
library(dplyr)
# 加载数据集
data("HouseVotes84")
# 查看数据集前几行
print.data.frame(head(HouseVotes84))
# 删除包含NAs的行
df = HouseVotes84[complete.cases(HouseVotes84),]
# 添加额外列用于后续操作
df$names <- rownames(df)
# 查看处理后数据集的前几行
print.data.frame(head(df))
2. 实验、结果与样本空间
在概率领域,实验是指执行后会产生唯一观察结果的过程,这些观察结果被称为实验的结果、观察单元或个体,所有结果的集合就是样本空间。以下是一些常见实验及其样本空间的示例:
| 实验 | 结果 | 样本空间 |
| — | — | — |
| 抛一次硬币 | 正面,反面 | S = {正面,反面} |
| 掷一次骰子 | 1, 2, 3, 4, 5, 6 | S = {1, 2
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



