数据处理与深度学习模型相关技术解析
1. 数据集设计与数据标注中的统计方法
1.1 概率分布与质量函数
概率分布函数 (F(a)) 可通过概率质量函数来定义,即 (F(a) = P(X(x_i) \leq a))。而概率质量函数 (f(a)) 又可由概率分布函数定义为 (f (a) = F((a) - \lim_{h \to 0}F(a - h)))。以呼吸率为例,概率质量函数适用于二元结果的情况。概率质量函数 (P(X = x_i)) 与概率密度函数(PDF)不同,PDF 用于连续随机变量,需在区间上积分才能得到概率。随机变量的概率分布函数以样本空间为输入,输出对应结果的概率。
1.2 二项分布:数据的二元分类
二项分布由 (n) 个统计独立的伯努利试验组成,每个试验成功的概率为 (p),用于计算试验中恰好 (k) 次成功的概率,其公式为 (P(k) = \binom{n}{k} p^k q^{n - k}),其中 (\binom{n}{k}) 是二项式系数。随机变量 (X) 定义在样本空间上,每次有 (r) 次测量,函数 (X) 接收 (n) 个输入并输出一个整数。例如,(n) 次试验中可能有 3 次成功,((n - 3)) 次失败,此时 (X) 的输出为 3,可表示为 (X : S \times S \times S \times … \times S \to Z)。进行 (n) 次试验,每次试验记录 (r) 个数据,完成后可创建记录数据的直方图。呼吸率在 80 到 100 之间为正常,其余为异常。在伯努利试验中 (n = 1),在二项分布中 (n > 1)。
1.3 泊松分布:数据的二元分类
泊
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



