数据科学中的常见问题与假设检验
1. 假设检验基础
在数据科学中,我们常常需要通过假设检验来回答各种问题。假设检验包含原假设(Null Hypothesis,通常表示为 H0)和备择假设(Alternative Hypothesis,通常表示为 Ha)。原假设是我们试图通过收集足够的证据来反驳的陈述。而备择假设则是对当前问题的一个潜在答案。虽然我们无法 100% 证明备择假设,但如果我们收集到足够的证据来反驳原假设,那么备择假设成立的可能性就更大。
由于原假设之外往往存在多种可能性,所以这个过程通常需要重复多次,以获得具有合理置信水平的答案。接下来,我们将详细探讨一些常见的问题类型以及如何基于这些问题来构建假设。
2. 常见用例相关问题
2.1 特征 X 与特征 Y 是否相关?
这是一个简单却能提供关于特征集和问题整体有用信息的问题。通常我们会关注特征之间的关系,因为目标变量往往难以直接干预。如果发现特征 X 和特征 Y 高度相关,我们可能会考虑从数据集中移除其中一个,因为它们提供的信息有较大重合。不过,在采取行动之前,最好也检查其他特征,特别是当这些特征本身包含丰富信息时。
基于这类问题构建的假设相对简单。原假设可以是这些特征的值来自同一总体,即 H0:X 和 Y 的值之间的相似度为零。如果特征是连续的,在测量它们的关系之前,需要先对其进行归一化处理,并去除可能存在的异常值,否则可能会误判特征之间的关系。备择假设则是这两个特征并非来自同一总体,即 Ha:X 和 Y 的值之间存在可测量的相似度。
例如,在一个数据集中,有一个人的年龄(X1)和工作经验(X2)这两个特征。我们可以问:“一个人的年
超级会员免费看
订阅专栏 解锁全文
754

被折叠的 条评论
为什么被折叠?



