数据科学中的关键问题探讨
在数据科学领域,我们面临着诸多关键问题,这些问题涉及数据决策影响的测量、相似度度量、伦理应用以及时间序列分析等多个方面。下面将对这些问题进行详细探讨。
1. 有效测量数据决策的影响
在数据决策过程中,如何有效测量其影响是一个重要问题。A/B 测试是一种常用的方法,通过随机将访客分配到网站的 A 版本或 B 版本,创建来自同一总体的独立样本,从而测量设计决策的效果。
然而,可能存在一些偏差问题。例如,A 组或 B 组在某些人口统计学特征上可能存在差异,这通常是随机产生的。对于这种情况,可以通过协变量调整随机化或在测试设计决策效果的模型中添加协变量来解决,但在统计学界对于具体的操作方法仍存在讨论。
为了更好地进行测量,我们可以采取以下建议:
- 提前设计研究,尽可能消除偏差和变异的来源。
- 让数据说话,随着数据的增加,依据数据来调整我们的假设。
- 确保数据符合模型的假设。
2. 基于层次分类法的相似度度量
当对象具有多个属于层次结构的类别时,如何选择合适的相似度度量是一个挑战。如果类别没有层次结构,我们可能会考虑余弦相似度。但在有层次结构的情况下,我们可以参考一些研究论文中的方法。
2.1 频率主义方法
- 《基于语料库统计和词汇分类法的语义相似度》
- 《只见树木不见森林:具有专利分类示例的层次分类法的相似度和距离度量》
- 《学习层次相似度度量》
- 《基于边计数的分类法新相似度度量》
- 《现实生活文档的层次分类》
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



