计算机科学实验中的统计、直觉与评审要点
在计算机科学研究中,实验是一个至关重要的环节,而统计在实验研究中扮演着丰富且关键的角色。
统计在计算机科学实验中的应用
计算机科学实验通常包含“运行操作”并测量结果。很多人认为统计在计算机科学研究中仅仅是报告平均值和偏差,但实际上,统计在实验研究中的作用远不止于此,解答基本的统计问题能够为实验设计提供启示。
总体与样本的概念
当我们说“算法 NEW 通常比算法 OLD 快”时,合理的理解是 NEW 平均速度更快。但这里的平均是基于什么呢?关键概念是总体,即所有可能运行的集合。然而,总体往往是无限的,因为它包含所有可能的输入数据组合。所以,我们需要进行抽样,并假设样本具有代表性。
例如,在评估新抗生素的益处时,总体可以是所有人、所有病人,或者只是其他药物治疗失败的人。在设计实验时,需要确定可能的、合理的输入。
字符串哈希函数实验
以评估字符串哈希函数的属性为例,输入总体中存在多个变量:哈希表大小、输入字符串的数量、字符串本身以及从类中选择的哈希函数。哈希函数由种子值决定,在像 C 语言这样的高效实现中,类是有限的。
实验中,哈希函数通过随机生成 32 位种子来选择,字符串从大约十几个来源随机选取。虽然这些字符串并非“典型”,但函数在不同字符串来源下的行为几乎相同,且与理想情况难以区分。这是一个多变量实验的例子,可以通过固定其他变量来评估每个变量的影响。
自然语言处理实验
在自然语言处理中,评估解析器识别名词的准确性时,结果取决于输入,如光学字符识别的印刷材料文本、随机选择的网页或报纸文章。评估
超级会员免费看
订阅专栏 解锁全文
13

被折叠的 条评论
为什么被折叠?



