如何快速评估系统论文质量_论文质量评估系统-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_40514113/article/details/145357189

申明: 本文翻译自How to Evaluate a Computer Systems Research Paper
在这里插入图片描述

一些优秀的资源介绍了如何撰写一篇好的系统论文。而这篇文章讨论的是一个略有不同的话题。

在最近的某一年里，我大约审阅了 100 篇论文，主要是 8-14 页长、字体为 9 或 10 号的会议论文。与我处于相似职位的同行——中期职业计算机系统教授——通常也面临类似的情况，甚至有些人的负担更重。由于一篇好的审稿通常需要 3 到 4 个小时来完成，因此必须发展一些审稿技巧。我的许多技巧都采取了“嗅探测试”（sniff tests）的形式——即快速发现论文中是否包含虚假或无用结果的方法。我审阅的论文中，大约有三分之一属于这一类。如果能通过简短的评审来节省时间，我就可以将更多时间用于审阅那些介于“勉强及格”到“优秀”之间的论文——这些论文最有可能从详细反馈中受益。而最优秀的论文与最差的论文一样，通常不需要太多的精力来审阅。

论文评审策略

我几乎总是跳过摘要。原因有两个：首先，在选择评审偏好时，我可能已经读过了摘要。其次，论文的引言几乎总是包含相同的信息，并且提供了更多的动机和背景知识。

评估论文时，我做的第一件事是阅读结论部分。相比摘要和引言，作者在结论部分通常会更诚实地陈述自己的贡献。为什么呢？首先，大多数人是按顺序写论文的，而引言往往在最终结果出来之前就已经写好，因此作者在引言中往往仍然持乐观态度。其次，在结论部分夸大论文的贡献在心理上更难做到，因为此时作者已经意识到读者刚刚阅读了可能并不完全令人信服的评估部分。

最重要的问题是：论文是否包含了一个新的想法？或者是一个有用的想法？这两个问题都很难回答。

如何判断论文的创新性？

一个复杂的问题是，论文的实际贡献往往与论文中声称的贡献不同。这通常不是作者有意误导，而是因为人们往往强调自己认为困难或有趣的部分，而忽略了许多类似的研究在过去已经被完成。此外，作者对自己贡献的认知往往受到自身背景和以往工作的强烈影响。此外，有时候，一个研究工作的实际贡献只有在发表多年后才会显现出来。

另一个问题是，评估创新性需要对相关领域的成千上万篇论文有广泛的了解。而一个会议论文的评审人中，可能只有零到一名评审人真正了解该论文在文献中的位置。更复杂的是，许多作者会将论文投往自己熟悉和喜欢的会议，而不是最适合评估该论文的会议。这导致了研究人员更倾向于改变研究方向，而不是改变学术社区。

如何判断论文的实用性？

为了证明一个想法是有用的，论文通常需要进行分析性或实验性评估。实验性评估包括模拟实验和实际实现实验。无论采用哪种方法，都可以通过以下“嗅探测试”来判断论文的质量。

分析性结果的评估标准：

结果是否合理？
结果是否基于现实情况？
结果是否告诉了我们新的东西？
论文中的定理和引理是否真正形式化，还是“伪形式化”——即看起来像是正式的推导，但缺乏关键定义或推理步骤？
具有相关背景的理论研究者会觉得这些结果有用或有趣吗？

模拟实验的评估标准：

作者是否必须使用模拟，还是他们只是懒得寻找更好的评估方法？
模拟参数是否合理？
模拟结果是否提供了新的见解？
是否只是简单地用模拟重复了分析模型的预测结果？
评估所基于的计算机架构参数是否现实，还是过于极端，以至于结果没有实际意义？

实验结果的评估标准：

作者是否测量了正确的指标？
是否使用了适当的统计显著性测试？（在计算机系统研究中，置信区间仍然很少被使用。）
测量结果是否稳健？
论文中的基线（baseline）是否合理？（一个常见的伎俩是将新方法与一个过时或明显低效的基线进行比较，而不是与最先进的方法进行比较。）
是否报告了新技术的改进幅度，却忽略了绝对值？

评估研究实用性的“嗅探测试”

我喜欢使用以下问题来快速判断一项研究的适用性：
多少比例的实际系统完全无法从该技术中获益？
多少比例的系统在不做任何特殊处理的情况下就能享受到该技术带来的好处？
剩下的系统占比是多少？
令人惊讶的是，许多研究未能通过这个简单的测试。例如，假设我提出了一种新的 CPU 调度技术，专门用于桌面操作系统（Linux/Windows/MacOS）。那么，按照上述问题，我们可以得到以下分析：

哪些系统不会受益？对于 CPU 负载过高的系统来说，无论调度算法如何，它们都无法按时完成工作（如视频播放、音频解码等）。
哪些系统可以在没有新调度算法的情况下就获得好的调度效果？对于 CPU 负载较低的系统而言，如果运行队列的平均长度不大于 1，那么所有工作保持性的调度算法在效果上都是等价的。
哪些系统真正受益？只有 CPU 负载处于一个狭窄区间的系统才会真正受益。然而，由于用户可以通过减少多任务处理来降低 CPU 负载，这个区间实际上更小了。正是由于这些原因，我最终放弃了调度相关的研究。
其他常见问题
论文提供的解决方案是否存在不可避免的高成本，但作者没有讨论？
该方法是否能够扩展到其声称适用的场景？
论文所提出的改进是否微不足道？
是否仅仅是采用了一种已有方法的不同变体，而这种变体实际上更加复杂或更不优越？

结语

回顾这篇文章，可能会有人觉得这种审稿方式过于苛刻，只是在找理由拒稿。但事实是，如果研究社区不愿意自我筛选，审稿人就不得不承担这项责任。此外，当前的学术界由于“论文发表压力”而导致了大量会议和研讨会的激增。这种多元化的发展在一定程度上是好事，但很多人认为现在的情况已经失控。这是一个值得深入讨论的话题，不过留待以后再说。

尽管如此，计算机系统研究领域依然充满了优秀的研究成果。许多新思想正在改变系统的构建方式，并使全新的计算机系统成为可能。然而，研究社区也确实生产了大量平庸甚至无用的研究（我自己也写过这样的论文）。由于学术界缺乏一个真正的市场机制，我们只能依赖人类评审来评估这些研究。而那些必须评估大量论文的审稿人，需要不断调整策略，以便更有效地利用时间。总而言之，斯特金定律（Sturgeon’s Law）依然适用：90% 的一切都是垃圾。