程序测试是为了更多的发现缺陷_测试的目的为什么是发现缺陷-优快云博客

测试的目的是为了发现尽可能多的缺陷。

　　这里缺陷是一种泛称，它可以指功能的错误，也可以指性能低下，易用性差等等。测试总是先假设程序中存在缺陷，再通过执行程序来发现并最终改正缺陷。理解测试的目的是个很重要的意识问题。如果说测试的目的是为了说明程序中没有缺陷，那么测试人员就会向这个目标靠拢，因而下意识地选用一些不易暴露错误的测试示例。这样的测试是虚假的。 www.bzhzb.com

　　目前高校的科技成果鉴定会普遍存在类似的虚假现象。我在读硕士时就亲身经历过这样的事。我们的项目是研究集成电路制造过程中的成品率问题。当时国内大多数工厂的集成电路成品率只有百分之几，我编写的示例程序可以将集成电路的成品率优化到98%。示例效果是如此的好，以致一位评委（某厂的总工程师）不无讽刺地说：“采用你们的成果，我们可要发大财了。”这个项目就轻易地通过了鉴定，并且不久后获得了电子工业部科技进步二等奖。这就象在考试时通过作弊取得了好成绩而被表扬。我那时尚且纯真，羞愧之余，不禁对高校科研成果的水平和真实性大失所望（现在我已不再失望，因为很少抱希望）。

　　一个成功的测试示例在于发现了至今尚未发现的缺陷。

　　测试并不仅是个技术问题，更是个职业道德问题。

　　7.1.2 测试的心理要求

　　测试主要是由人而不是由机器执行，这就不免与心理因素相关。为了测试的真实性，对测试的心理要求是“无情”。这似乎太残酷了。开发人员不能很好地测试自己的程序是因为做不到无情。而测试人员如果做到了无情却会引起开发人员的愤怒，遭人白眼。

　　尽管已经明白了测试的目的是为了发现尽可能多的缺陷，但当测试人员真的发现了一堆缺陷时，却不可乐颠颠地跑去恭喜那个倒霉的开发者，否则会打架的。

　　7.1.3 测试的真理

　　测试只能证明缺陷存在，而不能证明缺陷不存在。

　　这个真理告诉我们，对于一个复杂的系统而言，无论采取什么样的测试手段都不能证明缺陷已经不复存在。“彻底地测试”只是一种理想。在实践中，测试要考虑时间、费用等限制，不允许无休止地测试。

　　7.1.4 测试与质量的关系

　　测试有助于提高软件的质量，但是提高软件的质量不能依赖于测试。测试与质量的关系很象在考试中“检查”与“成绩”的关系。

　　学习好的学生，在考试时通过认真检查能减少因疏忽而造成的答题错误，从而“提高”了考试成绩（取得他本来就该得的好成绩）。

　　而学习差的学生，他原本就不会做题目，无论检查多么细心，也不能提高成绩。

　　所以说，软件的高质量是设计出来的，而不是靠测试修补出来的

　　7.2.2 测试人员的分工

　　从Microsoft公司的教训中可知，公司内部对产品的测试（称为α测试），需要开发人员与独立的测试小组共同参与。开发人员应该执行“白盒”测试，即测试源程序的逻辑结构以及实现细节（“白盒”是指看得见程序的内部结构）。而独立测试小组应该执行“黑盒”测试，即按照规格说明来测试程序是否符合要求（“黑盒”是指看不见程序的内部结构）。比如在测试一个模块时，“白盒”测试方法要对模块的所有代码进行单步跟踪测试。而“黑盒”测试方法只需测试模块的接口是否符合要求，它关心程序的外部表现而不是内部的实现细节。

　　小型的软件公司可能没有条件设立独立的测试小组，也有可能测试小组人员不多而忙不过来。这时，可以让开发小组的成员相互测试对方的程序。

　　这里要强调的是，α测试不能依赖于开发人员或者测试小组中的任意一方，必须是双方共同参与。“白盒测试”必须由开发者自己执行，因为别的测试人员无法了解到程序的内部实现细节。而“黑盒测试”必须由独立的测试人员执行，因为开发者难以做到客观、公正。开发者在测试自己的程序时存在一些弊病：

　　（1）开发者对自己的程序印象深刻，并总以为是正确的（自信是应该的）。倘若在设计时就存在理解错误，或因不良的编程习惯而流下隐患，那么他本人很难发现这类错误。

　　（2）开发者对程序的功能、接口十分熟悉，他自己几乎不可能因为使用不当而引发错误，这与大众用户的情况不太相似，所以自己测试程序难以具备典型性。

　　（3）程序设计有如艺术设计，开发者总是喜欢欣赏程序的成功之处，而不愿看到失败之处。让开发者去做“蓄意破坏”的测试，就象杀自己的孩子一样难以接受。即便开发者非常诚实，但“珍爱程序”的心理让他在测试时不知不觉地带入了虚假成份。

　　软件产品正式发行前，在公司外部邀请一些用户对产品进行测试，称为β测试。β测试的涉及面最广，最能反映用户的真实愿望，但花费的时间最长，不好控制。一般地，软件公司与β测试人员之间有一种互利的协议。即β测试人员无偿地为软件公司作测试，定期递交测试报告，提出批评与建议。而软件公司将向β测试人员免费赠送或者以很大的优惠价格发行软件的正式版本。

　　本节简明地讲述常用的测试方法及其道理。

　　7.3.1 正确性测试

　　正确性测试又称功能测试，它检查软件的功能是否符合规格说明。由于正确性是软件最重要的质量因素，所以其测试也最重要。

　　基本的方法是构造一些合理输入，检查是否得到期望的输出。这是一种枚举方法。倘若枚举空间是无限的，那可惨了，还不如回家种土豆有盼头。测试人员一定要设法减少枚举的次数，否则没好日子过。关键在于寻找等价区间，因为在等价区间中，只需用任意值测试一次即可。等价区间的概念可表述如下：

　　记（A, B）是命题f(x) 的一个等价区间，在（A, B）中任意取x1进行测试。

　　如果f (x1) 错误，那么f (x) 在整个（A, B）区间都将出错。

　　如果f (x1) 正确，那么f (x) 在整个（A, B）区间都将正确。

　　上述测试方法称为等价测试，来源于人们的直觉与经验，可令测试事半功倍。

　　还有一种有效的测试方法是边界值测试。即采用定义域或者等价区间的边界值进行测试。因为程序员容易疏忽边界情况，程序也“喜欢”在边界值处出错。

　　例如测试的一段程序。凭直觉等价区间应是（0, 1）和（1, +∞）。可取x=0.5以及x=2.0进行等价测试。再取 x=0以及x=1进行边界值测试。

　　有一些复杂的程序，我们难以凭直觉与经验找到等价区间和边界值，这时枚举测试就相当有难度。

　　在用“白盒测试”方式进行正确性测试时，有个额外的好处：如果测试发现了错误，测试者（开发人员）马上就能修改错误。越早改正错误，付出的代价就越低。所以大多数软件公司要求程序员在写完程序时，马上执行基于单步跟踪的“白盒测试”。

　　7.3.2 容错性测试

　　容错性测试是检查软件在异常条件下的行为。容错性好的软件能确保系统不发生无法意料的事故。

　　比较温柔的容错性测试通常构造一些不合理的输入来引诱软件出错，例如：

　　（1）输入错误的数据类型，如“猴”年“马”月。

　　（2）输入定义域之外的数值，上海人常说的“十三点”也算一种。

　　粗暴一些的容错性测试俗称“大猩猩”测试，除了不能拳打脚踢嘴咬，什么招术都可以使出来。这里我举不出例子，因为我没有对程序粗暴过，并且这辈子也不打算学会粗暴。

　　7.3.3 性能与效率测试

　　性能与效率测试主要是测试软件的运行速度和对资源的利用率。有时人们关心测试的“绝对值”，如数据送输速率是每秒多少比特。有时人们关心测试的“相对值”，如某个软件比另一个软件快多少倍。

　　在获取测试的“绝对值”时，我们要充分考虑并记录运行环境对测试的影响。例如计算机主频，总线结构和外部设备都可能影响软件的运行速度；若与多个计算机共享资源，软件运行可能慢得像蜗牛爬行。

　　在获取测试的“相对值”时，我们要确保被测试的几个软件运行于完全一致的环境中。硬件环境的一致性比较容易做到（用同一台计算机即可）。但软件环境的因素较多，除了操作系统，程序设计语言和编译系统对软件的性能也会产生较大的影响。如果是比较几个算法的性能，就要求编程语言和编译器也完全一致。

　　性能与效率测试中很重要的一项是极限测试，因为很多软件系统会在极限测试中崩溃。例如，连续不停地向服务器发请求，测试服务器是否会陷入死锁状态不能自拔；给程序输入特别大的数据，看看它是否吃得消。

　　7.3.4 易用性测试

　　易用性测试没有一个量化的指标，主观性较强。调查表明，当用户不理解软件中的某个特性时，大多数人首先会向同事、朋友请教。要是再不起作用，就向产品支持部门打电话。只有30%的用户会查阅用户手册。[Cusumano 1995]

　　一般认为，如果用户不翻阅手册就能使用软件，那么表明这个软件具有较好的易用性。

　　7.3.5 文档测试

　　文档测试主要检查文档的正确性、完备性和可理解性。好多人甚至不知道文档是软件的一个组成部分。

　　正确性是指不要把软件的功能和操作写错，也不允许文档内容前后矛盾。

　　完备性是指文档不可以“虎头蛇尾”，更不许漏掉关键内容。有些学生在证明数学题时，喜欢用“显然”两字蒙混过关。文档中很多内容对开发者可能是“显然”的，但对用户而言不见得都是“显然”的。

　　文档不可以写成散文、诗歌或者侦探、言情小说，要让大众用户看得懂，能理解。

　　很多程序员能编写出好程序，却写不出清晰的文档。不要说自己以前语文学得差，现在已没救了，找借口不是办法。没有人天生就能写出好程序，都是练出来的。同理，若第一次写不好文档，就多写几次文档，慢慢地就会写出好文档来。我上大学前不会说普通话，不会写作文，现在我极能说会写，当个秘书或书记已绰绰有余。