如果一个程序跑10000次只失败一次，你会怎么调试？

最新推荐文章于 2023-11-12 11:35:54 发布

原创

最新推荐文章于 2023-11-12 11:35:54 发布 · 3.2w 阅读

90 ·

CC 4.0 BY-SA版权

文章标签：

#null #测试 #access #ui #c

这篇博客介绍了在程序运行多次才出现一次错误时的调试方法。通过使用CDB（WinDbg的无UI版本）设置硬件数据断点和条件断点，反复执行程序，收集错误发生时的日志，从而定位问题。文中以一个示例说明了如何在10000次运行中捕捉到仅出现一次的错误，强调了这种方法在复杂程序和大规模测试中的适用性。

CLR小组中存在着大量的回归测试，这些回归测试会定期执行来发现CLR中的Bug，Developer在Checkin之前，也需要执行这些测试的一部分（大概是10小时左右，如果全部跑的话估计要好几天）。这些测试对于保证CLR的质量是至关重要的。有时候，这些测试会偶尔失败，比如跑100次失败大概一到两次，有些极端的例子甚至是10000次才失败一次。像这种问题通常是很难调试的。在前面调试Bug的神兵利器：通过WinDbg条件断点收集Log这篇文章中，我讲到了如何通过条件断点收集各种信息来判断Bug究竟出在哪里。但是，这个方法还是不太管用，因为它不能够反复执行某个程序。下面我要讲一种技巧可以用来调试类似这样的问题，这种技巧主要适用于下面几种情况：

在程序出错的时候，某些信息、状态已经丢失，无法通过当前出错时候的状态推断出之前的状态。说的稍微具体一点就是，比如某个变量变成了NULL导致Access Violation，但是很难直接推断出为什么这个变量变成了NULL
程序运行时间较长，很难直接单步调试
程序较难修改加入打印代码（比如加入新代码并编译非常花时间，或者该程序没有源代码
该程序运行次数较多的时候才能发现问题，也就是说问题不是每次都出现

#2和#4决定了一步步调试基本上是不可能的。#1和#3则意味着我们必须得使用条件断点来收集信息来判断代码的错误，因为直接调试出错的位置是不可行的。下面了我来讲一下如何用CDB（其实就是WinDbg的无UI版本，WinDbg=CDB+UI）来做到：

反复执行程序
当程序出错的时候自动暂停
通过条件断点收集信息，只保留出错时候的那一次Log

我们先假设我们需要调试的程序叫做Hello.exe，每次出问题的现象是，调用某个函数Hello!Func()的时候，其参数arg为NULL。Arg这个变量是由某个全局变量g_arg传入而来。我们可以通过硬件的数据断点来查看

最低0.47元/天解锁文章

45 条评论

问下毅力 2015.05.14
受益，谢谢博主。

r_mosaic 2011.07.22
ATField 大侠，好久没见，此帖对我很有启发。特别是对于 C/C++ 这样内存访问不受限的程序来说，这种问题很容易发生。所以用调试器作一下跟踪很有必要。不过，我记得有一次用 WinDbg 来记 log，结果运行速度就慢得太多了，最后还是不了了之。多线程问题其实是很难调试的，不用跟踪的方法，就只有 review 了。但是 review 虽然很管用，却也很花时间，经理们不会让我们做软件的人随随便便就去 review/refactor，除非有足够时间。对于做 SE 的人就更没可能大面积 review 了。所以调试技巧还是非常重要的。 @jiazhen 的确，有时候要用测试的思路来思考到底是什么因素引起的问题。

newrain021011 2009.11.27
很受益，我记得当时又一次，我调用底层驱动的时候，并不确定是什么问题导致我的程序出现异常，后来通过若干次的调试（每次要使用上千次），才出现这个bug，后来才发现是系统底层驱动有问题导致的。不是所有的代码你都有开源的，也不是所有的人都有那么多的时间让你去慢慢查找每一个代码。对于技术很高的人，或许会有更好的方法。

yuzhouhenan 2009.10.03
这个帖子确实不错。 VS2008中的command line是否有命令可以让程序跑10000次。

Garfield 2009.09.13
其实让程序core dump就好了，何必这么复杂。。或者你加个断言，一样可以实现JIT debug。楼主是把简单问题复杂化了吧。。

卡门9527 2009.09.10
XXX86成天把“开源”二字挂在嘴边，我怀疑他就是“开源”的鼻祖，否则就是神经病!

red-fly 2009.09.08
这个贴子不错，先记下，我一直都在想办法能够捕获正常运行时候出错的相关相关信息，但这方面的都不是很全面。以前看有人说WinDBG，后来自己弄了一下，发现不好用，现在看来，还是自己不会用啊，后面要研究一下了

lvchun012 2009.09.08
好像不太懂,我是菜鸟

ATField 2009.09.03
@shendl: Review代码是一种好方法，可以找到不少问题。调试是最终手段。 @gaofeng2000：本文针对的情况是测试用例相同，但是偶尔出错，一般是内存问题或者是多线程问题。以我个人经验来看，在CLR里面多线程问题居多，很多是IA64上才可以重现的（说明很有可能是Memory Barrier问题）。