R： 关于“set.seed()”

最新推荐文章于 2024-09-19 15:18:11 发布

原创最新推荐文章于 2024-09-19 15:18:11 发布 · 1k 阅读

1 ·

CC 4.0 BY-SA版权

数据挖掘专栏收录该内容

18 篇文章

订阅专栏

本文探讨计算机如何生成伪随机数及其种子设置的原理与应用，强调了种子设置在确保结果可重复性和研究复现性方面的关键作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2013-05-04 08:22:33

    计算机并不能产生真正的随机数，如果你不设种子，计算机会用系统时钟来作为种子，如果你要模拟什么的话，每次的随机数都是不一样的，这样就不方便你研究，如果你事先设置了种子，这样每次的随机数都是一样的，便于重现你的研究，也便于其他人检验你的分析结果。
   
   http://bbs.pinggu.org/thread-336973-1-1.html
   
   http://bbs.pinggu.org/thread-2121186-1-1.html
   
 如果说函数中出现set.seed(3000)，那就是说程序运行3000次，都是从同一个种子产生的随机数，还是从不同的种子产生的？
   
   另外，这个3000，指的是3000“个”随机数，还是3000“批”（一批里面可能有若干个）随机数呢？
   
   如果我每循环一次，让set.seed(N)中的N增加一个常数，那会有什么作用？
   
 et.seed(3000)，不是运行3000次，而是把种子设置为3000。
   
 计算机的程序，都是通过确定的算法，根据确定的输入，算出确定的输出。想要得到真正的随机，需要通过外接物理随机数发生器，通过把随机的物理过程转变为随机值，才能实现。因此我们平常使用的计算机的随机数，其实都只是通过算法模拟得到，也就是伪随机。一般采用的办法是线性同余（参见
   http://en.wikipedia.org/wiki/Linear_congruential_generator）。
   
 X[n+1] = (a * X[n] + c) mod m
   
 为简单起见，我取简单的参数（a = 1, c = 3, m = 5），得到一个简单的算式：
   
 X[n+1] = (X[n] + 3) mod 5
   
 这时，把X[0]视为种子，于是：
   
 若种子为0，得到数列：0, 3, 1, 4, 2, 0, …
   
 若种子为1，得到数列：1, 4, 2, 0, 3, 1, …
   
 若种子为2，得到数列：2, 0, 3, 1, 4, 2, …
   
 若种子为3，得到数列：3, 1, 4, 2, 0, 3, …
   
 若种子为4，得到数列：4, 2, 0, 3, 1, 4, …
   
 对于每个种子，所得到的数列看起来都是随机的（每个数值出现的频率都是相同的）。而一旦种子给定，每次调用随机数函数，函数都会根据上次得到的数列的某个值，计算出数列的下一个值并返回回来。而对于随机浮点数，一般是用随机产生的整数除以最大整数得到。
   
 所以，随机数的种子一般只需要在调用随机函数之前设置一次，不建议设置多次。
   
 另外，我一直没有搞明白一件事：设置多次种子，在算法上会不会对最终生成的随机数的分布造成影响？不知道有人了解么？
   
   http://cos.name/cn/topic/15925
   
 可以重复得到同一组伪随机数很重要。比如，你的程序有一个很隐蔽的错误，导致你用某些初始值会得到错误的结果，如果你没有设定种子，运行完程序一看结果错了，这时你肯定想再用刚才的数据做一次debug，但永远不可能得到它了。再比如，写论文的时候，你的结果要给别人看，那么一个可重复使用的数据就很重要，你要让别人运行你的code也能得到你的结果就必须要设定种子，等等。
   
   http://cos.name/cn/topic/106976
   
 原文链接：
   http://tezhengku.com/topic/?p=604