设置固定随机数,使结果可复现

本文详细介绍了如何在CPU上使用Keras时设置种子以实现Python脚本的可重复性,包括设置PYTHONHASHSEED、python内置随机数、numpy和tensorflow随机数生成器,并配置全局tensorflow会话。
部署运行你感兴趣的模型镜像

您可以在Keras文档中找到答案

简而言之,要绝对确保使用一台计算机/笔记本电脑的CPU上的python脚本可获得可重复的结果,则必须执行以下操作:

  1. PYTHONHASHSEED环境变量设置为固定值
  2. python内置的伪随机数发生器设置为固定值
  3. numpy伪随机数发生器设置为固定值
  4. tensorflow伪随机数发生器设置为固定值
  5. 配置新的全局 tensorflow会话

Keras通过顶部的链接,我正在使用的源代码如下:

# Seed value
# Apparently you may use different seed values at each stage
seed_value= 0

# 1. Set `PYTHONHASHSEED` environment variable at a fixed value
import os
os.environ['PYTHONHASHSEED']=str(seed_value)

# 2. Set `python` built-in pseudo-random generator at a fixed value
import random
random.seed(seed_value)

# 3. Set `numpy` pseudo-random generator at a fixed value
import numpy as np
np.random.seed(seed_value)

# 4. Set `tensorflow` pseudo-random generator at a fixed value
import tensorflow as tf
tf.set_random_seed(seed_value)

# 5. Configure a new global `tensorflow` session
from keras import backend as K
session_conf = tf.ConfigProto(intra_op_parallelism_threads=1, inter_op_parallelism_threads=1)
sess = tf.Session(graph=tf.get_default_graph(), config=session_conf)
K.set_session(sess)

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.15

TensorFlow-v2.15

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。 它提供了一个灵活的平台,用于构建和训练各种机器学习模型

<think>我们正在讨论设置随机种子为42的意义。在计算机科学中,随机数生成器实际上是一个伪随机数生成器(PRNG),它通过一个确定的算法,从一个初始值(种子)开始,生成一系列看似随机的数字序列。如果使用相同的种子,那么每次运行程序时生成的随机数序列将是相同的。 因此,设置随机种子为42(或任意固定值)可以确保程序每次运行都生成相同的随机数据,这对于实验的可复现性至关重要。例如,在机器学习中,我们希望每次运行相同的代码时,模型的初始化、数据集的划分、数据增强的变换等都是一致的,这样我们才能准确地比较不同模型或不同参数的性能。 原理如下: 1. 伪随机数生成器(如Python的`random`模块、NumPy的随机模块)都有一个内部状态。 2. 设置种子(如`np.random.seed(42)`)会重置这个内部状态到一个确定的起点。 3. 之后每次调用随机数生成函数(如`np.random.randn`)都会从这个起点开始,按照固定的顺序生成随机数序列。 因此,只要种子相同,生成的随机数序列就相同。 引用内容中提到了Ludwig数据增强和PyTorch中设置随机种子的重要性,这进一步说明了在科学计算和机器学习中保证可复现性的通用做法。 下面我们用代码示例来验证: </think>### 设置随机种子为42确保结果复现的原理 在计算机科学中,"设置随机种子为42" 的核心原理是通过**控制伪随机数生成器的初始状态**来实现结果的可复现性。以下是详细的解释: 1. **伪随机数生成机制** 计算机生成的随机数本质上是**确定性序列**(伪随机)。伪随机数生成器从一个初始值(种子)开始,通过数学公式迭代生成数字序列: $$x_{n+1} = f(x_n)$$ 当种子相同时,算法产生的随机序列完全一致[^2]。 2. **种子值的作用** - `np.random.seed(42)` 将伪随机数生成器初始化为特定状态 - 数字"42"本身无特殊含义,是开发者常用的默认值(源自《银河系漫游指南》) - 任何固定整数都可作为种子,例如`seed(0)`或`seed(1234)` 3. **随机序列的可复现性** ```python # 第一次运行 np.random.seed(42) print(np.random.rand(3)) # 输出: [0.3745, 0.9507, 0.7320] # 第二次运行 (相同环境) np.random.seed(42) print(np.random.rand(3)) # 输出: [0.3745, 0.9507, 0.7320] # 完全相同! ``` 4. **在机器学习中的重要性** 固定种子能确保: - 数据划分结果一致(训练集/验证集/测试集) - 模型参数初始化相同 - 数据增强操作序列可复现[^1] - 实验结果可验证(论文复现的关键) 5. **系统级影响** | 组件 | 需要设置种子的函数 | |------------------|----------------------------------| | Python原生 | `random.seed()` | | NumPy | `np.random.seed()` | | PyTorch | `torch.manual_seed()` | | TensorFlow | `tf.random.set_seed()` | | 多进程/多GPU环境 | 需为每个进程单独设置种子[^2] | > ⚠️ **注意**:当使用GPU加速时,还需设置CUDA随机种子(`torch.cuda.manual_seed_all()`),因为GPU运算有独立的随机数生成器[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值