固定每次算法运行的推荐结果是非常有必要的,这样可以方便其他人进行复现。
一、算法的哪些部分发生变化可能会产生不一样的推荐结果?
- 数据集划分部分,比如下面的代码是按给定比例将数据集划分为测试集和训练集,如果采用的写法如下,那么一般会造成划分训练集和测试集数据的随机性,因此可能会导致不一样的推荐结果。
- 各种初始化部分,比如类似于矩阵分解类算法的用户矩阵 P 和物品矩阵 Q 的初始化,用户偏置向量,物品偏置向量,社交偏置向量的初始化,以及其他必要的数据结构的初始化的不同,都会导致最后训练的结果略微不同,从而导致不一样的推荐结果。
- 以及不同算法中的很多其他部分…
二、在 LibRec 中的解决办法
在我使用 LibRec 去写自己算法代码的时候,我发现即使我在 conf 配置项中设置了 “rec.random.seed” 一项的参数,最后每次产生的评估推荐结果还是不一样。
仔细走读代码发现,原来 LibRec 中用的Random 函数都是自己重新构造的一个新的类,叫 Randoms ,并且所有代码里面的 Random 的方法都是这个类里的成员方法,所以对于 LibRec 中的代码来说,只需要在自己运行代码的最前面,设置以下代码,即可保证后面所有的 random 固定下来。继而可以保证算法每次运行的推荐结果是固定的。
Long seed = conf.getLong("rec.random.seed");
if (seed != null) {
Randoms.seed(seed);
}
三、如果是python代码的话
import random
import numpy as np
seed = 0
random.seed(seed)
np.random.seed(seed)