星星不想醒-优快云博客

原创讲个故事（升级版）2.0

离线强化学习（Offline RL）是交互推荐中的一种常用技术，它离线地学习离线数据以学习策略而不必与用户进行在线交互。Offline RL存在高估用户对离线数据中很少出现的物品的偏好的问题，当前采用了保守主义去解决这一问题，即尽量不去推荐这些很少出现的物品。然而这会导致严重的马太效应，即强者越强弱者越弱，不利于追求用户的长期满意度。在该篇论文中，作者提出了基于去偏模型的离线强化学习模型（Debiased model-based Offline RL，DORL），对多样性较低的推荐进行了惩罚。

2024-10-17 13:53:58 804

原创讲个故事（升级版）1.0

通过最小化loss来使GPM的预测更接近真实用户的反馈。这样，就得到了一个可以模拟用户的模型了。每当输入给GPM一个视频id后，GPM的三个子模型就会模拟用户并给出预测的平均标准化观看率，还会给出GPM的三个子模型预测的方差，来刻画GPM的不确定性。方差越大表示GPM模拟的不确定性越高。至此，离线场景中不能与用户进行在线交互的问题就被解决了。

2024-10-13 13:49:47 881

原创讲个故事5.0

训练集共有两个，分别为dataset_train和train_collector。dataset_train用于训练用户模型，即训练论文图6中的GPM，该训练过程有验证集无测试集；train_collector用于学习策略，即学习论文图6中的Policy π，该学习过程有测试集。学习π需要用户对π推荐的视频进行反馈，而训练好的GPM可以模拟用户，从而对π进行离线地学习。

2024-09-17 02:02:57 875

原创讲个故事4.0

dataset_train = {StaticDataset:37592418}，用作训练集。共7176个用户和10728个视频，产生了37592418条交互记录。

2024-09-01 01:00:29 815

原创讲个故事3.0

每个元素代表的含义如下：user_active_degree（用户活跃程度）：0表示低度活跃 1表示中度活跃 2表示高度活跃is_live_streamer（是否为直播主播）：1表示是直播主播 0表示不是直播主播is_video_author（是否是视频作者）：1表示是视频作者 0表示不是视频作者。

2024-08-20 14:56:56 1003

原创讲个故事2.0

。

2024-08-05 18:07:51 645

原创讲个故事1.0

。

2024-07-17 16:19:05 946

原创《Alleviating Matthew Effect of Offline Reinforcement Learning Interactive Recommendation》笔记6.0

熵惩罚项不依赖于选择的动作，而只依赖于所处的状态。这意味着这种惩罚的效果将是间接的，并且考虑长期优化会惩罚导致较少多样状态的动作。因此，学习到的策略在离线数据中实现了反事实的探索，从而抵消了离线强化学习中的马太效应。

2024-06-27 10:12:06 276

原创强化学习笔记

本文图片和内容部分引用于写Bug那些事该大佬博客，更为细致的讲解请查看该博客，链接如下：强化学习入门这一篇就够了！！！万字长文-优快云博客state可以理解成状态(环境状态)。在YouTube中刷视频时，我们可以认为state是用户在面对视频时，用户的信息（如用户的观看历史和用户的年龄性别等）和当前视频的信息（如视频所属类别和视频的创作者等）等。state也可以简单理解为当前的画面（当然这并不准确但是方便理解）。用户面对该视频所做的动作就是action。假设用户会做4个动作：点赞、点击不喜欢、评论、和分享

2024-06-05 20:07:19 659

原创《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记5.0

预测得分计算：首先，通过计算用户u对物品i和物品j的预测得分来衡量用户对物品的偏好程度。预测得分是通过用户u的潜在因子向量和物品i、物品j的潜在因子向量之间的内积得到的，即score(u,i) = wu • hi和score(u,j) = wu • hj。由论文中对MCD的定义处的注释4知：主导类别要求覆盖训练集中80%的物品，在KuaiRand的46个类别中主导类别有13个，在KuaiRec的31个类别中主导类别有12个.表示用户u对物品i和物品j的偏好，其中，u对i的偏好大于u对j的偏好。

2024-05-29 21:21:45 694

原创 [成功解决]tensorflow.python.framework.errors_impl.FailedPreconditionError: logs is not a directory

本来我的总文件名称为：“”代码文件“”，一直报 logs is not a directory ，①后报错。②将代码文件的文件夹名称改为全英文并换了个盘（也是英文的）存放全部文件。①logs的路径改为绝对路径。②后不报错了，可以正常运行。

2024-04-21 10:27:49 1211 1

原创《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记4.0（1）

从上至下，所示类别占据主导地位的强度逐渐下降，也就是说，类别28的主导性最强。也可以理解为，用户观看类别28的视频对最有利于获得更好的结果（比如对应的观看时长更长等）。最后，再次编译 ensemble_models （利用.compile_RL_test()方法）为其设置评估函数。继续获取真实环境env，环境任务类env_task_class(未返回)和其他参数kwargs_um。其中，loss_func的‘args’的具体为。以user_model的第一行为例，对 user_model 的解释。

2024-04-20 16:59:09 996

原创《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记4.0（2）

我们固定了参数 `b` 的值为 `5`，并将参数 `c` 的默认值设置为 `0`。这样，`add5` 函数就只需要一个参数 `a`，它会将 `a` 与 `5` 相加并返回结果。如果我们想要创建一个新的函数 `add5(x)`，它会将参数 `x` 与数字 `5` 相加，可以使用部分应用函数来实现。在提供的代码中，`functools.partial` 用于创建一个部分应用的函数 `save_model_fn`，其中固定了一部分参数，使得调用时只需要传递剩余的参数即可。代码正常运行至第4步学习策略。

2024-04-20 16:58:46 386

原创《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记3.0

目录一、论文解析（源于机器翻译）4.关于强化学习（Reinforcement Learning，RL）的基础知识4.1强化学习基础4.2基于模型的离线RL框架5. 方法5.1解决方案：推荐中基于模型的强化学习5.2马太效应5.3 解决方案：重新设计惩罚项5.4 DORL方法6. 实验6.1 实验设置6.1.1 推荐环境。6.1.2 基线。6.2 整体性能比较（RQ1）6.3 减轻马太效应的结果（RQ2）6.4 不同环境的结果（RQ3）7

2024-04-20 16:58:06 899

原创《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》代码复现笔记2.0

生成了DeepFM文件夹，执行完成后在save_models的CoatEnv-v0环境文件夹下生成了DeepFM文件夹。生成了DeepFM文件夹，执行完成后在save_models的KuaiEnv-v0环境文件夹下生成了DeepFM文件夹。此博客和开头所提的链接为重现论文中的图7所进行的工作，该部分代码也在下图所示的文件中。生成了log文件，在KuaiEnv-v0下的A2C_with_emb的logs中。生成了BCQ文件夹，并将日志文件保存在了在文件夹下的logs文件夹中。运行DORL（论文中提出的方法）

2024-03-19 17:31:44 822 1

原创《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》代码复现笔记

有些指令在执行时会先创建文件夹，以便存放后续生成的日志文件或者是其他文件，第1、2、3、4、5条和第6条指令都有创建文件夹的操作。此处的connect……（2）（3）（4）代表的是第一部分四条指令中的第几条指令。依旧因为设备问题（仅开了一个单个GPU的4090，很贵），此处在真正测试时使用的是。因为设备问题（仅开了一个单个GPU的4090，很贵），此处在真正测试时使用的是。下面分别是第1 2 3 4条指令执行完成后的截图以及其产生的文件。下面分别是第1 2 3 4条指令执行完成后的截图以及其产生的文件。

2024-03-19 17:31:40 671 1

m0_67197896的博客