- 博客(19)
- 收藏
- 关注
原创 讲个故事(升级版)2.0
离线强化学习(Offline RL)是交互推荐中的一种常用技术,它离线地学习离线数据以学习策略而不必与用户进行在线交互。Offline RL存在高估用户对离线数据中很少出现的物品的偏好的问题,当前采用了保守主义去解决这一问题,即尽量不去推荐这些很少出现的物品。然而这会导致严重的马太效应,即强者越强弱者越弱,不利于追求用户的长期满意度。在该篇论文中,作者提出了基于去偏模型的离线强化学习模型(Debiased model-based Offline RL,DORL),对多样性较低的推荐进行了惩罚。
2024-10-17 13:53:58
804
原创 讲个故事(升级版)1.0
通过最小化loss来使GPM的预测更接近真实用户的反馈。这样,就得到了一个可以模拟用户的模型了。每当输入给GPM一个视频id后,GPM的三个子模型就会模拟用户并给出预测的平均标准化观看率,还会给出GPM的三个子模型预测的方差,来刻画GPM的不确定性。方差越大表示GPM模拟的不确定性越高。至此,离线场景中不能与用户进行在线交互的问题就被解决了。
2024-10-13 13:49:47
881
原创 讲个故事5.0
训练集共有两个,分别为dataset_train和train_collector。dataset_train用于训练用户模型,即训练论文图6中的GPM,该训练过程有验证集无测试集;train_collector用于学习策略,即学习论文图6中的Policy π,该学习过程有测试集。学习π需要用户对π推荐的视频进行反馈,而训练好的GPM可以模拟用户,从而对π进行离线地学习。
2024-09-17 02:02:57
875
原创 讲个故事4.0
dataset_train = {StaticDataset:37592418},用作训练集。共7176个用户和10728个视频,产生了37592418条交互记录。
2024-09-01 01:00:29
815
原创 讲个故事3.0
每个元素代表的含义如下:user_active_degree(用户活跃程度):0表示低度活跃 1表示中度活跃 2表示高度活跃is_live_streamer(是否为直播主播):1表示是直播主播 0表示不是直播主播is_video_author(是否是视频作者):1表示是视频作者 0表示不是视频作者。
2024-08-20 14:56:56
1003
原创 《Alleviating Matthew Effect of Offline Reinforcement Learning Interactive Recommendation》笔记6.0
熵惩罚项不依赖于选择的动作,而只依赖于所处的状态。这意味着这种惩罚的效果将是间接的,并且考虑长期优化会惩罚导致较少多样状态的动作。因此,学习到的策略在离线数据中实现了反事实的探索,从而抵消了离线强化学习中的马太效应。
2024-06-27 10:12:06
276
原创 强化学习笔记
本文图片和内容部分引用于写Bug那些事该大佬博客,更为细致的讲解请查看该博客,链接如下:强化学习入门这一篇就够了!!!万字长文-优快云博客state可以理解成状态(环境状态)。在YouTube中刷视频时,我们可以认为state是用户在面对视频时,用户的信息(如用户的观看历史和用户的年龄性别等)和当前视频的信息(如视频所属类别和视频的创作者等)等。state也可以简单理解为当前的画面(当然这并不准确但是方便理解)。用户面对该视频所做的动作就是action。假设用户会做4个动作:点赞、点击不喜欢、评论、和分享
2024-06-05 20:07:19
659
原创 《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记5.0
预测得分计算:首先,通过计算用户u对物品i和物品j的预测得分来衡量用户对物品的偏好程度。预测得分是通过用户u的潜在因子向量和物品i、物品j的潜在因子向量之间的内积得到的,即score(u,i) = wu • hi和score(u,j) = wu • hj。由论文中对MCD的定义处的注释4知:主导类别要求覆盖训练集中80%的物品,在KuaiRand的46个类别中主导类别有13个,在KuaiRec的31个类别中主导类别有12个.表示用户u对物品i和物品j的偏好,其中,u对i的偏好大于u对j的偏好。
2024-05-29 21:21:45
694
原创 [成功解决]tensorflow.python.framework.errors_impl.FailedPreconditionError: logs is not a directory
本来我的总文件名称为:“”代码文件“”,一直报 logs is not a directory ,①后报错。②将代码文件的文件夹名称改为全英文并换了个盘(也是英文的)存放全部文件。①logs的路径改为绝对路径。②后不报错了,可以正常运行。
2024-04-21 10:27:49
1211
1
原创 《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记4.0(1)
从上至下,所示类别占据主导地位的强度逐渐下降,也就是说,类别28的主导性最强。也可以理解为,用户观看类别28的视频对最有利于获得更好的结果(比如对应的观看时长更长等)。最后,再次编译 ensemble_models (利用.compile_RL_test()方法)为其设置评估函数。继续获取真实环境env,环境任务类env_task_class(未返回)和其他参数kwargs_um。其中,loss_func的‘args’的具体为。以user_model的第一行为例,对 user_model 的解释。
2024-04-20 16:59:09
996
原创 《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记4.0(2)
我们固定了参数 `b` 的值为 `5`,并将参数 `c` 的默认值设置为 `0`。这样,`add5` 函数就只需要一个参数 `a`,它会将 `a` 与 `5` 相加并返回结果。如果我们想要创建一个新的函数 `add5(x)`,它会将参数 `x` 与数字 `5` 相加,可以使用部分应用函数来实现。在提供的代码中,`functools.partial` 用于创建一个部分应用的函数 `save_model_fn`,其中固定了一部分参数,使得调用时只需要传递剩余的参数即可。代码正常运行至第4步学习策略。
2024-04-20 16:58:46
386
原创 《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记3.0
目录一、论文解析(源于机器翻译)4.关于强化学习(Reinforcement Learning,RL)的基础知识4.1强化学习基础4.2基于模型的离线RL框架5. 方法5.1解决方案:推荐中基于模型的强化学习5.2马太效应5.3 解决方案:重新设计惩罚项5.4 DORL方法6. 实验6.1 实验设置6.1.1 推荐环境。6.1.2 基线。6.2 整体性能比较(RQ1)6.3 减轻马太效应的结果(RQ2)6.4 不同环境的结果(RQ3)7
2024-04-20 16:58:06
899
原创 《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》代码复现笔记2.0
生成了DeepFM文件夹,执行完成后在save_models的CoatEnv-v0环境文件夹下生成了DeepFM文件夹。生成了DeepFM文件夹,执行完成后在save_models的KuaiEnv-v0环境文件夹下生成了DeepFM文件夹。此博客和开头所提的链接为重现论文中的图7所进行的工作,该部分代码也在下图所示的文件中。生成了log文件,在KuaiEnv-v0下的A2C_with_emb的logs中。生成了BCQ文件夹,并将日志文件保存在了在文件夹下的logs文件夹中。运行DORL(论文中提出的方法)
2024-03-19 17:31:44
822
1
原创 《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》代码复现笔记
有些指令在执行时会先创建文件夹,以便存放后续生成的日志文件或者是其他文件,第1、2、3、4、5条和第6条指令都有创建文件夹的操作。此处的connect……(2)(3)(4)代表的是第一部分四条指令中的第几条指令。依旧因为设备问题(仅开了一个单个GPU的4090,很贵),此处在真正测试时使用的是。因为设备问题(仅开了一个单个GPU的4090,很贵),此处在真正测试时使用的是。下面分别是第1 2 3 4条指令执行完成后的截图以及其产生的文件。下面分别是第1 2 3 4条指令执行完成后的截图以及其产生的文件。
2024-03-19 17:31:40
671
1
原创 Inter校企合作 淡水质量预测
gamma=0,objective='binary:logistic', # 二元分类的逻辑回归,输出概率nthread=4,alpha=4,seed=27)本模型使用XGBoost,并使用随机网格搜索进行优化,经过10次训练 ,f1分数在0.94左右 ,准确性较高.通过使用Intel oneAPI组件中的daal4py进行加速,使得训练所需时间减少至40分钟以内.所需时间较短,准确性较高.
2024-02-26 19:40:30
569
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人