- 博客(19)
- 收藏
- 关注
原创 dpo代码实战demo
本文介绍了如何通过代码实现理解DPO(直接偏好优化)强化学习算法。首先创建了一个模拟偏好数据集,包含prompt及对应的优选/非优选响应;然后讲解了DPO损失函数的核心公式和设计思路,通过比较策略模型与参考模型的对数概率差异来优化;最后分析了DPO引入的归纳偏置,包括对奖励函数形式和对数比值关系的假设。文章提供了完整代码框架,从数据处理到损失计算,帮助读者将理论与实现相结合。关键点在于DPO绕过了奖励函数建模,直接利用偏好数据优化策略模型。
2025-06-03 17:48:03
790
原创 GRPO deepseek
GRPO是PPO算法的改进版本,通过组内样本的相对比较替代绝对价值函数估计。其训练过程包括四个关键步骤:(1)模型生成补全,计算轨迹对数概率和熵;(2)基于组内均值计算相对优势值;(3)估计当前策略与参考策略的KL散度;(4)使用剪切目标函数计算损失,包含策略梯度损失和KL惩罚项。代码实现包含模型初始化、奖励计算(格式正确性和答案准确性)、优势值计算和损失函数构建。GRPO通过组内样本比较和KL约束,在保持训练稳定性的同时提升策略优化效果。该实现针对小显存设备进行了优化,但可能出现数值不稳定问题
2025-05-24 22:35:09
652
原创 ModuleNotFoundError: No module named ‘xxx‘ 无法import根目录下子python文件
ModuleNotFoundError: No module named 'xxx' 无法import根目录下子python文件
2024-04-03 17:11:48
303
1
原创 ERROR: Could not find a version that satisfies the requirement xxx (from versions: none)
在服务器安装conda环境和requirements,但是怎么都是一片红安装失败,自信一点,不是你的python版本问题(在这里不是),而是你的conda仓库不行(没有添加任何镜像源)
2024-04-03 09:37:36
313
1
原创 nvm切换node版本 exit status x:乱码
前提是已经安装nvm,并且已经安装node的两个版本目前版本是12.0.0,想要转到11.0.0C:\Users\share>nvm list * 12.0.0 (Currently using 64-bit executable) 11.0.0C:\Users\share>直接转会有问题C:\Users\share>nvm use 11.0.0exit status 1: ��û���㹻��Ȩ��ִ�д˲�����这里有乱码,写入文件才能看到描述C:
2022-03-08 10:34:39
2108
原创 vmare15 centos7安装docker curl: (6) Could not resolve host: get.docker.com; Unknown error
vmare15 centos7安装docker
2022-01-25 18:49:14
3071
原创 des统计信息代码
这是des报告的代码,一共2个java文件,复制粘贴就可以啦~//BitsArray.javapackage my_src;import java.io.*;import java.util.Random;public class BitsArray { /** * 随机生成64位字符串,如01111111...(64位) */// public BitsArray(String bits) {// super();// this.bits = new byte[64];//
2021-10-15 15:54:39
290
原创 统计DES算法在密钥、明文固定下对密文的影响
统计DES算法在密钥、明文固定下对密文的影响实验目的统计DES算法在密钥固定情况,输入明文改变1位、2位,。。。64位时。输出密文位数改变情况。统计DES算法在明文固定情况,输入密钥改变1位、2位,。。。64位时。输出密文位数改变情况。为了具有客观性,各小题需要对多次进行统计,并计算其平均值。实验过程数据结构主要使用字符串String和字节数组byte[]主要有5个变量,对于第一问:统计DES算法在密钥固定情况,主要变量是:明文des_input密文des_out
2021-10-15 15:47:21
966
原创 mysql卸载重装的过程
卸载比较好的卸载过程应该是:控制面板处卸载文件夹卸载注册表卸载但是!我是按照网上一个狗屁教程,把顺序打乱了,不是第一步在控制面板卸载,所以当要做这一步的时候,控制面板卸载不了!!后果是无法装新的。这一步耗费了2个小时后来想到了万能的软件商店,卸载成功~重装在官网下载新版本的mysql附上官网链接:官网下载的是msi,可是msi安装有一个毛病,就是一定会遇到2502,2503错误,所以需要用管理员权限去安装,在文件管理器中开启以管理员身份开启一个新事物即可。好了,成功~...
2021-09-17 21:43:37
128
转载 java 找不到或无法加载主类
java 找不到或无法加载主类转载自 https://blog.youkuaiyun.com/weixin_42278339/article/details/104866275我出现的bugjavac可以成功 但是java (java类名)死活找不到类看了别人的文章,原来是jre路径设置不对给自己一个启示:下次再遇到这种没有思路的bug 明明很简单,不是代码问题,那么肯定是环境问题。...
2021-06-04 19:59:23
134
原创 解决IDEA-not allow to run in parallel
在idea运行客户端,可是不能同时运行一个客户端的问题:解决:工具栏:run->edit config->modify options->allow mutiple instances
2021-05-27 16:28:13
1121
1
原创 2021-04-03
javax包导入失败学GUI的时候,老是遇到这种情况但是找了很多博客,都没有解决,几乎都是说java自带的包,不需要自行安装,但是ecplise的确报错了,百思不得其解,后来偶然看到了忘了哪篇文章,原来是忘了一个步骤,的确是java自带的只要在moudule.info文件增加一行requires java.desktop;我恨关于bug原理,下次再了解吧,先学GUI了呜呜呜...
2021-04-03 18:47:43
94
原创 sql server2016连接失败
解决sql server2016连接失败在第一次使用sql server,费了很大劲安装成功,后来没怎么打开过,当要用的时候,刚打开就遇到了问题无法连接,再用navicat的时候根本没遇过这种问题,怀疑过账号密码,去找了官网文档,也找了很多的博客,都试了一下,其实很简单,看如下解决方案1.打开sql server配置管理器。win10直接搜索栏搜sql就找到了发现真正的问题是:红框里的内容没在运行,看过有的博客说在任务管理器里找到sql代理,运行就好,我试了不行2.也很简单,直接在配置管理器
2021-04-01 15:23:54
3276
3
原创 2021-01-18
npm start : npm ERR! code ELIFECYCLE小白lz,在用Create React App创建应用中出现了标题这个bug,跟着报错步骤做好像也没有解决办法,然后再百度谷歌各种搜索,终于解决了,特此把过程Mark下来首先,在cmd中运行的命令是npx create-react-app my-appcd my-appnpm start就在第三步,npm start出错了提示信息如下:There might be a problem with the projec
2021-01-18 10:08:27
214
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人