- 博客(42)
- 收藏
- 关注
原创 小白也能掌握的LLM DPO算法!
DPO(直接偏好优化)是一种替代传统RLHF的新方法,它通过三元组数据(prompt、好结果、坏结果)直接构建偏好损失函数,无需显式训练奖励模型。基于Bradley-Terry模型,DPO将偏好比较转化为分类问题,使用交叉熵损失优化语言模型策略,使其在好结果上的生成概率高于参考模型,在差结果上低于参考模型。相比RLHF的两阶段流程(先训奖励模型再PPO优化),DPO简化了训练过程,通过隐式奖励最大化实现模型优化。
2025-07-25 16:16:00
433
原创 估计大模型推理部署所需显存(含KV cache讲解)(一)
如果你想入门大模型并自己部署,掌握大模型在推理、部署和微调过程中所需的显存是非常关键的一步,特别是当你需要租用昂贵的显卡资源时更是如此。本文介绍了在模型推理时所需显存和什么关键变量相关,以及KVcache的讲解
2025-07-21 17:34:53
1098
1
原创 如何在KL散度的意义下解释极大似然估计(二)
解释三个问题1.MLE和最小化KL散度的等价性 2.作为损失函数使用 3. 为什么二分类问题使用交叉熵损失而不是均方误差损失?
2025-07-17 23:28:31
413
原创 python itertools模块:itertools.product(一)
python itertools模块:itertools.product使用,结合df.iterrows()返回两个dataframe处理后行的笛卡尔积
2025-07-09 14:32:04
236
原创 如何使用numpy和pandas处理数据-查看数据类型/计算聚合统计量/loc iloc/merge concat(二)
1.使用pandas创建dataframe,修改df的列名 2.查看dataframe每一列数据类型 3.计算df的聚合统计量 4.使用iloc/loc进行行列索引 5.df.drop删除单列多列 6.merge和concat
2025-07-02 18:03:14
480
原创 Joblib库多进程/线程使用(一):使用generator参数实现边响应边使用
介绍了进程线程的概念,并且简单介绍了Joblib库多进程/线程使用,最后使用generator参数实现边响应边使用
2025-06-24 16:02:19
1000
原创 使用Python处理元祖/列表等结构封装的数据(一)
使用Python处理元祖/列表等结构封装的数据(一)1.zip函数使用 2.列表表达式/map函数 3.any/all()
2025-06-16 15:35:49
420
原创 如何使用numpy和pandas处理数据-apply/np.where/iterrows()处理行数据(一)
如何使用numpy和pandas处理数据?and/or/not和&/|/~基本知识,None,NAN基本概念,以及如何用apply/np.where/iterrows()处理行数据
2025-06-11 17:47:07
1063
原创 一文掌握Python中可变(mutable)与不可变(immutable)对象问题
一文掌握Python中可变(mutable)与不可变(immutable)对象问题
2025-06-10 16:54:55
207
原创 Jupyter: XSRF cookie does not match POST
解决Jupyter: XSRF cookie does not match POST
2025-04-11 10:39:05
370
原创 jupyter安装/卸载python+kernel配置
jupyter中安装/卸载python,以及在jupyter中后续kernel的配置。最终解决两个不同python同时在jupyter中可能产生的一些冲突
2025-04-02 17:41:46
486
原创 3046. 单向链表中的节点删除华师大oj
给定一个存储了若干个整数(个数范围:0 - 1000)的单向链表和一个整数 v,删除单向链表中所有值为 v 的节点。
2022-09-18 18:27:41
276
原创 热河路ECNUoj3532
热河路有一家开了好多年的理发店,不管剪什么样的发型,你只要付五块钱。现在我们来到了热河路。请你找出这个无穷序列中指定位置上的数字。
2022-09-18 11:32:07
287
原创 小巴菲特买股票 华师oj
股神巴菲特在小时候就极具投资天赋。当时他手上有一些资金,想去股票市场做做交易。给出一支股票在 N 天之内每天的交易价格,假设每天的交易价格唯一且一定能成交,不需要任何手续费等其他费用,并且小巴菲特的初始资金量充足。规定小巴菲特N天之内只能且必须先买一股然后卖一股,两次交易可以在同一天完成也可以不在同一天完成。请帮小巴菲特计算出 N 天之后最多能赚多少钱?
2022-09-18 00:34:39
139
原创 浙大数据结构案例3-1.1线性表元素的区间删除
其中List结构定义如下:/* 保存线性表中最后一个元素的位置 */ };L是用户传入的一个线性表,其中元素可以通过>、==、
2022-09-12 09:01:21
227
原创 浙大数据结构2-1.2数组元素循环左移
本题要求实现一个对数组进行循环左移的简单函数:一个数组a中存有n(>0)个整数,在不允许使用另外数组的前提下,将每个整数循环向左移m(≥0)个位置,即将a中的数据由(a0a1⋯an−1)变换为(am⋯an−1a0a1⋯am−1)(最前面的m个数循环移至最后面的m个位置)。如果还需要考虑程序移动数据的次数尽量少,要如何设计移动的方法?P15页学习实验指导书。/*求出循环圈数*/出现浮点错误,以及输出错误,集中在m=0和n=1的情况下,也就是被除数为0。/*求出实际移动数量*/
2022-09-11 21:28:35
413
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人