- 博客(3)
- 收藏
- 关注
原创 Llama-Factory的baichuan2微调
现有的获得这种可控性的方法是收集人工对模型生成相对质量的标签,并且通过人类反馈强化学习(RLHF)对无监督的 LM 进行微调,以使其与人类偏好相一致。然而,RLHF 是一个复杂且经常不太稳定的过程,它首先拟合一个反应人类偏好的奖励模型,然后通过强化学习对大型无监督 LM 进行微调以最大化评估奖励,并避免与原始模型相差太远。值得注意的是,用 DPO 进行微调在控制生成结果的情感以及改善摘要和单轮对话的响应质量方面表现出更好的能力,同时在实现和训练时的难度大大降低。,从本质上解决了人类偏好数据上的分类问题。
2023-11-18 01:29:31
8690
9
原创 Ubuntu20.04安装Nvidia驱动——4060显卡(黑屏解决方法)
如果按照正常方法安装不成功(如无法连接第二屏幕,nvidia-smi无显示),先尝试在安装后不管什么方法进入桌面后在应用程序中找到NVIDIA X Server Settings,在最后一项PRIME Profiles将NVIDIA On-Demand改为Performance Mode,重启后正常,安装深度学习环境也无问题,但是我的神州刷新率还是60hz,网上说法还是核显输出。
2023-04-05 19:25:18
12340
6
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人