自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Point-BERT代码复现

运行 bash install.sh时会报错,原因是/extensions/emd/cuda/emd_kernel.cu文件结尾少写了一个#endif,添加后即可正常运行。这张图片重点在于os.environ部分删掉了双引号中的3.7+...

2025-03-21 23:16:58 391

原创 Isaac Sim 对电脑配置的要求

之前花了一整天照着各种文档视频安装Isaac Sim,都会报各种奇怪的错误(指找不到解决方案),最后发现是电脑配置达不到,建议大家安装前先自查一下不要浪费时间还搞心态哈。

2025-03-12 09:33:56 1503

原创 STEP-DPO应该用采样错误还是主动错误生成的一点思考

基于(Direct Preference Optimization: Your Language Model is Secretly a Reward Model)的摘要,DPO是一种参数化奖励模型RHLF,使提取相应的最优策略在封闭的形式,使我们能够解决标准RLHF问题,只有一个简单的分类损失。由此产生的算法,我们称之为直接偏好优化(DPO),是稳定的,高性能的,计算量小,消除了在微调或执行显着的超参数调整过程中从LM采样的需要。

2025-03-06 20:31:45 831

原创 Ablation Study是什么

是机器学习和深度学习领域中的一种实验方法,旨在通过逐步移除或修改模型的某些组件(如层、模块、参数或特征),评估这些组件对模型整体性能的贡献。其核心目的是验证模型设计的合理性,确定哪些部分是关键改进,哪些可能是冗余的。在Transformer模型中,移除多头注意力层后,若准确率显著下降,说明该模块对任务至关重要。当提出新的模型结构、模块或训练方法时,需证明这些改进确实有效,而非偶然或依赖其他因素。:逐步移除模型的某个模块(如注意力机制、残差连接等),观察性能变化。PS:来自DeepSeek。

2025-03-04 20:36:49 819

原创 论文阅读:STEP-DPO (arxiv2406.18629)

这篇文章的图表、大义在前人的博客(《大模型精细化对齐之step-dpo》)中已经较为详细给出,这里只是作为一个笔记来记录本人阅读时的一些理解,刚刚接触这一领域,如有错误,希望大家包涵并批评指正。

2025-02-28 18:43:24 334 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除