calm1736-优快云博客

原创 Point-BERT代码复现

运行 bash install.sh时会报错，原因是/extensions/emd/cuda/emd_kernel.cu文件结尾少写了一个#endif，添加后即可正常运行。这张图片重点在于os.environ部分删掉了双引号中的3.7+...

2025-03-21 23:16:58 391

原创 Isaac Sim 对电脑配置的要求

之前花了一整天照着各种文档视频安装Isaac Sim，都会报各种奇怪的错误（指找不到解决方案），最后发现是电脑配置达不到，建议大家安装前先自查一下不要浪费时间还搞心态哈。

2025-03-12 09:33:56 1503

原创 STEP-DPO应该用采样错误还是主动错误生成的一点思考

基于（Direct Preference Optimization: Your Language Model is Secretly a Reward Model）的摘要，DPO是一种参数化奖励模型RHLF，使提取相应的最优策略在封闭的形式，使我们能够解决标准RLHF问题，只有一个简单的分类损失。由此产生的算法，我们称之为直接偏好优化（DPO），是稳定的，高性能的，计算量小，消除了在微调或执行显着的超参数调整过程中从LM采样的需要。

2025-03-06 20:31:45 831

原创 Ablation Study是什么

是机器学习和深度学习领域中的一种实验方法，旨在通过逐步移除或修改模型的某些组件（如层、模块、参数或特征），评估这些组件对模型整体性能的贡献。其核心目的是验证模型设计的合理性，确定哪些部分是关键改进，哪些可能是冗余的。在Transformer模型中，移除多头注意力层后，若准确率显著下降，说明该模块对任务至关重要。当提出新的模型结构、模块或训练方法时，需证明这些改进确实有效，而非偶然或依赖其他因素。：逐步移除模型的某个模块（如注意力机制、残差连接等），观察性能变化。PS:来自DeepSeek。

2025-03-04 20:36:49 819

原创论文阅读：STEP-DPO (arxiv2406.18629)

这篇文章的图表、大义在前人的博客（《大模型精细化对齐之step-dpo》）中已经较为详细给出，这里只是作为一个笔记来记录本人阅读时的一些理解，刚刚接触这一领域，如有错误，希望大家包涵并批评指正。

2025-02-28 18:43:24 334 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Point-BERT代码复现

原创 Isaac Sim 对电脑配置的要求

原创 STEP-DPO应该用采样错误还是主动错误生成的一点思考

原创 Ablation Study是什么

原创 论文阅读：STEP-DPO (arxiv2406.18629)

空空如也

空空如也

原创论文阅读：STEP-DPO (arxiv2406.18629)