LLM校验器
文章平均质量分 82
FesianXu
腾讯-微信事业群-高级算法工程师, 百度-搜索策略部-前高级算法工程师。 主要从事多模态检索、视频检索、信息检索,大模型落地应用等领域工作。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型推理时的尺度扩展定律
大模型的尺度扩展定律告诉我们:『LLM的性能会随着模型的参数量、模型的训练量、模型的训练数据量的增加而增加』。训练存在尺度扩展定律,测试也存在尺度扩展定律,实践告诉我们在推理时候增大计算量,往往可以获得模型性能收益。那么在给定了计算预算的前提下,如何安排预算才能达到最好的模型效果呢?原创 2025-03-02 23:58:53 · 896 阅读 · 0 评论 -
Verifier 和 Reward Model 的区别
Verifier 可以是一个独立的模型或模块,也可以是一个简单的规则检查器。Reward Model 通常是一个独立的模型,用于对模型的输出进行评分。原创 2025-02-07 14:44:57 · 759 阅读 · 0 评论
分享