
大模型
文章平均质量分 84
AI算法网奇
本人是一名资深算法工程师,优快云博客专家。多年一线算法研发经验 主要研究方向为三维重建、多模态模型。希望把我的经验和知识带给每一个喜欢钻研朋友,为中国人工智能行业添砖加瓦!
展开
-
DeepSeek相关技术名词含义详解(面向国人的一次倾情科普)
Aha Monent,也就是大家都在讲的“顿悟时刻”,即模型在训练过程中自我激发出了推理思考、分析检查、修正问题的能力。GRPO(Group Relative Policy Optimization,组相对策略优化)是一种强化学习算法,根据经典的PPO强化学习算法改进而来。它通过大模型根据当前的上文输入进行一组多次采样,生成多个预测结果,并分别使用 Reward 模型对这些预测结果进行奖励评分,然后取组内这些评分的平均值来替代 Value模型的预期总收益估计。原创 2025-03-08 21:25:50 · 1889 阅读 · 9 评论 -
基于DeepSeek 的图生文最新算法 VLM-R1
基于DeepSeek 的图生文最新算法 VLM-R1原创 2025-03-02 01:47:39 · 418 阅读 · 0 评论