LLM_VLM
文章平均质量分 94
ShowMaker.wins
阿里算法专家,kaggle master,关注我不迷路,定期更新ai方向文章,专注于机器学习、深度学习、AGI、多模态,目前在自动驾驶大模型行业深耕
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
PPO过程由浅入深
P:Proximal(近端、接近的意思)P:Policy(策略)O:Optimization(优化)直译就是 近端策略优化。PPO 的核心:限制新旧策略的更新幅度,保证优化过程 既稳定,又高效。往下看完会发现ppo的本质其实是在保证新策略与就策略尽量接近的情况下,尽量朝着优势收益最大化的方向前进,可能这句话不好理解(比如优势收益是什么,如何最大化优势收益,新旧策略接近如何实现等),我们带着这些问题往下看,会发现其实强化学习,ppo,dpo,grpo并不难。马尔科夫假设。原创 2025-10-11 15:55:46 · 634 阅读 · 0 评论 -
QWEN技术报告重点干货
Qwen2.5模型核心技术解析:采用Decoder-Only Transformer架构,通过ROPE旋转位置编码实现相对位置感知,使用GQA分组查询注意力优化KV缓存。激活函数采用SwishGLU增强非线性表达能力,QKV加入偏置提升模型鲁棒性。归一化层选用轻量级RMSNorm替代传统LayerNorm。模型优势在于高效生成能力和对长序列的适应性,通过统一解码器模块实现隐式输入理解和内容生成,特别适合文本补全、对话等生成任务。关键技术组合有效平衡了性能与计算效率。原创 2025-09-24 08:00:00 · 704 阅读 · 0 评论 -
clip moco 探究
CLIP(Contrastive Language–Image Pretraining)是 OpenAI 提出的一种多模态模型,能够将图像和文本映射到同一个向量空间,从而实现图像和文本的联合理解。CLIP 的核心思想是通过对比学习(Contrastive Learning)来训练模型,使得匹配的图像-文本对的向量相似度尽可能高,而不匹配的图像-文本对的向量相似度尽可能低。原创 2025-09-23 11:08:08 · 1414 阅读 · 0 评论
分享