从视觉基础到多模态大模型实践
文章平均质量分 92
FIREINWORLD2
HYK。985院校硕士毕业,现担任算法研究员一职,热衷于深度学习算法研究与应用。曾获得阿里云天池比赛第三名,CCE比赛第五名,科大讯飞Q比赛第六名。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型评测与可解释性
本章我们深入探讨了大模型的评测与可解释性,这是确保AI系统可靠、可信和负责任的关键。大模型效果评估不仅仅局限于单一指标,而是需要多维度考量,包括通用任务指标(如PPL, BLEU, mAP)、零样本/少样本能力,以及对鲁棒性和公平性的评估。可解释人工智能(XAI)旨在揭示大模型决策的“黑箱”。我们介绍了两种主要的可解释性方法:例如注意力可视化和特征可视化,直接分析模型内部组件。LIME和SHAP。原创 2025-05-21 19:25:01 · 1169 阅读 · 0 评论 -
大模型微调与高效训练
本章深入探讨了大模型的微调策略和高效训练技术,帮助我们应对大模型带来的巨大资源挑战。我们了解到全参数微调虽然效果上限高,但资源消耗巨大,且容易遗忘。为了解决这些问题,参数高效微调(PEFT)方法应运而生。其中,LoRA通过低秩近似权重更新,通过优化软提示,都极大地减少了可训练参数,降低了资源成本,并有效避免了灾难性遗忘。此外,我们还学习了多种高效训练策略分布式训练(数据并行DDP和模型并行)能够将训练任务分散到多个设备,加速训练。混合精度训练(AMP)原创 2025-05-21 19:21:07 · 1278 阅读 · 0 评论 -
多模态大模型
我们的世界是多模态的。人类通过视觉、听觉、嗅觉、味觉和触觉等多种感官来感知和理解世界,并将这些信息进行融合处理。传统的AI模型通常专注于单一模态,例如只处理图像(计算机视觉)或只处理文本(自然语言处理)。然而,为了让AI更接近人类的智能水平,能够更全面、更深入地理解和互动,多模态学习(Multimodal Learning)应运而生。多模态大模型(Multimodal Large Language Models, MLLMs)正是这一领域的最新突破。原创 2025-05-21 19:09:59 · 1000 阅读 · 0 评论 -
视觉基础模型
本篇专栏深入介绍了自监督学习的原理,并详细讲解了对比学习、掩码重建和自回归这三种主要方法。通过Python和PyTorch的简化示例,我们展示了这些方法在实践中的核心逻辑。自监督学习是当前AI领域最激动人心的方向之一,它解锁了利用海量未标注数据的潜力,使得AI模型能够“无师自通”地学习到强大的通用表示。这些表示是构建视觉基础模型和多模态大模型的基础,为未来的AI应用奠定了坚实的基础。原创 2025-05-21 18:40:40 · 1199 阅读 · 0 评论
分享