论文精选
文章平均质量分 94
经典论文阅读
Asia-Lee
技术探索,分享实践与思考!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深度解读 DeepSeek-OCR 论文:通过视觉模态实现高效文本压缩
DeepSeek-OCR 是 DeepSeek-AI 提出的用于探索视觉 2D 映射压缩长上下文可行性的视觉语言模型(VLM),由DeepEncoder(核心编码器,~380M 参数)和DeepSeek3B-MoE-A570M 解码器(激活 570M 参数)构成;其核心优势在于 DeepEncoder 通过串联窗口注意力(SAM-base)、16× 卷积压缩器与全局注意力(CLIP-large),实现高分辨率输入下的低激活内存与高压缩比,实验显示在 Fox 基准上。原创 2025-11-10 18:50:33 · 1488 阅读 · 0 评论 -
深度解读 Chinese CLIP 论文:开启中文视觉对比语言预训练
本文提出了 Chinese CLIP,这是一个专为中文设计的视觉 - 语言基础模型。构建了一个包含约 2 亿个样本的预训练数据集,并使用所提出的两阶段预训练方法对一系列 Chinese CLIP 模型进行预训练,提高了预训练的效率和效果。Chinese CLIP 在多个跨模态检索数据集上,无论是零样本学习还是微调设置下,都能达到最先进的性能,在 10 个数据集的零样本图像分类任务中,也能取得颇具竞争力的成绩。原创 2025-02-27 21:38:09 · 1826 阅读 · 0 评论 -
深度解读 CLIP 论文:从自然语言监督中学习可迁移的视觉模型
本文深度讲解对比语言 - 图像预训练(CLIP)模型,该模型通过自然语言监督学习可迁移视觉模型,在多领域展现潜力,也分析了模型的性能、局限和社会影响原创 2025-02-26 19:48:04 · 1273 阅读 · 0 评论
分享