
大模型
文章平均质量分 72
yang_daxia
这个作者很懒,什么都没留下…
展开
-
ViT论文细节
参考:https://www.bilibili.com/video/BV15P4y137jb?纯卷积模型、纯transformer模型和先卷积,再transformer(没有patch,在16倍降采样以后就一致了)的混合模型比。数据量增大以后混合模型就和纯transformer差不多了,开始的时候混合模型是最好的,但是都比卷积模型好。其余学习到的全是全局的attention。用于代表这张图的整体特征,位置设定为0,可以学习的768维度特征,最后就是用这个特征接fc,和分类头做loss学习用的。原创 2025-01-13 15:15:21 · 384 阅读 · 0 评论 -
sam2细节解析
模型输入prompt和image,特点是多了一个memory attention,将上一帧与当前帧通过attention机制进行融合,最后经过mask decoder推理输出。memory attention先self-attent,再和之前的帧(+目标点)cross-attention,最后接一个mlp。mask decoder结构,多任务的输出,除了mask输出,还有obj ptr、iou,occlusion。对于视频,是一帧一帧的进行输出的。不是batch的并行输出。原创 2024-10-15 17:31:34 · 719 阅读 · 0 评论 -
OPENAI O1总结Learning to Reason with LLMs
OpenAI 01在编程问题(Codeforces)上排名超过89%的人,在美国数学奥林匹克(AIME)预选赛中排名前500位,在物理、生物和化学问题(GPQA)的基准上超过了人类博士水平的准确性。参考:https://openai.com/index/learning-to-reason-with-llms/通过强化学习训练,O1推理时利用思维链,可以自动找到cot策略、纠正错误、简化推理步骤、再错误时换另一个思维链。和gpt4o相比,在编程、数据分析、数学计算等大幅领先gpt4o。所以这是一个偏科生。原创 2024-09-18 11:46:38 · 874 阅读 · 0 评论 -
LangChain学习
chain可以理解成一个pipeline。构建各种各样的pipeline。原创 2024-09-04 15:31:50 · 663 阅读 · 0 评论 -
LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs论文阅读
当前的LLMs能够处理100,000个token的输入,但在难以生成超过2,000个词。实验发现模型的有效生成长度本质上受到其在监督式微调(SFT)期间所见过的样本的限制。为了解决这个问题,我们引入了AgentWrite,它将超长生成任务分解为子任务,使现成的LLMs能够生成超过20,000个词的连贯输出。利用AgentWrite,我们构建了一个包含6,000个SFT数据的LongWriter-6k数据集,输出长度范围在2k到32k个词之间。原创 2024-08-29 09:52:37 · 1227 阅读 · 0 评论 -
大模型显存计算估算
xB的大模型,训练的显存占用约为16x GB, 使用lora大概占用4xGB。(默认全精度float32存储)推理的显存占用约为4xGB。原创 2024-08-28 14:57:24 · 953 阅读 · 0 评论 -
Code Llama: Open Foundation Models for Code论文阅读
所有这些模型都是在大量代码数据上训练的,并且都经过了优化以提高在代码生成和理解任务上的性能。Code Llama - Python 专注于Python语言的代码生成,而 Code Llama - Instruct 专注于提高对自然语言指令的遵循能力,并增强了模型的安全性。基础模型 Code Llama 提供了广泛的代码生成能力,适用于多种不同的编程语言。Code Llama 发布了3款模型,包括基础模型、Python 专有模型和指令跟随模型,参数量分别为 7B、13B、34B 和 70B。原创 2024-08-26 19:36:05 · 989 阅读 · 4 评论 -
MiniCPM-V: A GPT-4V Level MLLM on Your Phone论文阅读
大模型的趋势:模型性能越来越好,模型参数变小,端边设备计算能力变强。原创 2024-08-19 16:26:27 · 1426 阅读 · 3 评论 -
论文阅读YOLO-World: Real-Time Open-Vocabulary Object Detection
RepVL-PAN由多尺度图像特征{C3, C4, C5}形成,利用了自顶向下和自底向上的路径来加强图像特征和文本特征之间的交互。模型架构:YOLO-World由YOLO检测器、文本编码器和RepVL-PAN组成,利用跨模态融合增强文本和图像表示。预训练方案:将实例注释重新定义为区域-文本对,通过大规模检测、定位和图像-文本数据进行预训练。V100上达到了52FPS!原创 2024-07-01 17:14:25 · 1575 阅读 · 0 评论 -
clip系列改进Lseg、 group ViT、ViLD、Glip、CLIPasso、CLIP4Clip、ActionCLIP
在clip后面加一个分割head,然后用分割数据集有监督训练。textencoder使用clip,frozen住。原创 2024-06-27 17:58:09 · 578 阅读 · 0 评论 -
论文阅读Vlogger: Make Your Dream A Vlog
论文介绍了一个名为“Vlogger”的通用人工智能系统,它能够根据用户的描述生成分钟级的视频博客(vlog)。与通常只有几秒钟的短视频不同,vlog通常包含复杂的故事情节和多样化的场景,这对现有的视频生成方法来说是一个挑战。剧本(Script):使用LLM根据用户故事创建剧本,描述多个拍摄场景及其相应的拍摄时长。演员(Actor):根据剧本总结角色,并使用角色设计师生成这些角色的参考图像。原创 2024-06-27 11:34:38 · 1044 阅读 · 1 评论 -
论文阅读KVQ: Kwai Video Quality Assessment for Short-form Videos
短视频格式、内容与长视频不同,需要引入新的质量评估方法。作者构建了一个新的用于质量评估的数据集,提出了新的质量评估方法。如下图所示,短视频有不同的格式、有模糊、噪声、编码等各种畸变。原创 2024-06-26 10:12:09 · 715 阅读 · 1 评论 -
论文阅读MVBench: A Comprehensive Multi-modal Video Understanding Benchmark
MVBench定义了20个视频理解任务,这些任务需要对视频的时间维度有深入理解,不能仅通过单个帧来解决。作者提出了一种从静态到动态的方法,将先前定义的静态图像任务转化为具有动态目标的视频任务,涵盖了从感知到认知的一系列时间理解技能。原创 2024-06-25 10:43:05 · 881 阅读 · 0 评论 -
大模型SFT
supervised fine-tuning的缩写,即有监督的微调。如应用到一个新的场景,就可以使用SFT。原创 2024-06-06 22:12:56 · 632 阅读 · 0 评论 -
大模型微调:Lora
原理:不改变原始大模型参数,只加入一个类似残差分支,先降纬再升纬,因为模型是过参数化的,它们有更小的内在维度,模型主要依赖于这个低的内在维度(low intrinsic dimension)去做任务适配。优势:Lora的训练参数更少。原创 2024-05-28 10:08:10 · 469 阅读 · 0 评论 -
大模型prompt技巧——思维链(Chain-of-Thought)
将问题分解为多个子问题,然后将子问题的答案加入到提示中,继续prompt,可以理解为更细化的多步step-by-step。1、Zero-shot、One-shot、Few-shot 与fintune。3、多数投票提高CoT性能——自洽性(Self-consistency)其次,思维链的应用领域是有限的。prompt的时候给出例子答案,然后再让模型回答。6、用大模型的CoT指导小模型,提升小模型的能力。多个思维链,然后取结果最多的作为最终的。5、将CoT加入fintinue中。低成本的增强已有大模型的能力。原创 2024-04-02 15:17:09 · 1638 阅读 · 0 评论