自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 收藏
  • 关注

原创 DyT:何凯明LeCun联手,删除归一化层,性能不减速度反升!

DyT的提出具有重要的贡献和意义。首先,它提供了一种简单而有效的归一化层替代方案。传统的归一化层如Layer Normalization虽然在稳定训练和提升模型性能方面发挥了重要作用,但计算过程相对复杂,需要计算输入数据的均值和方差。DyT通过简单的α缩放和tanh函数操作,避免了这些复杂的计算,从而显著提高了训练和推理的效率。其次,DyT在多种任务和模型架构中表现出色。实验结果表明,使用DyT的模型在视觉、语言、语音等多个领域的任务中,都能达到甚至超过传统归一化层的性能,且几乎不需要调整超参数。

2025-03-26 20:29:34 732

原创 VideoGrain:ICLR2025收录,无需训练,实现细粒度多层次视频编辑

提出了一种名为 VideoGrain 的零样本方法,用于实现多粒度视频编辑。该方法通过调节空间-时间注意力机制,为多粒度视频编辑提供了一种有效的解决方案。它不仅能够实现对视频内容的精确控制,还能够保持视频的原始结构和连贯性。这一方法为视频编辑领域带来了新的可能性,尤其是在需要对视频进行细粒度控制的应用场景中。

2025-03-26 20:24:13 802

原创 YOLOv12:首个以Attention为核心的YOLO框架问世!性能与速度的再次提升!(论文代码详解)

YOLOv12论文代码详解

2025-03-09 22:12:37 1060

原创 Java零基础入门笔记:多线程

本笔记是学习狂神的java教程,建议配合视频,学习体验更佳。

2025-03-09 22:09:46 788

原创 Java零基础入门笔记:(7)异常

本笔记是学习狂神的java教程,建议配合视频,学习体验更佳。

2025-03-02 17:18:17 646

原创 Java零基础入门笔记:(6)面向对象

本笔记是学习狂神的java教程,建议配合视频,学习体验更佳。

2025-03-02 17:04:37 972

原创 Java零基础入门笔记:(5)数组

本笔记是学习狂神的java教程,建议配合视频,学习体验更佳。

2025-02-24 16:25:02 960

原创 Qwen2.5-VL技术报告:多模态大模型的新SOTA!视觉理解能力全面超越GPT-4o

Qwen2.5-VL,这是一个最先进的视觉语言模型系列,在多模态理解和交互方面取得了重大进展。Qwen2.5-VL增强了视觉识别、对象定位、文档解析和长视频理解能力,在静态和动态任务中都表现出色。其原生的动态分辨率处理和绝对时间编码能够稳健地处理各种输入,而Window Attention在不牺牲分辨率保真度的情况下降低了计算开销。Qwen2.5-VL迎合了从边缘AI到高性能计算的广泛应用。

2025-02-24 16:24:30 1766

原创 MoBA:kimi团队发布超强注意力方法,让大模型的上下文理解长度突破10M!

本文介绍了一种名为 Mixture of Block Attention (MoBA) 的新型注意力机制,旨在解决大规模语言模型(LLMs)在处理长序列时面临的计算复杂度问题。MoBA作为一种创新的注意力机制,为解决大规模语言模型在处理长序列时的计算瓶颈提供了一种新的思路。

2025-02-22 14:30:07 887

原创 原生稀疏注意力:Deepseek又一重磅开源!实现高效的大模型超长文本建模!

这篇论文介绍了一种名为NSA(Native Sparse Attention)的新型稀疏注意力机制,旨在解决长文本建模中标准注意力机制计算成本高昂的问题。NSA通过结合算法创新和硬件优化,实现了高效的长文本建模,同时保持了模型的性能。NSA作为一种硬件对齐的稀疏注意力架构,通过分层的稀疏策略和可训练的设计,在保持全注意力性能的同时,显著降低了计算成本,为长文本建模提供了一种高效且实用的解决方案。

2025-02-22 14:27:58 1134

原创 Step-Video-T2V:阶跃星辰发布最强开源视频生成模型(论文详解)

本技术报告介绍并开源Step-Video-T2 V,这是一种最先进的预训练文本视频生成模型,具有30 B参数,深度压缩的Video-VAE,用于视频生成的DPO方法,以及生成长度高达204帧视频的能力。作者全面概述了预训练和后训练策略,并介绍了Step-Video-T2 V-Eval作为评估文本到视频生成模型的新基准。当前文本到视频模型仍然面临巨大的挑战。首先,高质量的标记数据仍然是一个重大障碍。现有的视频字幕模型经常与幻觉问题作斗争,并且人类注释昂贵且难以扩展。

2025-02-18 21:34:53 2591 1

原创 Java零基础入门笔记:(4)方法

本笔记是学习狂神的java教程,建议配合视频,学习体验更佳。

2025-02-18 21:33:28 899

原创 Java零基础入门笔记:(3)程序控制

本笔记是学习狂神的java教程,建议配合视频,学习体验更佳。

2025-02-17 21:17:20 1059

原创 Java零基础入门笔记:(1-2)入门(简介、基础知识)

本笔记是学习狂神的java教程,建议配合视频,学习体验更佳。

2025-02-17 21:14:37 996

原创 s1:李飞飞团队新作,仅使用1000条数据训练,达到o1水平!

本文提出了一种名为“简单测试时扩展”(Simple Test-time Scaling)的方法,旨在通过在测试阶段增加计算资源来提升语言模型的推理性能。该方法的核心是通过少量数据的监督微调(Supervised Fine-Tuning, SFT)和一种称为“预算强制”(Budget Forcing)的技术来控制模型在推理过程中的思考时间,从而实现性能的显著提升。研究团队通过精心策划的数据集s1K,仅包含1000个经过严格筛选的问题及其推理路径,来训练他们的模型s1-32B。

2025-02-07 20:18:12 1446

原创 Open-R1:Deepseek-R1复现项目(包含SFT阶段、GRPO阶段代码详解)

DeepSeek-R1的意义在于其通过创新的训练方法和技术突破,为大型语言模型(LLMs)在推理能力、训练效率和成本控制等方面树立了新的标杆。其采用的多阶段训练策略,结合冷启动数据微调、强化学习(RL)和监督微调(SFT),不仅显著提升了模型在复杂推理任务中的表现,还解决了传统单阶段训练方法难以克服的挑战。DeepSeek-R1的训练过程证明了强化学习可以有效提升模型的推理能力,同时其创新的GRPO算法大幅降低了训练成本,使得高性能推理模型的开发更加高效和经济。

2025-02-07 18:22:49 6028

原创 人工智能入门课【手写自注意力机制】

总的来说,自注意力机制是一种强大的神经网络架构组件,用于动态地衡量输入序列中不同位置之间的关联程度。它通过计算查询(Query)、键(Key)和值(Value)之间的点积,生成注意力权重,再利用这些权重对值进行加权求和,从而实现对输入数据的全局信息捕捉。这种机制允许模型在处理每个元素时,同时考虑整个序列的信息,有效解决了传统序列模型难以捕捉长距离依赖的问题。自注意力机制的核心优势在于其并行计算能力和对全局信息的高效利用,使其在自然语言处理和计算机视觉等领域得到了广泛应用。

2025-02-01 20:21:12 1129

原创 Janus-Pro:Deepseek又一强力之作,统一多模态理解与生成!(包含论文代码详解)

本文介绍了 Janus-Pro,这是 Janus 模型的高级版本,通过优化训练策略、扩展训练数据和扩大模型规模,显著提升了多模态理解和文本到图像生成的能力。Janus-Pro 在多模态理解基准测试中超越了现有的先进模型,并在文本到图像指令遵循任务中表现出色。代码和模型已公开。方法1. 架构设计Janus-Pro 的架构与 Janus 保持一致,核心是将多模态理解任务和视觉生成任务的视觉编码进行解耦。对于多模态理解任务,使用 SigLIP 编码器提取图像的高维语义特征;

2025-02-01 12:19:41 1823 1

原创 DeepseekMath:超强开源数学模型(论文详解)

在本研究中,作者引入了DeepSeekMath,这是一个特定于领域的语言模型,它的数学性能显著优于开源模型,在学术基准测试中接近GPT-4的性能水平。为了实现这一目标,作者创建了DeepSeekMath语料库,这是一个包含120 B个数学标记的大规模高质量预训练语料库。在初始迭代中,使用OpenWebMath中的实例来训练分类器作为正面例子,同时纳入了其他网页的多样化选择作为负面例子。随后,使用基于fastText的分类器从Common Crawl中挖掘额外的正实例,这些正实例通过人工标注进一步细化。

2025-01-28 11:47:50 4037

原创 qwen2.5-vl:阿里开源超强多模态大模型(包含使用方法、微调方法介绍)

Qwen2.5-VL是由阿里巴巴通义千问团队推出的一款开源视觉语言模型,它在视觉理解、多模态交互以及自动化任务执行等方面展现出卓越的能力。该模型不仅能够识别常见的物体,如花卉、鸟类、鱼类、昆虫等,还能深入分析图像中的文本、图表、图标、图形和布局,其通用图像识别能力得到了显著增强,大幅扩展了可识别的图像类别范围。

2025-01-28 11:45:43 24807 15

原创 Deepseek-R1:纯强化学习实现接近OpenAI o1水平(论文解读)

最近,post-training已成为大模型训练的一个重要组成部分。它可以提高推理任务的准确性,并适应用户的偏好,同时相对于预训练,它只需要相对最少的计算资源。在推理能力方面,OpenAI的o 1系列模型是第一个通过增加思维链推理过程的长度来引入推理时间缩放的模型。这种方法在数学、编码和科学推理等各种推理任务中取得了显著的改进。然而,有效的测试时间缩放的挑战仍然是一个开放的问题。一些先前的工作已经探索了各种方法,包括基于过程的奖励模型、强化学习,以及诸如蒙特卡罗树搜索和波束搜索。

2025-01-23 14:17:46 7535

原创 Kimi-k1.5:全新SOTA模型,追平满血OpenAI-o1!(论文解读)

1 月 20 日,月之暗面推出 Kimi 全新 SOTA 模型 ——k1.5 多模态思考模型,其实现了 SOTA (state-of-the-art)级别的多模态推理和通用推理能力。官方表示,在 short-CoT 模式下,Kimi k1.5 的数学、代码、视觉多模态和通用能力大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,领先达到 550%。在这篇报告中,作者介绍了最新的多模态LLM Kimi k1.5的训练方法,它是用强化学习(RL)训练的。

2025-01-23 14:16:10 1740

原创 LeDeCo:AI自动化排版、设计、美化海报

这篇文章的核心内容是介绍了一种名为LaDeCo的新型自动图形设计构图方法。LaDeCo通过将大型多模态模型(LMMs)与分层设计原则相结合,能够将多模态图形元素自动组合成一个整体、平衡且美观的图形设计。

2025-01-16 22:32:41 1604

原创 Lora综述:全面系统的理解lora微调

LoRA作为一种新兴的大型语言模型微调技术,近年来在各大领域备受注。本文综述了LoRA技术的多方面内容。首先深入剖析了LoRA的原理,接着详细回顾了LoRA的发展历程。此外,对LoRA的应用情况进行了广泛梳理,凸显了LoRA相较于传统微调方法的优势。同时,探讨了LoRA与其他微调技术的结合应用,进一步拓展了其应用边界和性能潜力。最后,对LoRA技术面临的挑战进行了分析,并展望了未来的发展方向。本文旨在为后续研究提供有价值的参考和启示,推动LoRA技术在大型语言模型微调领域的持续发展与创新。

2025-01-16 21:13:20 3340

原创 Cosmos:英伟达发布世界基础模型,为机器人及自动驾驶开发加速!

本文介绍了Cosmos World Foundation Model Platform,这是一个旨在帮助开发者构建定制化世界模型以推进物理AI系统发展的平台。物理AI系统通过配备传感器和执行器,能够观察和交互现实世界,如自动驾驶汽车。研究者们提出了一个世界基础模型(WFM),这是一个物理世界的数字孪生模型,物理AI可以与之安全地交互。WFM作为解决方案,帮助开发者解决数据扩展问题,加速物理AI技术的发展。

2025-01-15 21:51:05 1491

原创 类o1系列模型大盘点:QwQ、Deepseek-R1、Marco-o1、Huatuo-o1、GLM-Zero...

OpenAI的o1模型代表了人工智能领域在推理能力方面的一个重要进步。本文将盘点几个具有代表性的类o1工作:包括OpenAI o1、来自阿里巴巴团队的QwQ、QVQ、Marco-o1、和Deepseek团队的R1、以及智谱团队的GLM-Zero、还有增强LLaVA性能的LLaVA-CoT,以及面向医学大模型的Huatuo-o1、来自微信团队的DRT-o1等。

2025-01-04 17:39:23 6144

原创 CosyVoice2:阿里开源语音合成模型,模仿、生成、细粒度控制,全部拿下!(附使用方法、论文代码详解)

CosyVoice 2是由阿里巴巴集团开发的先进流式语音合成模型,它不仅继承了前代模型的优秀基因,更通过一系列创新性的技术优化,实现了在保持极低延迟的同时,生成质量几乎与人类发音无异的语音。CosyVoice 2模型的核心优势在于其能够提供接近人类发音自然度的合成语音。

2024-12-31 17:46:44 8135 1

原创 DeepSeek-v3:开源大模型新高度,最强性能,最高性价比!(论文详解)

DeepSeek-V3是一个具有671B参数的大型Mixture-of-Experts语言模型,采用Multi-head Latent Attention和DeepSeekMoE架构以提高训练效率和推理性能。模型通过无辅助损失的负载平衡策略和多token预测训练目标优化,预训练于14.8万亿tokens,并经过监督微调和强化学习以提升性能。DeepSeek-V3在多个基准测试中表现优异,尤其在代码和数学任务上,与顶尖闭源模型媲美,而训练成本仅为2.788M H800 GPU小时。

2024-12-29 21:13:03 15191

原创 ColorFlow:基于检索增强的黑白漫画上色模型(包含论文代码详解)

这篇文章介绍了一个名为ColorFlow的先进模型,它专门设计用于给黑白图像序列上色,同时精确保持人物和对象的身份特征。ColorFlow模型的意义在于它能够利用参考图像中的颜色信息,为漫画、动画制作和黑白电影着色等任务提供强大的技术支持。这项技术的应用不仅能够提高内容创作的效率,还能够增强最终作品的艺术表现力和观众的沉浸感,为艺术产业带来创新和活力。通过这项工作,ColorFlow框架不仅提升了艺术作品的创作效率和质量,而且扩展了艺术创作的边界,为艺术产业的数字化转型和创新发展注入了新的活力。目录。

2024-12-22 20:44:04 1141

原创 DiffSense:强大的漫画生成模型,一键生成漫画!(包含使用教程及论文代码分析)

本文介绍了DiffSensei,用于定制化漫画生成的AI模型。DiffSensei能够理解文本提示,动态调整角色特征和布局,创造出既符合描述又具有视觉吸引力的漫画内容。

2024-12-19 22:31:29 1838

原创 VAR:视觉生成新范式,投毒风波难掩NeurIPS2024最佳论文!(包含论文代码详解)

Visual AutoRegressive modeling (VAR),这是一种新一代范式,与标准光栅扫描“next-token预测”不同,它将图像上的自回归学习重新定义为从粗到细的“下一尺度预测”或“下一分辨率预测”。VAR首次使GPT风格的AR模型在图像生成方面超过DiT。除此之外,VAR还延续了LLM的两个重要特性:Scaling Laws and zero-shot泛化。

2024-12-16 22:03:36 1625 1

原创 Hunyuan-video:混元视频生成模型,开源最强视频生成模型(包含论文代码详解)

缩小闭源和开源视频基础模型之间的差距,加速社区探索。”——混元团队Hunyuan-Video是由腾讯推出的一款高质量的中文通用视频生成模型,它以其卓越的性能和开源的特性,成为了目前开源视频生成基座模型中的佼佼者。该模型支持中文输入提示(Prompt),采用了图像-视频联合训练策略,并通过一系列精细的数据过滤技术,确保了视频的技术质量和审美吸引力。Hunyuan-Video的开源,为视频内容创作者、研究人员和开发者提供了一个强大的工具,以实现更高效、更高质量的视频生成,推动了AI视频技术的发展。

2024-12-10 22:09:17 10843 1

原创 IC-Light:ICLR2025满分论文,ControlNet作者新作,控制光照,更自然地融合图片!

在这篇博客中,我们深入探讨了IC-Light技术,这是一种突破性的图像照明操控方法。IC-Light通过精确捕捉背景图中的光照信息,并重新调整图像主体的光照,实现了对图像照明的精细控制。它不仅能够随意控制照片中的光源和背景,还能迅速将主体、光源和背景三者融合在一起,创造出自然而逼真的图像效果。这项技术的应用,不仅提升了图像编辑的灵活性和效率,还极大地丰富了视觉效果的可能性,为图像处理领域带来了新的视角和工具。

2024-12-05 21:47:09 2642

原创 MagicQuill:结合大模型和扩散模型的图像编辑神器

MagicQuill是一个先进的智能互动图像编辑系统,它通过结合强大的扩散模型和多模态大型语言模型(MLLM),提供了一个既强大又易于使用的图像编辑平台,使得即使是非专业人士也能轻松进行高质量的图像编辑。

2024-12-02 22:21:44 1412

原创 混元大模型:腾讯开源的目前最大的MoE模型(论文代码详解)

最近,腾讯的Hunyuan团队推出了一款名为Hunyuan-Large的开源模型,这是一款基于Transformer的Mixture of Experts(MoE)模型,拥有惊人的3890亿参数和52亿激活参数,能够处理高达256K的token。这篇文章详细介绍了Hunyuan-Large的设计、性能和开源细节,它在多个基准测试中表现出色,包括语言理解和生成、逻辑推理、数学问题解决、编程、长文本处理和聚合任务等。

2024-11-25 17:23:05 2922 3

原创 HPT:何凯明新作!解决智能体异构问题(包含论文代码详解)

在这篇博客中,我们介绍了异构预训练Transformer(HPT)模型,这是由MIT和Meta FAIR团队开发的机器人学习领域的一个突破。HPT解决了机器人学习中的异构性问题,通过预训练一个共享的神经网络主干来学习通用的表示,使模型能够跨机器人硬件和任务迁移和泛化。这一创新减少了对特定任务数据的需求,并在真实与模拟环境中展现了优异的性能,预示着机器人技术在智能化和自主化方面的广阔前景。

2024-11-22 20:40:54 1283

原创 Video-LLM:根据视频进行实时互动的创新模型(包含论文代码详解)

VideoLLM-online,这是一个突破性的模型,它通过实时处理视频流并进行交互式对话,为流媒体视频交互带来了革命性的进步。这个模型不仅能够理解视频中的视觉内容,还能够在视频播放的同时提供实时的语言反馈,这为后续实现人工智能助手提供了无限可能

2024-11-22 20:18:27 2627 2

原创 Vllm进行Qwen2-vl部署(包含单卡多卡部署及爬虫请求)

使用vLLM部署Qwen2-VL,包含单卡部署、多卡部署、爬虫requests发送请求

2024-11-01 17:25:02 12613 15

原创 Emu-3:多模态理解与生成的统一模型(包含论文代码解析)

emu3,这是一系列新的多模态模型,通过next-token进行多模态生成和理解。通过将图像、文本和视频标记到一个离散空间中,并从头训练单个Transformer,Emu 3不仅消除了对扩散和合成方法的依赖,而且还超越了SDXL和LLaVA-1.6等已建立的特定任务模型的性能。这篇论文的研究结果提供了令人信服的证据,表明Next-token可以作为多模态模型的强大范例,超越其他类型的模型,并在各种任务中提供最先进的性能,包括具有挑战性的视频生成。

2024-10-31 15:46:49 3062 2

原创 LLaVA-1.5:强大的多模态大模型(包含论文代码详解)

LLaVA,这个大型语言和视觉助手,以其卓越的多模态能力在人工智能领域脱颖而出。它不仅集成了视觉编码器和语言模型,还通过端到端训练的方式,实现了对视觉和语言信息的深度融合与理解,这在多模态交互领域是一个巨大的飞跃。LLaVA的核心优势在于其能够处理和理解复杂的视觉和语言数据,提供更为精准和丰富的信息处理能力。它的设计允许模型在保持高性能的同时,对高分辨率图像进行有效处理,这一点在LLaVA-1.5-HD版本中得到了显著的提升。

2024-10-30 20:53:07 7914 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除