- 博客(53)
- 收藏
- 关注

原创 支持黑神话悟空的超长视频理解,Qwen2-VL多模态大模型分享
Qwen2-VL是阿里巴巴达摩院开发的一款先进的视觉多模态人工智能模型。Qwen2-VL能够处理包括图像、视频在内的多种模态数据,这意味着它不仅能够理解静态图像,还能解析动态视频内容,为更广泛的应用场景提供了可能。Qwen2-VL模型特别针对长文本和长视频的理解进行了优化,能够处理超过20分钟的视频内容,并且对于长文本也有很好的理解能力。Qwen2-VL能够读懂不同分辨率和不同长宽比的图片,在多个视觉理解基准测试中取得了全球领先的表现,如MathVista、DocVQA、RealWorldQA、MTV
2024-09-09 06:00:00
747

原创 支持图片和视频分割,SAM2最新分割一切大模型分享
Segment Anything Model 2 (SAM2) 是由Meta公司发布的先进图像和视频分割模型。作为Segment Anything Model (SAM) 的后续产品,SAM2 展示了在图像和视频综合对象分割方面的显著进步。SAM 2支持多种类型的提示输入,如点、边界框或掩码等, 提高了用户的交互性和模型的灵活性。除了技术上的突破,SAM2的应用前景也非常广泛。例如,在医学图像分割领域,牛津大学团队发布的Medical SAM2利用SAM 2框架,针对3D医学图像分割任务进行了优化,
2024-09-06 06:00:00
618

原创 微软最新轻量级、多模态Phi-3.5-vision-instruct模型部署
Phi-3.5-vision-instruct模型是一款微软推出的Phi-3.5系列模型中集成了文本和图像处理能力的多模态AI模型。Phi-3.5-vision-instruct拥有42亿参数,并支持128K Token的上下文长度,特别适合处理复杂的多帧视觉任务。Phi-3.5-vision-instruct模型在图像理解、光学字符识别、图表与表格分析,以及视频摘要等任务中表现出色,并在MMMU、MMBench和TextVQA等基准测试中展现了优异的性能。随着多模态模型的重要性日益增加,预计Phi-
2024-09-02 06:00:00
1039

原创 最新视频合成后调优技术ExVideo模型部署
ExVideo是一种新型的视频合成模型后调优方法,其核心目标在于扩展现有视频合成模型的能力,使其能够生成更长时间的视频内容。ExVideo提出了一种新的后调优策略,使得在不对整个模型进行大规模重训的情况下,仅通过对模型中时序相关组件的微调,就能够显著增强其生成更长视频片段的能力。尽管视频长度增加,但ExVideo不会影响模型的泛化能力,即模型仍然能够生成多样化风格和分辨率的视频。ExVideo的应用场景广泛,包括影视制作、虚拟现实、社交媒体、广告行业、游戏开发、教育和培训以及数据可视化等。
2024-08-30 06:00:00
1419

原创 超越GPT4V,最强多模态MiniCPM-V2.6模型分享
MiniCPM-V2.6是由面壁智能开发的一款强大的端侧多模态人工智能模型,它被设计用于处理和理解多种类型的数据,如文本、图像和视频。MiniCPM-V 2.6模型以其卓越的token密度(即每个视觉token编码的像素数量)表现出色,处理180万像素图像时仅产生640个token,比大多数模型少75%。MiniCPM-V2.6在端侧性能上全面对标GPT-4V,这是OpenAI的多模态模型之一,意味着在单图、多图和视频理解等方面,MiniCPM-V2.6能够达到与GPT-4V相媲美的水平。尽管性能强大
2024-08-26 06:00:00
1506

原创 最新轻量级文本转语音,parler-tts模型部署
Parler-TTS是一个由 Hugging Face 推出的开源文本转语音(TTS)项目。Parler-TTS不仅提供了高保真的语音合成能力,还允许用户根据特定说话者的风格(如性别、音调、说话风格等)来定制声音,从而生成听起来更加自然和个性化的语音。虽然Parler-TTS提供了高质量的语音合成,但其设计上考虑了效率和资源消耗,使其成为一个轻量级的解决方案,适合各种应用场景。
2024-08-23 06:00:00
1315

原创 超越openai的whisper,最新语音理解大模型Qwen2-Audio模型部署
Qwen2-Audio是由阿里巴巴集团研发的一款大型音频语言模型。Qwen2-Audio应用技术包括多模态输入处理、预训练与微调、注意力机制、条件文本生成、编码器-解码器架构以及Transformer架构。Qwen2-Audio支持直接语音输入和多语言文本输出,具备语音聊天和音频分析两大功能,并支持超过8种语言,包括中文、英语、粤语、法语等。
2024-08-19 06:00:00
1849

原创 最新级联文生图技术,StableCascade模型部署
StableCascade是基于Wuerstchen架构的基于文本条件生成图像latent的扩散模型。相较于Stable Diffusion,Stable Cascade的压缩系数为42,可以将1024x1024图像编码为24x24,同时在高度压缩的latent空间中训练文本条件模型,实现了16倍的成本降低。Stable Cascade能够生成更加细腻、逼真的图像细节,无论是人物的表情、衣物的纹理还是自然景观的细微之处,都能有出色的呈现。
2024-08-16 06:00:00
1023

原创 超越sora,最强文生视频CogVideo模型落地分享
CogVideo是由智谱AI开源的视频生成模型,它是与商业版视频生成产品“清影”同源的模型。CogVideoX-2B是CogVideoX系列中的第一个模型,拥有20亿参数,支持在单张4090显卡上进行推理,推理时的显存消耗为18GB,微调时显存消耗为40GB。CogVideoX-2B通过3D VAE在空间和时间维度上压缩视频数据,实现了高压缩率和优秀的重建质量。此外,模型还包括编码器、解码器和潜在空间正则化器,通过因果卷积机制确保信息处理的连贯性和逻辑性。
2024-08-12 06:00:00
1377

原创 最新虚拟试衣框架IMAGDressing模型部署
IMAGDressing是一个交互式模块化服装生成系统,旨在为用户提供高度逼真的虚拟试衣体验。这个系统不仅能够生成高质量的服装图像,而且允许用户自由编辑服装样式、颜色以及模特的姿势和背景等元素,从而提供个性化的购物体验。结合IP-Adapter和ControlNet-Pose技术,IMAGDressing能够在短时间内生成大量的虚拟试穿图像,满足大规模商业应用的需求。未来可能将IMAGDressing与AR技术结合,让消费者在实体店内通过手机摄像头实时试穿虚拟服装,增强购物体验。
2024-08-09 06:00:00
1640

原创 最新口型同步技术EchoMimic部署
EchoMimic是一个由蚂蚁集团开发的AI项目,主要用于生成高质量的数字人像动画。这个项目特别之处在于它能够根据人像的面部特征和音频内容来帮助人物“对口型”,即让静态的照片或者图像中的角色看起来像是在说话或唱歌,生成的视频效果既稳定又自然。EchoMimic项目通过音频驱动和面部标志点驱动的结合,解决了传统方法中存在的不稳定性和不自然性的问题。EchoMimic通过深度学习模型,实现了音频和面部标志点的双重训练,生成的动画不仅在视觉上逼真,而且在语义上与音频内容高度一致。
2024-08-05 06:00:00
3535
1

原创 视频驱动数字人形象,LivePortrait最新模型分享
LivePortrait项目是由快手可灵大模型团队开发的一项创新技术,它是一个高效的视频驱动肖像动画框架,能够实现从单张静态源图像生成逼真且具有表现力的视频。LivePortrait项目通过高质量的数据采集、混合图像和视频训练策略、升级网络架构以及设计更好的运动变换和优化目标,显著提升了动画的表现力和模型的泛化能力。LivePortrait通过隐式关键点表示和轻量级多层感知器(MLP)网络,实现了对眼睛和嘴唇动作的精细控制。LivePortrait不仅适用于人像动画,还可以拓展到多人驱动、动物驱动以及
2024-08-02 06:00:00
1093

原创 个人定制化形象生成,FaceChain最新模型部署
FaceChain是由阿里巴巴达摩院推出的开源AI生成框架,专注于人物写真和个人数字形象的生成。用户只需提供一张照片,即可利用该框架生成个性化的数字形象。FaceChain-FACT是FaceChain团队推出的全新版本,它摒弃了传统的人物模型训练过程,能够直接生成zero-shot目标人像,引领AI人像生成进入了无需训练的单阶段时代。在摄影、广告、娱乐等行业,FaceChain有潜力成为一种替代传统摄影和图像编辑的服务,为客户提供快速、低成本的个性化图像制作。
2024-07-29 06:00:00
887

原创 支持4K高分辨率,PixArt-Sigma最新文生图落地经验
PixArt-Sigma是一个由华为诺亚方舟实验室联合多个研究机构共同开发的先进人工智能模型,专门用于文本到图像(Text-to-Image)的生成任务。PixArt-Sigma采用扩散变压器(Diffusion Transformer,DiT)架构,这是其能够高效生成高分辨率图像的关键。PixArt-Sigma模型使用了一种从弱到强的训练策略,即从较低质量的数据开始,逐步引入更高质量的数据,从而提高最终图像的质量。PixArt-Sigma在创意设计、广告、娱乐、教育和科研等多个领域都有广泛的应用前景
2024-07-26 06:00:00
1180

原创 媲美Midjourney-v6,Kolors最新文生图模型部署
Kolors模型是由快手团队开发的一种文本到图像生成模型。Kolors模型基于Stable Diffusion框架,在海量中英文图文对数据集上进行了训练,特别在中文理解和还原方面表现出色。Kolors模型在图像生成质量、复杂提示词理解、字符文本内容渲染等方面都有优异表现,尤其擅长生成高质量、细节清晰的人像图片。此外,Kolors在人类评估中的表现超过了现有的开源模型,并在视觉吸引力方面达到了Midjourney-v6的水平。
2024-07-22 06:00:00
1430

原创 多语言声音克隆,CosyVoice模型最强部署
CosyVoice是由阿里通义实验室开源的先进语音合成模型,它在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现出色。CosyVoice模型支持one-shot音色克隆,仅需3~10秒的原始音频即可生成模拟音色,包括韵律、情感等细节。CosyVoice采用了超过15万小时的数据训练,支持高度拟人化的语音生成,包括富语言声音事件和多情感的高拟人语音生成。CosyVoice声音复刻服务依托大模型技术进行特征提取,完成声音的复刻,无需训练过程,在个性化陪伴、教育、音视频产业和智能客服等应
2024-07-19 06:00:00
7377
1

原创 SenseVoice多语言语音理解模型之最新部署落地经验
SenseVoice是一个专注于多语言语音识别、情感辨识和音频事件检测的模型。SenseVoice经过超过40万小时的数据训练,支持超过50种语言的识别,效果在某些场景下优于Whisper模型。除了基本的语音转文本功能,SenseVoice还具备情感辨识能力,能够分析说话者的情绪状态,这对于构建更加人性化的交互系统非常重要。即使在较小的模型版本SenseVoice-Small中,也能在多数数据集上超越竞争对手,这意味着它在保持高性能的同时,还兼顾了计算资源的使用效率。
2024-07-15 06:00:00
5843
2

原创 支持多语言的MeloTTS模型最新语音合成部署分享(不看后悔)
MeloTTS是一个用于文本转语音(Text-to-Speech, TTS)的框架,它被设计成高效且可定制的,允许用户训练出具有独特音色和口音的TTS模型。MeloTTS支持英语、西班牙语、法语、中文、日语和韩语等多种语言,包括不同口音的英语。MeloTTS模型在CPU上也能实现实时语音合成,具有较快的合成速度。用户可以利用MeloTTS提供的工具和指南来训练新的TTS模型,这意味着可以创造个性化的语音合成效果,比如模仿特定人的声音或创造全新的发音风格。
2024-07-12 06:00:00
2659

原创 首个原生自训练Anole模型详细落地经验分享
Anole模型是首个开源的自回归、原生多模态大模型,它通过创新性微调,实现了文本与图像的无缝交织。Anole模型的技术创新在于其能够通过纯粹的"token"自回归预测,无需复杂的扩散模型,即可生成文字与图像的交替序列。Anole模型使用约6,000张图像数据集进行局部微调,展示了高效的学习能力。
2024-07-08 06:00:00
940
1

原创 最强终端部署的多模态MiniCPM-V模型部署分享(不看后悔)
MiniCPM-V模型是一个强大的端侧多模态大语言模型,专为高效的终端部署而设计。目前该模型有MiniCPM-V 1.0、MiniCPM-V 2.0和MiniCPM-Llama3-V 2.5版本。
2024-07-05 06:00:00
2535

原创 相比GPT-4o更懂你的情绪,blsp-emo模型最新落地经验分享
BLSP-Emo模型是一个创新的中英双语共情语音对话模型,特别是在跨语言情感理解和生成方面。该模型通过深度学习技术,特别是情感分析算法,精确识别用户言语中的情绪状态(如喜悦、悲伤、愤怒等),并能根据识别到的情绪生成相应的、富有同情心的回应。
2024-07-01 06:02:35
1482

原创 超详细的CogVLM2模型最新微调落地经验
CogVLM2模型作为智谱AI团队精心打造的新型多模态大模型,凭借其在视觉与语言理解的深度整合能力,展现了强大的跨模态处理潜力。该模型不仅在技术规格上达到了行业领先水平,支持高分辨率图像输入与超长文本处理,还在实际应用中通过微调技术展现了高度的灵活性与专业性,特别是在图像理解、视觉推理及对话系统中的卓越表现,预示着多模态AI技术迈向了一个崭新阶段。
2024-06-28 06:05:40
2109
1

原创 打赢GPT-4V之多模态模型:CogVLM2最新落地经验分享
CogVLM2通过深度学习架构创新,实现了视觉、文本、语音等多模态数据的高效融合。这种融合不仅限于基本的联合表示学习,而是深入到语义层面,使得模型能够理解复杂情境下不同模态信息的关联与交互。在多项基准测试中,CogVLM2展现出了卓越的性能,包括但不限于图像描述生成、视觉问答、图文匹配及多模态对话等任务。
2024-06-24 22:11:02
1029

原创 MuseTalk的最新唇形同步模型落地实践经验总结(不看后悔)
MuseTalk 是由腾讯音乐娱乐的 Lyra 实验室开发的一款强大的开源项目,旨在为虚拟人物提供逼真的口型动画。该项目不仅支持中文、英文和日文等多语言输入,还适用于多种应用场景,无论是短视频制作、长剧集还是教育与培训材料,都能确保高质量的唇形同步效果。
2024-06-21 09:01:54
5391
1

原创 更简易、高效的微软Edge-tts库实时详细的经验分享
Edge-tts是一个利用微软 Azure Cognitive Services 的在线文本转语音服务的 Python 库。它允许开发者在 Python 代码中使用该服务,而无需安装 Microsoft Edge 浏览器、Windows 操作系统或使用 API 密钥。这个Edge-tts库通过调用微软 Edge 浏览器的文本朗读相关 API 实现文本转语音功能,不需要本地部署模型,使用简单,声音效果好。
2024-06-17 21:57:36
3337
2

原创 超详细的glm-4微调过程和代码之最强落地经验总结
智谱AI的GLM-4系列模型是2024年推出的新一代大型语言模型,具有显著的性能提升,接近GPT-4的水平。GLM-4模型具备多项先进特性,包括强大的多模态处理能力和支持更长上下文输入的能力。微调技术对于GLM-4模型尤为重要,因为它允许模型在保留广泛知识和语言理解能力的同时,学习特定场景或行业的专业语言习惯、术语和要求。GLM-4模型提供了多种微调方法,包括LoRA、sift等轻量级微调技术,这些技术可以在不显著增加模型参数量的前提下,有效地调整模型权重以适应下游任务。
2024-06-14 20:47:18
4157
3

原创 打败GPT-4的最强开源中文大模型GLM-4终于亮相了(附:超详细搭建过程)
GLM-4是智谱AI研发的最新一代开源基座预训练大模型,与GPT-4性能比肩,尤其擅长中文处理。该模型在多个关键领域进行了升级,比如提高了上下文处理长度至128KB,加快推理速度并降低成本,增强智能特性。它在“大海捞针”测试中展现了极高的精确度,并在多模态能力上接近DALLE-3,拓宽了其在图像和语音等领域的应用范围。
2024-06-09 13:02:46
1276
2

原创 chattts最强对手-实时流库PaddleSpeech的最新落地经验总结(不看后悔)
PaddleSpeech 是由百度飞桨(PaddlePaddle)团队开发的一个开源的语音技术框架,支持音频分类、语音翻译、语音识别、语音合成、声纹识别等任务,可以做到工业级端到端的流式ASR和TTS服务。
2024-06-07 05:56:40
1982

原创 基于LLM+TTS+Lip-Sync的流式数字人的问答系统框架
本文概述了一个结合最新技术的流式数字人问答系统框架,该系统融合LLM模型以处理复杂问题并生成回答,TTS技术将文本转为自然语音,以及Lip-Sync技术同步唇形动画以实现类似真人的互动体验。关键组件包括:1) LLM模型如Mistral 7B、ChatGLM-6B等,擅长处理多样文本任务;2) TTS模型如PaddleSpeech、Parler-TTS,致力于生成流畅语音;3) Lip-Sync模型如Wav2Lip、MuseTalk,专注于唇部及面部表情的逼真同步。
2024-06-03 15:12:43
3373
原创 能同时处理视频、图像、文本和音频,多模态大模型VITA分享
VITA-MLLM,全称Visual Interactive Task AI - Multimodal Large Language Model,是由腾讯优图实验室联合南京大学、厦门大学以及中国科学院自动化研究所共同研发的首个开源多模态大语言模型。VITA-MLLM是一个基于Mixtral8×7B基础架构的扩展模型,它通过增加中文词汇量并进行双语指令微调来提升其在中文环境下的表现。不同于传统的单模态或仅能处理有限模态的语言模型,VITA-MLLM旨在成为一个能够同时处理多种类型输入信息的全能型AI系统。
2024-12-13 06:00:00
375
原创 统一多种图像生成人物的扩散模型OmniGen部署
OmniGen是一个由北京人工智能研究院的研究人员提出的专为统一图像生成而设计的新型扩散模型。OmniGen 采用了变分自动编码器(VAE)与预训练的大规模Transformer模型相结合的设计,VAE负责从输入图像中提取连续的视觉特征,而Transformer则根据这些特征及给定条件生成最终的输出图像。OmniGen可以接受自由形式的多模态交错文本和图像作为输入,使用Phi-3分词器处理文本数据,并通过VAE将图像转化为潜在表示后进一步编码成视觉标记序列。
2024-12-09 06:00:00
520
原创 金字塔流匹配视频生成模型Pyramid-Flow分享
Pyramid-Flow是一个由北京大学、快手科技和北京邮电大学的研究人员联合开发的视频生成模型。Pyramid-Flow的核心是其创新的金字塔流匹配算法,该算法能够将视频生成过程分解成多个不同分辨率的阶段,每个阶段都负责从低分辨率向高分辨率逐渐细化图像。Pyramid-Flow的另一个关键特性是它的自回归框架,框架下视频中的每一帧都是基于前一帧或历史帧的信息预测而来的,从而保证了动作的一致性和流畅性。
2024-12-06 06:00:00
379
原创 超越FLUX,最新文本到图像生成框架IterComp部署
IterComp是一个由清华大学、北京大学、LibAI Lab、中国科学技术大学、牛津大学和普林斯顿大学等多所高校的研究人员联合推出的文本到图像生成框架。IterComp框架的核心目标是通过迭代反馈学习机制来提升基础扩散模型在组合性生成任务中的表现。IterComp提出了第一个基于奖励控制的迭代组合感知框架,旨在全面提升基础扩散模型的组合性。通过精心挑选模型库并收集来自不同模型的组合生成偏好,IterComp能够有效地提取和整合这些偏好,从而生成更高质量的图像。
2024-12-01 21:42:46
398
原创 首个统一生成和判别任务的条件生成模型BiGR分享
BiGR模型是一种新型的条件图像生成模型,它通过使用紧凑的二进制潜在代码进行生成训练,以增强生成和表示能力。作为首个在同一框架内统一生成和判别任务的条件生成模型,BiGR在保持高生成质量的同时,能有效地执行视觉生成、辨别和编辑等多种视觉任务。BiGR建立在Llama主干之上,结合了掩码标记预测和二进制转码器。使用加权二进制交叉熵损失进行训练,以重建掩码标记。BiGR可以灵活地用于各种视觉应用,例如以零样本方式进行修复、去除修复、编辑、插值和丰富,而无需针对特定任务进行结构更改或参数微调。
2024-11-29 06:00:00
325
原创 Stability AI最新一代图像生成模型stable-diffusion-3.5-large分享
stable-diffusion-3.5-large是由 Stability AI开发的最新一代图像生成模型。stable-diffusion-3.5-large模型拥有80亿个参数,能够生成高达百万像素级别的高分辨率图片,直接输出专业级别的图像。stable-diffusion-3.5-large提供了丰富的定制选项,用户可以对模型进行微调、使用LoRA优化,以及进一步开发特定的工作流程。
2024-11-25 21:04:17
522
原创 原生多模态世界模型Emu3分享
Emu3是由北京智源人工智能研究院推出的一款原生多模态世界模型。Emu3模型的特点在于它能够处理和理解多种类型的数据,包括文本、图像以及视频,并且在这些不同模态之间实现统一的输入和输出。Emu3的核心是下一个token预测,属于一种自回归方法,模型被训练预测序列中的下一个元素,无论是文本、图像还是视频。为了处理大规模的数据集,Emu3采用了张量并行、上下文并行和数据并行相结合的方法,以便有效地利用计算资源。
2024-11-22 06:00:00
428
原创 支持高达20s的文生视频,书生·筑梦Vchitect2.0模型分享
Vchitect2.0,也称为书生·筑梦2.0,是由上海人工智能实验室推出的一款新一代视频生成大模型。Vchitect2.0模型集成了文生视频、图生视频、插帧超分、训练系统一体化的功能,支持长达5秒至20秒的视频生成,分辨率可达到720x480。Vchitect 2.0还支持多种视频格式,包括横屏、竖屏、4:3、9:16和16:9等比例,极大地扩展了其应用场景。
2024-11-18 06:00:00
403
原创 最新集成视频、图像、语言理解和生成的多模态模型VILA-U分享
VILA-U是一个由清华大学、麻省理工学院和英伟达联合推出的统一多模态基础模型。VILA-U能够同时处理视频、图像和文本数据,打破了传统视觉语言模型中理解和生成功能分离带来的限制。VILA-U采用了自回归Transformer架构,能够处理离散化的标记,并且由几个核心组件构成:视觉编码器、语言模型以及投影仪,这些组件共同工作以桥接视觉和文本两种模态的嵌入。VILA-U通过预训练期间将离散视觉标记与文本输入对齐,并利用自回归图像生成技术,在高质量数据集上可以实现与扩散模型相媲美的图像质量。
2024-11-15 06:00:00
359
原创 腾讯首个3D生成大模型Hunyuan3D-1.0分享
Hunyuan3D-1.0是腾讯混元团队开发的首个同时支持文字、图像转3D的大模型,可以基于文本描述或单张图像生成3D模型。Hunyuan3D-1.0采用了多视图生成和多视图重建两阶段的方法,能够从不同视角捕捉对象的纹理和几何信息。在多视图生成阶段,Hunyuan3D-1.0模型采用自适应CFG技术,为不同视角和时间步设置不同的CFG尺度值,以平衡生成控制和多样性。
2024-11-11 06:00:00
1080
原创 Meta AI最新推出的长视频语言理解多模态模型LongVU分享
LongVU是由Meta AI团队推出的一种专注于长视频语言理解的多模态模型。LongVU的架构设计包括使用DINOv2技术去除冗余帧,融合剩余帧的特征,通过跨模态查询选择性地减少视觉标记,根据时间依赖关系进行空间标记压缩,以进一步适应大型语言模型的有限上下文长度。LongVU利用基于文本引导的跨模态查询来选择性地减少视频帧的特征,能保留与文本查询最相关的帧的详细信息,将其他帧减少到低分辨率的标记表示。
2024-11-08 06:00:00
506
一个Delphi的示例代码
2024-06-30
一个acm比赛的c++代码
2024-06-30
一个后端开发的c++代码
2024-06-30
一个sql的示例代码案例
2024-06-30
一个visualbasic的示例代码
2024-06-30
网络安全示例的python代码
2024-06-30
; Hello.asm ; 一个简单的DOS环境下的汇编程序,用于显示"Hello, World!" ; 汇编器指令,定义使用
2024-06-30
基础的离散PID控制器
2024-06-22
Python爬虫示例代码
2024-06-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人