
生成式AI
文章平均质量分 88
生成式AI(Generative AI)是一种人工智能技术,其目标是通过学习数据的分布模式来生成新的数据。这类算法能够模仿、创造出看似真实的数据,包括图像、文本、音频等。
快乐小码农
热爱生活,热爱技术,做一个有态度的四有“中年人”。关注科技进步,聚焦人工智能领域的前沿研究:经典AI、NLP、机器学习、数据挖掘、推荐系统等相关技术。人生不易,勇往直前,分享生活中的小确幸。
展开
-
最新大模型:香港多所高校推出多模态大模型Lyra!IBM发布Granite3.1模型!
这是一组轻量级、先进的开源基础模型,支持多语言、代码生成、推理和工具使用,能够在有限的计算资源上运行。提供12 种不同语言的多语言支持:英语、德语、西班牙语、法语、日语、葡萄牙语、阿拉伯语、捷克语、意大利语、韩语、荷兰语和中文。的极小尺寸和快速生成能力使其非常适合在移动设备上应用,可以用于各种需要高分辨率图像生成的场景,如图像编辑、视频创建等。在各种视觉-语言、视觉-语音和语音-语言基准测试中取得了 SOTA 的性能,同时还使用了更少的计算资源和训练数据。原创 2025-01-06 10:31:17 · 956 阅读 · 0 评论 -
最新开源:Meta 开源 Llama 3.3:更小规模、更高性能!谷歌新一代视觉语言模型PaliGemma 2!
对硬件资源的要求大幅降低。(Vision Tower):基于 Siglip Vision Transformer,它通过将图像分割为 14×14 的小块(称为图像 patch),并为每块生成特定的嵌入(embedding),最终提取图像的整体语义。的表现超过了谷歌的 Gemini 1.5 Pro、OpenAI 的 GPT-4o 和亚马逊的 Nova Pro,展现出了强大的竞争力。技术,通过整合分组查询注意力(GQA)机制,Llama 3.3 提升了推理时的可扩展性和性能,进一步优化了模型的应用能力。原创 2024-12-10 16:32:17 · 7716 阅读 · 0 评论 -
NeurIPS 2024 最佳论文揭晓!北大、字节跳动「VAR模型」获最佳论文!
在符合直觉的同时,这样的自回归算法带来了很好的效果:VAR 显著提升了自回归模型的速度和生成质量,在多方面使得自回归模型首次超越扩散模型。与传统的按像素或token顺序生成图像的方法不同,VAR 模型通过从低到高分辨的多尺度 token 图进行自回归生成,每一尺度的token图都依赖于前一尺度的结果。此外,在对 80B 个通用 token 进行持续预训练时,RHO-1 在 15 个不同任务上实现了 6.8% 的平均提升,数据效率和语言模型预训练的性能都得到了提升。原创 2024-12-10 09:33:47 · 2052 阅读 · 0 评论 -
最新开源:边缘设备优化的多模态模型Omnivision!通义灵码团队开源Lingma SWE-GPT!DeepSeek开源统一多模态框架JanusFlow!
图:Table 1 展示了 Lingma SWE-GPT(7B 和 72B)与各种最先进模型在 SWE-bench Verified 和 SWE-bench Lite 上的综合表现。基于 Qwen 系列基础模型,Lingma SWE-GPT 通过软件工程开发过程数据的额外训练,增强了其解决复杂软件工程任务的能力。基准结果表明,JanusFlow 在 MMBench、SeedBench 和 GQA 上的得分分别为74.9、70.5和60.3,表现优于许多现有的统一模型。原创 2024-11-16 15:29:08 · 1481 阅读 · 0 评论 -
最新开源:腾讯再开源两款最新大模型!SAM2Long来了,无需训练大幅提升SAM 2!
公开测评结果显示,Hunyuan-Large 在CMMLU、MMLU、C-Eval、MATH等多学科综合评测集上表现优异,在中英文自然语言处理、代码生成、数学运算等9大能力维度中全面领先,超过 Llama3.1、Mixtral 等一流开源模型。然而,尽管 SAM 2 已经具备出色的性能,但仍有其局限性,例如对不同场景的适应能力不足。11月5日,在腾讯混元大模型媒体沟通会上,腾讯混元宣布最新的MoE模型 “混元Large” 以及混元3D生成大模型 “Hunyuan3D-1.0” 正式开源。原创 2024-11-14 14:38:50 · 1001 阅读 · 0 评论 -
2024 人工智能全景报告《State of AI Report 2024》出炉!
10月10日,我们迎来了2024年的《人工智能全景报告》(《State of AI Report 2024》),该报告已连续七年发布,成为AI行业流行的风向标。报告链接:https://docs.google.com/presentation/d/1GmZmoWOa2O92BPrncRcTKa15xvQGhq7g4I4hJSNlC0M/edit?原创 2024-11-13 17:54:04 · 3693 阅读 · 0 评论 -
最新开源:最强表格AI问世,浙大开源TableGPT2!
项目提供了不同 tokenizer 的推理代码和预训练模型,能够实现高达 2048 倍的总压缩率,同时保持较高的图像质量,并比现有的最先进方法快 12 倍。这些开源模型的性能大大超过了 GPT-4-Turbo(17.6%)和 GPT-4o(13.9%),也超过了之前在开源 LLM 上训练的 SOTA Web Agent(AutoWebGLM,18.2%)。最近,英伟达发布了新的视觉压缩工具——Cosmos Tokenizer,它能帮助我们在保持图像和视频高质量效果的同时实现显著的压缩率。原创 2024-11-13 17:32:12 · 1150 阅读 · 0 评论 -
最新开源:开源软件Gradio上新5大功能!字节跳动发布 GR-2 机器人大模型!全新三维生成模型3DTopia-XL!
近年来,3D资产生成技术经历了诸多突破,从游戏开发到虚拟现实、影视制作,3D内容需求的快速增长正催生着更加高效且智能化的生成工具。在预训练阶段,GR-2“观看”了多达 3800 万个来自各类公开数据集的互联网视频以及 500 亿个 tokens,涵盖了家庭、户外、办公室等多种日常场景,让 GR-2 具备在后续策略学习中跨越广泛机器人任务和环境的泛化能力。此外,GR-2 在新颖、之前未见的场景中表现出色的泛化能力,包括新的背景、环境、物体和任务。和许多大模型一样,GR-2 的训练包括预训练和微调两个过程。原创 2024-10-12 14:35:11 · 1313 阅读 · 0 评论 -
最新开源:智源BGE登顶Hugging Face月度榜!北大&快手开源Pyramid Flow!Rhymes AI发布首款开源多模态AI模型Aria!
BGE 不仅性能综合卓越,多次大幅刷新 BEIR、MTEB、C-MTEB 等领域内主流评测榜单,而且始终秉持彻底的开源开放的精神,“模型、代码、数据” 向社区完全公开。经过训练,Pixtral-12B 既能理解自然图像,也能理解文档,在各种多模态基准测试中取得了领先的性能,超越了许多大模型。在训练方面,Rhymes AI 共分为四个阶段,先用文本数据进行预训练,再引入多模态数据,接着是长序列的训练,最后进行微调。在短短一年时间内,总下载量已超数亿次,是目前下载量最多的国产AI系列模型。原创 2024-10-12 14:24:43 · 1034 阅读 · 0 评论 -
最新综述:多模态引导的基于文生图大模型的图像编辑算法
近期,复旦大学 FVL 实验室和南洋理工大学的研究人员对于多模态引导的基于文生图(Text-to-Image,T2I)大模型的图像编辑算法进行了总结和回顾。综述涵盖 300 多篇相关研究,调研的最新模型截止至今年 6 月。图2.综述框架旨在根据用户的特定需求编辑给定的合成图像或真实图像。作为人工智能生成内容(AIGC)领域中一个有前景且具有挑战性的领域,得到了广泛研究。近期,大规模文生图(T2I)扩散模型驱动了技术的发展。这些模型根据文本提示生成图像,展示了惊人的生成能力,已成为的常用工具。原创 2024-07-09 10:20:50 · 1607 阅读 · 0 评论 -
ChatTTS:对话式文本转语音模型,开源啦!突破开源语音天花板...
最近,一个名为 ChatTTS 文本转语音项目爆火出圈,短短三天时间,在 GitHub 上已经斩获了 9.2 k 的 Star 量。ChatTTS:对话式文本转语音模型项目地址:https://github.com/2noise/ChatTTS/tree/main体验地址:https://huggingface.co/2Noise/ChatTTSChatTTS 是专门为对话场景设计的文本到语音 TTS 模型。它支持中文和英语,包括中英混合模式。原创 2024-06-04 15:12:51 · 1432 阅读 · 2 评论 -
2023人工智能全景报告《State of AI Report》出炉!AI未来一年的10大预测:GPT-4仍是全球最强,GenAI 大爆发,...
然而,Meta 高举开源AI的旗帜,先后发布开源大模型 Llama、Llama2,选择向公众开放模型权重等技术细节,掀起了一场开放竞争的大语言模型竞赛,并形成了开源与专有大模型之间的抗衡。OpenAI 公布了的 GPT-4 技术报告,可参考的内容非常有限,几乎没有发布什么有价值的信息,Google的 PaLM 2 技术报告亦是如此,而 Anthropic 直接选择不发布 Claude 和 Claude 2 的技术报告。虽然专有闭源模型最受关注,但人们对开源且允许商业用途的 LLM 的兴趣在增加。原创 2023-10-19 13:01:04 · 1036 阅读 · 0 评论 -
再炸AI绘图圈:2秒文成图,最快的移动端Stable Diffusion模型;Stability AI推出Uncrop Clipdrop更新一键扩图
(2)推理步数上的优化:众所周知,扩散模型在推理时是一个迭代的去噪过程,迭代的步数越多,生成图片的质量越高,但时间代价也随着迭代步数线性增加。起初,AI 作图需要几天,再缩减到几十分钟,再到几分钟,出图时间在不断加速,问题是,究竟快到什么程度,才会在专业的美术从业者甚至普通大众之间普及开来?比如横图变竖图,竖图变横图等。(1)UNet 结构上的优化:通过分析原有 UNet 的速度瓶颈,本文提出一套 UNet 结构自动评估、进化流程,得到了更为高效的 UNet 结构(称为 Efficient UNet)。原创 2023-07-06 12:19:10 · 1216 阅读 · 0 评论 -
杠上了,AI绘画圈激烈开战,Midjourney 和 Stable Diffusion 双双更新!
Midjourney V5版本,5月迎来了一个小版本更新:V5.1就很让人惊喜了。和之前的版本相比,V5.1更具主观性,短提示也容易多,还加了一个“无主观性”模式(RAW Mode)。相比V5.0,V5.1表现出更高的连贯性、对文本提示更加精确、边框或文本残留物更少、改善了锐度。6月23日,Midjourney 推出了最新 Midjourney 5.2 版本,此次主要的更新的引入了“Zoom out”功能。原创 2023-07-06 10:44:44 · 367 阅读 · 0 评论 -
OpenAI网站突破10亿月活,收割「大模型代码生成排行榜」第一第二名!
如下表所示,GPT-4 的表现优于其他 LLMs,包括 text-davincit-003 (ChatGPT的基础模型) 和其他专门在code、code-davinci-002 和 CODEGEN-16B [NPH+22]上训练的模型。在GPT-4的技术报告《GPT-4 Technical Report》一文中,GPT-4 在 HumanEval 上的pass@1准确率(衡量了模型在第一次尝试中是否产生了正确的解决方案)是67%,而Plappert的测试则达到了73%。原创 2023-07-06 10:37:52 · 344 阅读 · 0 评论 -
ChatGPT的平替来了?一文总结 ChatGPT 的开源平替,你值得拥有
2023 年,聊天机器人领域似乎只剩下两个阵营:「OpenAI 的 ChatGPT」和「其他」。再加上前段时间 GPT-4 的发布,ChatGPT 也有了更强大的推理和多模态能力,OpenAI 几乎不可能将其开源。然而,表现欠佳的「其他」阵营却一直在做开源方面的努力。本文总结了目前业界开源且适合中文的类ChatGPT项目。原创 2023-03-31 10:49:46 · 22705 阅读 · 4 评论 -
谷歌发布史上最大「机器人、视觉和语言“通才”」模型:PaLM-E 562B
2023年3月6日,Robotics at Google、柏林工业大学和 Google Research 团队提出了一个具身多模态语言模型 PaLM-E,通过 PaLM-540B 语言模型与 ViT-22B 视觉Transformer模型相结合,足足有5620亿参数,可以称之为「史上最大视觉语言模型(VLM)」,无需特殊训练就可执行各种任务。PaLM-E 不仅可以理解图像,还能理解、生成语言,而且竟然还能将两者结合起来,处理复杂的机器人指令。原创 2023-03-17 12:07:12 · 721 阅读 · 0 评论 -
ChatExcel:ChatGPT后又一个有趣的应用!
如果不满意,还可以修改query,与它交互,不断更新生成的效果。而 ChatExcel 想打造的是一个交互式AIGC,即同时输入用户需求(voice or text)以及待操作的目标物(Objects),生成基于需求进行相应更新的目标物(updated objects)的循环过程,而不仅仅是从用户需求到目标物的映射关系。目前,ChatExcel 是通过文字聊天实现Excel的交互控制的AI辅助工具,通过对表输入需求即可得到处理后的数据,减少额外的操作,辅助相关工作人员(会计,教师等)更简单的工作。原创 2023-03-17 11:32:45 · 8499 阅读 · 2 评论 -
一文详解 ChatGPT:背后的技术,数据,未来发展
LM有基于大量训练数据的天然的迁移学习能力,但要在新域上获得较好的性能,使用Fine-tuning,就要求重新多次训练预训练模型,导致吃内存。ChatGPT 的卓越表现得益于其背后多项核心算法的支持和配合,包括作为其实现基础的 Transformer 模型、激发出其所蕴含知识的 Prompt/Instruction Tuning 算法、其涌现出的思维链(COT)能力、以及确保其与人类意图对齐的基于人类反馈的强化学习(RLHF)算法。Prompt Tuning的本质是改变任务格式,从而迎合大模型的性能。原创 2023-03-17 10:36:06 · 11300 阅读 · 0 评论