字节新研究,参数减少99.5%,5GB显存可跑

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain

1.58-bit FLUX

【要点】:本文提出了一种名为1.58-bit FLUX的量化方法,它首次成功地将先进的文本到图像生成模型FLUX.1-dev的权重量化到1.58位,同时保持生成1024 x 1024图像的相似性能,且无需访问图像数据,仅依赖模型自身的自监督。
【方法】:研究采用了一种自监督的量化方法,利用FLUX.1-dev模型生成文本描述的潜在表示,并将模型权重量化为-1、0、+1三个值,同时开发了一种针对1.58位操作的定制内核。
【实验】:实验在GenEval和T2I Compbench基准测试上进行,结果表明1.58-bit FLUX在保持生成质量的同时,显著提高了计算效率,实现了模型存储降低7.7倍,推理内存降低5.1倍,以及推理延迟的改进。
【链接】:https://www.aminer.cn/pub/67720cbeae8580e7ff76456d

DepthLab: from Partial to Complete

【要点】:本文提出DepthLab,一种基于图像扩散先验的深度数据修复模型,能够从部分深度信息恢复完整深度数据,提高了多种下游任务的性能和质量。
【方法】:DepthLab模型采用了一种独特的图像扩散先验方法,通过两个主要特点——对深度缺失区域的鲁棒性和保持尺度一致性——实现深度数据的完整还原。
【实验】:研究者在多个任务上评估了DepthLab模型,包括3D场景修复、文本到3D场景生成、DUST3R的稀疏视图重建和LiDAR深度完成,使用的数据集未在摘要中明确指出,但结果显示模型在数值性能和视觉质量上均超越了现有解决方案。
【链接】:https://www.aminer.cn/pub/676b7575ae8580e7ff8fe900

TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

【要点】:本文提出了TangoFlux,一种高效的文本到音频生成模型,通过流匹配和拍手排序偏好优化技术,实现了快速且忠实的音频生成,达到了文本到音频生成领域的领先性能。
【方法】:TangoFlux采用流匹配技术提高音频生成的质量,并创新性地提出拍手排序偏好优化(CRPO)框架,以迭代方式生成和优化偏好数据,解决文本到音频生成中的对齐难题。
【实验】:研究者在单个A40 GPU上测试了TangoFlux模型,能够生成高达30秒的44.1kHz音频,用时仅3.7秒。实验使用了CRPO框架生成的音频偏好数据集,结果显示该数据集优于现有其他方法,且TangoFlux在客观和主观指标上都达到了最先进的性能水平。所有代码和模型均已开源以供进一步研究。
【链接】:https://www.aminer.cn/pub/677362ebae8580e7ff7c2a8e

PERSE: Personalized 3D Generative Avatars from A Single Portrait

【要点】:本文提出了一种名为PERSE的方法,可以从单张肖像生成具有动画能力的个性化3D生成式头像,并在保持个体身份的同时,在连续且解耦的潜在空间中编辑面部特征。
【方法】:通过合成大规模的合成2D视频数据集,并利用3D Gaussian Splatting技术,学习一个连续且解耦的潜在空间,实现面部特征编辑。
【实验】:作者通过实验验证了PERSE方法,使用合成数据集生成高质量、逼真的2D视频,并在此基础上创建了个性化3D头像,结果显示该方法能够生成具有插值属性的高质量头像,同时保持参考人物的个体身份。
【链接】:https://www.aminer.cn/pub/6773647cae8580e7ff809b07

Do NOT Think That Much for 2+3=? on the Overthinking of O1-Like LLMs

【要点】:本文首次研究了o1-like大型语言模型在处理简单问题时过度计算资源分配的问题,并提出了新的效率和优化策略。
【方法】:通过引入从结果和过程两个角度出发的效率指标,评估了o1-like模型计算资源的合理使用,并采用自我训练范式提出减少过度计算的策略。
【实验】:使用GSM8K、MATH500、GPQA和AIME等多个不同难度级别的测试集,实验结果表明所提方法在降低计算负担的同时保持了模型性能。
【链接】:https://www.aminer.cn/pub/6773647cae8580e7ff809ae3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值