作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。
然而,传统的检索和阅读方式已经无法满足科研人的需求。
AMiner AI,一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率,获取最新领域研究动态,让科研工作更加游刃有余。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:https://www.aminer.cn/chat/g/explain
2023年11月7日精选新论文列表:
1.Relax: Composable Abstractions for End-to-End Dynamic Machine Learning
这篇论文介绍了一种名为Relax的编译器抽象,用于优化端到端的动态机器学习工作负载。特别是在新兴的大型语言模型中,动态形状计算已成为关键。这些模型的成功已经催生了在多样化的后端环境中部署它们的需求。Relax引入了一等符号形状注释,以跟踪程序中的全局动态形状计算。它还引入了一个跨层次抽象,将计算图、循环张量程序和库调用封装在一个表示中,以实现跨层次优化。作者使用所提出的方法构建了一个端到端的编译框架,用于优化动态形状模型。在大规模语言模型上的实验结果表明,Relax在各种平台上提供的性能与最先进的手动优化系统相当,并使新兴的动态模型能够部署到更广泛的环境中,包括手机、嵌入式设备和Web浏览器。
https://www.aminer.cn/pub/65499d88939a5f4082be98c0/?f=cs
2.S-LoRA: Serving Thousands of Concurrent LoRA Adapters
论文介绍了S-LoRA系统,用于大规模并行处理低秩适应(LoRA)适配器。在大型语言模型的部署中,通常采用“预训练-然后微调”的范式,而LoRA是一种参数高效的微调方法,通常用于将基础模型适应于多个任务,从而形成大量源自单个基础模型的LoRA适配器。作者观察到,这种范式在服务过程中为批量推理提供了显著的机会。为了利用这些机会,他们提出了S-LoRA系统,用于可扩展地服务许多LoRA适配器。S-LoRA将所有适配器存储在主内存中,并将当前运行的查询所使用的适配器fetch到GPU内存中。为了有效利用GPU内存并减少碎片化,S-LoRA提出了统一分页(Unified Paging)方法。统一分页使用统一的内存池来管理具有不同秩的动态适配器权重和具有不同序列长度的KV缓存张量。此外,S-Lo

文章概述了科研人员面临的文献检索挑战,介绍了一款名为AMinerAI的智能工具,以及多篇关于机器学习模型优化、动态形状计算、大规模语言模型服务、代码模型微调、注意力引导和虚拟现实渲染的创新论文,展示了AI在科研领域的最新进展。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



