训练方法全公开！墨尔本大学、复旦大学等提出OpenCoder，性能表现接近专有模型丨11.11热门论文

原创于 2024-11-11 19:28:25 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

部署运行你感兴趣的模型镜像

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
为了方便大家阅读，只列出了论文标题、AMiner AI综述等信息，如果感兴趣可点击查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：
https://www.aminer.cn/chat/g/explain

今日热门论文，来自墨尔本大学、复旦大学等高校的研究人员与无限光年合作推出了完全开放的代码大模型OpenCoder，将开源代码大模型的性能提升至接近专有模型的水平，还公开了完整的模型构建过程；谷歌提出ReCapture，多机位视频生成技术。更多论文查看专题。

OpenCoder: the Open Cookbook for Top-Tier Code Large Language Models

【要点】：本文介绍了OpenCoder，一种性能卓越的开源代码大型语言模型，它不仅性能接近商业模型，而且提供了完整的训练数据和数据处理流程，为科研社区提供了一个“开放食谱”。
【方法】：作者采用代码优化的启发式规则进行数据清洗和数据去重，同时使用与代码相关的文本语料库召回和高质量合成数据，在退火和监督微调阶段构建了OpenCoder模型。
【实验】：通过综合性的发布，包括模型权重、推理代码、可复现的训练数据、完整的数据处理流程、严格的实验消融结果和详细的训练协议，作者在多个任务上验证了OpenCoder的性能，并使用了未具体提及的代码相关数据集，取得了与领先模型相当的效果。
【链接】：https://www.aminer.cn/pub/672d7fec01d2a3fbfc49173b

ReCapture: Generative Video Camera Controls for User-Provided Videos Using Masked Video Fine-Tuning

【要点】：本文提出ReCapture方法，通过使用多视图扩散模型或基于深度的点云渲染生成带新摄像机轨迹的噪声锚点视频，再利用创新的遮蔽视频微调技术，从单个用户提供的视频中生成具有全新摄像机轨迹的新视频，并能够合理地虚构原视频中不可见的场景部分。
【方法】：ReCapture方法首先生成带有新摄像机轨迹的噪声锚点视频，然后通过遮蔽视频微调技术，将锚点视频再生成干净且时间一致的重定向视频。
【实验】：文中未具体提及实验数据集名称，但通过实验展示了ReCapture方法在生成具有不同摄像机轨迹的新视频方面的有效性，同时验证了该方法在虚构场景不可见部分的能力。
【链接】：https://www.aminer.cn/pub/672d800501d2a3fbfc492e5b

BitNet A4.8: 4-Bit Activations for 1-Bit LLMs

【要点】：本文提出了BitNet A4.8模型，通过采用4位激活函数和1位权重，结合混合量化与稀疏化策略，在保持性能的同时显著提升了大型语言模型的推理效率。
【方法】：BitNet A4.8模型使用4位激活对注意力机制和前馈网络的输入进行量化，同时将中间状态进行稀疏化并配合8位量化，以减少量化误差。
【实验】：在广泛实验中，使用相同训练成本下，BitNet A4.8与BitNet b1.58性能相当，且在推理速度上由于支持4位(INT4/FP4)内核而更快。具体实验数据集名称未在摘要中提及，但结果表明BitNet A4.8激活了仅55个参数并支持3位键值缓存，进一步提高了大规模语言模型部署和推理的效率。
【链接】：https://www.aminer.cn/pub/672d7ffa01d2a3fbfc492617

Balancing Pipeline Parallelism with Vocabulary Parallelism

【要点】：本文针对管道并行训练大规模语言模型中的词汇层引起的计算和内存使用不平衡问题，提出了词汇并行性的概念，通过均匀分配词汇层并整合到现有管道调度中，实现了计算和内存的均衡。
【方法】：论文通过将词汇层均匀分配到管道设备上，并将计算分组为管道传递，同时提出减少词汇层内部通信屏障的算法，以降低激活内存的开销。
【实验】：研究者在多个数据集上进行了广泛评估，结果显示所提方法在不同词汇量大小下均能实现计算和内存的平衡，且在大型词汇场景下显著降低峰值内存使用。具体的数据集名称在论文中没有明确提及，但实验结果已证明方法的有效性。
【链接】：https://www.aminer.cn/pub/67319b6601d2a3fbfc10d1ed

StdGEN: Semantic-Decomposed 3D Character Generation from Single Images

【要点】：本文提出了StdGEN，一种能够从单张图片生成具有分解语义的高质量3D角色的创新流程，实现了在虚拟现实、游戏和电影制作等领域的广泛应用，特点是分解性、有效性和高效性。
【方法】：StdGEN的核心是提出的语义感知大型重建模型（S-LRM），一种基于变换器的一般化模型，能够从前视图图片中以前馈方式联合重建几何、颜色和语义。
【实验】：通过广泛实验，使用多个数据集，StdGEN在3D动漫角色生成方面表现出超越现有基线的几何、纹理和分解性能，生成详细的三维角色仅需三分钟。
【链接】：https://www.aminer.cn/pub/67319fa401d2a3fbfc179eb2