微软新模型Phi-4技术报告

原创于 2024-12-16 21:16:27 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
为了方便大家阅读，只列出了论文标题、AMiner AI综述等信息，如果感兴趣可点击查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：
https://www.aminer.cn/chat/g/explain

Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions

【要点】：本文提出了一种名为Euclid的新型多模态大语言模型，通过合成高质量视觉描述增强模型对低级视觉感知的能力，并在几何感知任务上取得显著性能提升。
【方法】：作者通过设计Geoperception基准来评估多模态大语言模型对图像中2D几何信息的转录能力，并探索了提高模型几何任务性能的模型架构、训练技术和数据策略。
【实验】：使用Geoperception基准，作者对Euclid模型进行了测试，并与现有领先模型进行了对比。实验使用合成多模态数据，并采用多阶段训练与数据课程策略，结果显示Euclid在新型几何形状上展现出强大的泛化能力，比最佳闭源模型Gemini-1.5-Pro高出58.56 10.65（此处原文可能存在排版错误，应为一个具体数值，但未明确指出具体数值）。
【链接】：https://www.aminer.cn/pub/675ba34bae8580e7ff21dc63

Phi-4 Technical Report
【要点】：本文介绍了phi-4，一种拥有140亿参数的语言模型，通过注重数据质量训练配方开发而成，创新性地在训练过程中融合了合成数据，并在STEM领域的问题回答能力上显著超过了其教师模型GPT-4。
【方法】：phi-4采用了一种以数据质量为核心训练方法，并结合了合成数据的使用，以及独特的后训练技术，这些方法使其在STEM相关任务上表现出色。
【实验】：phi-4在多个推理聚焦的基准测试中展现了强劲性能，实验使用了专门生成的合成数据集，结果证明了phi-4在STEM-focused QA上的优越性。
【链接】：https://www.aminer.cn/pub/675ba34bae8580e7ff21dd47

LAION-SG: an Enhanced Large-Scale Dataset for Training Complex Image-Text Models with Structural Annotations

【要点】：本文提出了LAION-SG数据集，包含高质量的场景图结构注释，用于训练在生成复杂场景图像时表现更佳的图像-文本模型，并通过SDXL-SG模型验证了数据集的有效性。
【方法】：作者构建了LAION-SG数据集，该数据集提供了精确描述多个物体属性和关系的场景图结构注释，并基于此数据集训练了SDXL-SG模型，将结构注释信息融入图像生成过程。
【实验】：使用LAION-SG数据集进行训练的模型在CompSG-Bench基准测试中，相比现有数据集训练的模型在复杂场景生成方面表现出显著的性能提升。
【链接】：https://www.aminer.cn/pub/675a521eae8580e7ff733cf3

InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

【要点】：本文提出了一种名为InternLM-XComposer2.5-OmniLive的综合多模态系统，通过解耦的流感知、推理和记忆机制，实现了对长期流视频和音频交互的实时处理。
【方法】：研究采用了Specialized Generalist AI的理念，将流感知、多模态长记忆和推理功能分别集成到三个模块中，以模拟人类认知方式。
【实验】：实验中，InternLM-XComposer2.5-OmniLive系统在处理实时视频和音频输入时展现了连续和自适应的服务能力，但具体数据集名称未提及。
【链接】：https://www.aminer.cn/pub/675ba353ae8580e7ff221622

SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

【要点】：论文提出了一种新的同步多摄像头视频生成方法SynCamMaster，通过增强预训练的文本到视频模型，实现了开放世界视频中不同视角间的动态一致性。
【方法】：作者设计了一个即插即用的多视角同步模块，该模块能够维持多视角间外观和几何的一致性。
【实验】：研究中采用了一种混合训练方案，结合多摄像头图像、单目视频以及虚幻引擎渲染的多摄像头视频来训练模型，并发布了一个名为SynCamVideo-Dataset的多视角同步视频数据集。
【链接】：https://www.aminer.cn/pub/67590103ae8580e7ff7f3e7f