清华大学团队升级SageAttention，即插即用，4比特量化三倍加速不掉点！

AMiner：AI科研助手

于 2024-12-30 21:06:31 发布

阅读量950

点赞数 5

CC 4.0 BY-SA版权

文章标签：语言模型大模型人工智能自然语言处理机器学习

本文链接：https://blog.youkuaiyun.com/AI_Conf/article/details/144834136

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

本周大模型周报精选了7篇论文，分别来自清华大学的SageAttention2，腾讯的DRT-o1…

更多论文详情，请查看专题：https://www.aminer.cn/topic/6772982c9c31af2b8f28ef4c

为了方便大家阅读，只列出了论文标题、AMiner AI综述等信息，如果感兴趣可点击查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：
https://www.aminer.cn/chat/g/explain

LegalAgentBench: Evaluating LLM Agents in Legal Domain

【要点】：本研究提出了LegalAgentBench，一个专门为评估在中国法律领域中LLM代理的全面基准，通过包含现实世界法律场景的17个语料库和37个外部知识交互工具，实现了对LLM在法律领域应用的细致评估。
【方法】：研究设计了一个可扩展的任务构建框架，并精心标注了300个任务，这些任务涵盖多跳推理和写作等多种类型，并包括不同的难度级别，以反映现实世界法律场景的复杂性。
【实验】：使用LegalAgentBench对八个流行的LLM进行了评估，通过中间过程的关键词分析计算进度率，实现了更细粒度的评估，相关代码和数据已公开。
【链接】：https://www.aminer.cn/pub/676a2449ae8580e7ff2f8e95

Mulberry: Empowering MLLM with O1-Like Reasoning and Reflection Via Collective Monte Carlo Tree Search

【要点】：本研究提出了Mulberry，一种通过集体蒙特卡洛树搜索（CoMCTS）方法使多模态大型语言模型（MLLM）具备O1-like推理和反思能力的模型，以及用于训练的Mulberry-260k数据集。
【方法】：研究采用了集体蒙特卡洛树搜索（CoMCTS）方法，将集体学习引入树搜索中，通过模型的协同猜想、搜索和识别有效推理路径，提高推理效率和准确性。
【实验】：研究者构建了Mulberry-260k数据集，并对模型进行了集体SFT训练。实验结果显示， Mulberry模型在多个基准测试中表现出优越性能。数据集名称为Mulberry-260k。
【链接】：https://www.aminer.cn/pub/676b7575ae8580e7ff8fe981

DRT-o1: Optimized Deep Reasoning Translation Via Long Chain-of-Thought

【要点】：本文提出DRT-o1，一种通过模拟长链思维（CoT）优化深度推理翻译的方法，特别针对含有比喻和隐喻的文学作品翻译问题，实现了显著性能提升。
【方法】：通过从现有文学作品中挖掘含有比喻或隐喻的句子，并采用多智能体框架进行翻译，其中包含一个翻译者、一个顾问和一个评估者，以迭代优化翻译过程。
【实验】：使用Qwen2.5-7B和Qwen2.5-14B作为基座，收集数万条长思维机器翻译数据训练DRT-o1，实验结果在文学翻译任务上表现显著，BLEU分数提升了7.33至8.26，CometScore提升了1.66至3.36，且DRT-o1-7B在性能上超过了QwQ-32B-Preview，分别提高了7.82 BLEU和1.46 CometScore。
【链接】：https://www.aminer.cn/pub/676a2458ae8580e7ff2fa95e

SageAttention2: Efficient Attention with Thorough Outlier Smoothing and Per-thread INT4 Quantization

【要点】：论文提出了一种高效的注意力机制SageAttention2，通过INT4量化加速注意力计算，并采用全面异常值平滑技术，实现了比现有方法更优的性能和精度。
【方法】：SageAttention2使用INT4量化Q和K矩阵，FP8量化P和V矩阵，并结合异常值平滑技术以及FP32矩阵乘法缓冲来提高计算精度。
【实验】：在RTX4090上，通过使用多种模型进行实验，包括大型语言处理、图像生成和视频生成，SageAttention2的OPS超出FlashAttention2和xformers约3倍和5倍，且整体性能损失可忽略不计。
【链接】：https://www.aminer.cn/pub/673c022801d2a3fbfcbe2e70

Efficient Generation of Targeted and Transferable Adversarial Examples for Vision-Language Models Via Diffusion Models

【要点】：论文提出了一种名为AdvDiffVLM的方法，通过使用扩散模型和自适应集成梯度估计生成具有高转移性和自然语义的针对性对抗样本，有效提高了视觉语言模型对抗攻击的效率和效果。
【方法】：AdvDiffVLM利用扩散模型的反向生成过程，结合自适应集成梯度估计和GradCAM引导的遮罩方法，生成具有自然对抗性语义的对抗样本。
【实验】：通过实验验证，AdvDiffVLM生成对抗样本的速度比现有最佳转移性对抗攻击方法快5到10倍，且保持了更高的对抗样本质量；同时，该方法生成的对抗样本在多种商业视觉语言模型上具有更好的转移性，包括在黑盒环境下成功攻击GPT-4V。
【链接】：https://www.aminer.cn/pub/661f2cf013fb2c6cf6b1776f