
大语言模型
文章平均质量分 93
CVHub
专注多模态视觉语言AI全栈知识分享,提供原创、多领域、有深度的前沿AI论文解读与工业成熟解决方案
展开
-
微软 Azure AI 团队新作 | Florence-2: 解锁视觉新境界,万能感知引领未来!
Florence 项目致力于开发一个基础的视觉模型,具有多样的感知能力,涵盖空间层次和语义粒度。为此,作者构建了 FLD-5B 数据集,其中包含了 126M 张图像,配对有由 Florence 数据引擎收集的 50B 全面的注释。随后,通过全面的多任务学习以统一的方式在这个丰富的数据集上对 Florence-2 进行预训练。Florence-2 展示出卓越的零样本能力,覆盖广泛的视觉任务,包括字幕生成、目标检测、视觉定位和引用分割等。原创 2023-11-22 21:39:51 · 2251 阅读 · 0 评论 -
中科院深圳先进院发表WizardMath | 关于如何提升LLMs的逻辑推理能力
此外,作者的模型甚至在GSM8k上超越了ChatGPT-3.5、Claude Instant-1、PaLM-2和Minerva,同时也在MATH上胜过了Text-davinci-002、PaLM-1和GPT-3。因此,作者依赖于ChatGPT来提供过程监督,并要求其评估我们的模型生成的解决方案中每一步的正确性。本文提出了一种名为RLEIF的方法,该方法集成了Evol-Instruct和强化过程监督方法,用于进化GSM8k和MATH数据,然后通过进化的数据和奖励模型微调预训练的LLama-2模型。原创 2023-08-27 11:26:03 · 422 阅读 · 0 评论 -
独步潮流!如何在私有数据集上塑造GPT式大型语言模型的独特风格!
在本文中,我们了解了如何使用 LLaMA-Adapter 方法和 LoRA 在单个 GPU 上对 Falcon 等最先进的开源 LLM 进行微调。通过本文,我们知道传统的全层微调需要耗费 9 个小时,并且至少需要 6 个 A100 GPU,每个 GPU 需要 40 GB 的 RAM。而本文介绍的参数高效微调方法可以在单个 GPU 上将同一模型的微调速度提高 9 倍,且所需 GPU 内存减少了 15 倍。在实践中,大家可能会想知道如何将这些方法应用于自己的数据集。原创 2023-07-01 10:37:34 · 473 阅读 · 0 评论 -
复旦大学重磅发布低内存优化技术LOMO | 将大模型训练内存使用量降低到10.8%,大幅领先DeepSpeed!
如果我们相信更大的模型具有更平滑的损失面,我们可以得出结论:问题1不是一个问题,因为LLMs的损失面不应该有很大的曲率。然而,训练这些拥有数十亿参数的模型,例如具有30B到175B参数的模型,为NLP研究设下了更高的门槛。正如我们上面提到的,合理地假设LLMs的损失面是平滑的,而更大的批量大小则表示更强的训练稳定性,因此我们相信使用SGD优化器对LLMs进行微调的过程是稳定的。因此,本文方法使得在单台配备8个RTX 3090的计算机上,每个显存为24GB的情况下,可以对65B模型的全部参数进行微调。原创 2023-07-01 10:34:14 · 451 阅读 · 0 评论 -
微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调
为了使模型能够遵循多样的指令,我们通过仅使用语言的GPT-4来生成多轮关于所提供的生物医学图像的对话指令。受最近的指令调整工作的启发,LLaVA-Med使用GPT-4根据PMC-15M中的图像-文本对生成多样的生物医学多模态指令遵循数据,并使用一种新颖的课程学习方法对大规模生物医学领域的VL模型进行微调。通过根据多模态输入的人类意图调整模型,所得到的大型多模态模型(LMMs)在各种以用户为导向的视觉-语言任务(如图像理解和推理)中表现出强大的零样本任务完成性能,为开发通用的多模态对话助手铺平了道路。原创 2023-06-18 13:18:28 · 783 阅读 · 0 评论 -
阿里达摩院开源大型端到端语音识别工具包FunASR | 弥合学术与工业应用之间的差距
本文首发于微信公众号 CVHub,严禁私自转载或售卖到其他平台,违者必究。原创 2023-06-05 00:12:43 · 4783 阅读 · 0 评论 -
哈工大团队开源医学智能问诊大模型 | 华佗: 基于中文医学知识的LLaMa指令微调模型
本文首发至微信公众号:CVHub,不得以任何形式转载或售卖,仅供学习,违者必究!原创 2023-05-04 00:10:19 · 587 阅读 · 0 评论 -
视觉大模型系列 | MSA:一种简单强大的医学 SAM 适配器,轻松强化 SAM 到指定领域
本文将通用分割模型SAM扩展到医学图像分割领域,并命名为MSA。通过采用参数有效的适应性技术,一种成本效益的微调技术,我们在19个医学图像分割任务中实现了显著的改进,并在5种不同的图像模态下取得了SOTA性能。这些结果证明了我们的适应性方法对于医学图像的适应性是有效的,同时也表明了将通用的分割模型用于医学应用的潜力。我们希望本文可以成为推进通用医学图像分割的起点,并激发新的微调技术的发展。原创 2023-05-04 00:03:55 · 1182 阅读 · 0 评论 -
中文LLaMa和Alpaca大语言模型开源方案 | 扩充中文词表 & 针对中文语料进行高效编码
上述结果表明,中文Alpaca-13B模型在各项任务中均表现优于7B模型,凸显了模型容量增加的好处。然而,GPT-4并不总是提供准确的分数,所以作者对其评分进行人工检查并在必要时进行调整,手动检查确保分数一致并反映所评估的模型的真实性能。(gpt-3.5-turbo API)中自动获取训练数据,另外这段描述中提供了超参数(hyperparameters)的列表,并在Table 3中提供了微调数据的详细信息。这些模型以其庞大的规模和广泛的训练数据为特征,已经展示出了理解和生成类似于人类文本的强大能力。原创 2023-04-22 13:48:57 · 1653 阅读 · 0 评论