
精品论文
文章平均质量分 89
这个专栏的解读的精选论文均围绕着重大技术创新,行业实践和工程量产。
庞德公
多年来在人工智能、数据和技术领域兜兜转转,拥有较强的行业洞察力和技术前瞻力。精通数据流通与数据空间技术,高并发、分布式计算、隐私计算、区块链和自然语言处理技术。
展开
-
资料导览(持续更新)
行文风格多变。清新而不脱俗,深入但又浅出。跟踪而不跟风,细腻但又抽象。给大家带来大模型领域乃至其他科技领域的最轻松但又最潮的独特解读。整体遵从条线分割,纵横交错的网线在编织内容。原创 2024-06-29 23:06:36 · 446 阅读 · 0 评论 -
三个臭皮匠与一个诸葛亮:覆盖率与正确率的博弈
将语言模型不断地扩大规模是可以提高它们的能力。而日常运用的时候,通常将推理限制在一次。要是对于同一个问题进行多次反复的采样生成,那么是否能够覆盖正确的答案?是否能够被准确的捞出?原创 2024-08-17 07:45:35 · 997 阅读 · 0 评论 -
优雅谈大模型:“System2”与“System 1”
研究人员探索了三种System 2方法——RaR、S2A 和 BSM,这些方法已经成功提炼到新的LLM,这个新的模型与System 1相比,产生了更好的结果,而且成本低于System 2。然而这种方法是有局限性,只能适用于特定的任务。原创 2024-07-21 11:44:13 · 2128 阅读 · 1 评论 -
SpreadsheetLLM:微软对Excel编码的“摊膀伏”
Excel的特点是二维数据格式、灵活的布局和多样化的格式选项。微软最近引入了SpreadsheetLLM,开创了一种高效的编码方法,用于释放和优化LLMs在电子表格上的强大理解和推理能力。原创 2024-07-19 21:49:31 · 1407 阅读 · 0 评论 -
百万专家小专家:“N个小皮匠”?!
随着隐藏层宽度的增加,标准Transformer架构中的前馈 (FFW) 层会导致计算成本和激活内存的线性增加。稀疏混合专家 (MoE) 架构已成为解决此问题的可行方法,它将模型大小与计算成本分离。原创 2024-07-19 21:47:16 · 572 阅读 · 0 评论 -
NASA和IBM推出INDUS:高级科学研究的综合大模型
在最近的一项研究中,来自美国宇航局和IBM的一组研究人员合作开发了一种模型,该模型可应用于地球科学,天文学,物理学,天体物理学,太阳物理学,行星科学和生物学以及其他多学科学科。原创 2024-07-06 09:30:20 · 1196 阅读 · 0 评论 -
CVPR 2024最佳论文:“神兵”的组合器 Generative Image Dynamics
CVPR 2024的最佳论文来自谷歌、美国·加州大学圣迭戈分校。两篇都来至于视频生成领域,可见今年外界对视频生成领域关注度很高。今天的这篇是“Generative Image Dynamics”,Google Research发布的。原创 2024-07-04 22:20:53 · 3783 阅读 · 0 评论 -
编码大模型系列:Meta创新的“代码编译优化”的LLM
LLM Compiler建立在Code Llama的基础上,增强了对编译器中间表示 (IR)、汇编语言和优化技术的理解。该模型已在546B个LLVM-IR和汇编代码的庞大语料库上进行了训练,并经过了指令微调。原创 2024-06-30 10:44:35 · 1762 阅读 · 0 评论 -
PAE:从潮流报告中提炼有效产品属性
本文将介绍PAE,一种用于包含 PDF格式的文本和图像的产品属性提取算法。目前大部分的方法侧重于从标题或产品描述中提取属性,或利用现有产品图像中的视觉信息。与之前的工作相比,PAE从潮流趋势报告的PDF文件中提取属性,提取的属性包含了未来的时尚趋势,然后将这些属性和零售商的产品目录对比,以便于提前做出预判和规划。原创 2024-06-29 19:11:12 · 627 阅读 · 0 评论 -
俯视LLM的灵魂:一文搞懂稀疏自动编码器
稀疏自动编码器 (SAE) 最近因机器学习模型的可解释性而变得流行(尽管SAE自 1997 年以来一直存在)。机器学习模型正LLMs变得越来越强大和有用,但它们仍然是黑匣子,如何看穿LLM的灵魂。原创 2024-06-27 23:04:51 · 3180 阅读 · 0 评论 -
TSLANet:时间序列模型的新构思
具体来说,利用傅里叶分析来增强特征表示并捕获长期和短期相互作用,同时通过自适应阈值来减轻噪声。此外还引入了交互式卷积块,并利用自监督学习来改进 TSLANet解码复杂时间模式的能力,并提高其在不同数据集上的鲁棒性。原创 2024-06-25 21:38:55 · 1379 阅读 · 0 评论 -
Cephalo:专门用于仿生设计的多模态视觉大型语言模型
麻省理工学院(MIT)的研究人员推出了Cephalo,这是一系列专为材料科学应用设计的多模态视觉语言模型(V-LLMs)。Cephalo旨在弥合视觉感知和语言理解之间的差距,以分析和设计仿生材料。Cephalo 利用复杂的算法从科学文献中检测和分离图像及其相应的文本描述。它使用视觉编码器和自回归转换器集成这些数据,使模型能够解释复杂的视觉场景,生成准确的语言描述,并有效地回答查询。原创 2024-06-24 17:58:18 · 1055 阅读 · 0 评论 -
一文读懂OpenGVLab带来的最新视觉预训练框架
LCL首次探索了使用交错图像文本数据,进行视觉模型预训练。这篇文章从理论上证明了latent compression等价于最大化因果模型的输入和输出之间的相互信息,并将该目标进一步分解为两个基本的训练任务,最终得到了更鲁棒的视觉表征。原创 2024-06-18 22:08:42 · 1312 阅读 · 0 评论 -
4M-21:霸气侧漏高效的20+多模态AI模型
研究人员在多模态掩码预训练方案的基础上构建了他们的方法,通过对各种模态的训练显着扩展了其能力。该方法包含20多种模态,包括SAM 片段、3D人体姿势、调色板等。该方法将不同的输入编码为统一的格式,从而能够在多个模态上训练单个模型原创 2024-06-18 22:06:21 · 1892 阅读 · 0 评论 -
多模态大模型:基础架构
多模态大型语言模型(MLLM)是人工智能领域的前沿创新,它结合了语言和视觉模型的功能,可以处理复杂的任务,如视觉问答和图像字幕。这些模型利用大规模预训练,集成了多种数据模态,以显著提高其在各种应用程序中的性能。原创 2024-06-16 12:43:59 · 2856 阅读 · 0 评论 -
沉睡而且“狡猾”的特工:大模型也可以是!
安全性是新一代基础模型乃至大模型中最引人入胜的领域之一。到目前为止,大多数安全技术的设计都是围绕着具有良好行为的离散系统进行优化。然而LLMs是目前知之甚少的随机系统,不断的演变LLMs为这些系统创造新的攻击面。原创 2024-06-14 13:23:26 · 786 阅读 · 0 评论 -
奇思妙想:多头RAG
来自苏黎世联邦理工学院、Cledar、巴斯夫欧洲公司和华沙理工大学的研究人员推出了多头 RAG (MRAG) 来解决多方面查询问题。这种新颖的方案利用了 Transformer 模型的多头注意力层的激活,而不是最后一层解码器的激活。原创 2024-06-12 12:49:49 · 1153 阅读 · 0 评论 -
新鲜速递:图解新颖LLM的CoPE位置编码
6月份第一天CoPE诞生了。与传统基于Token的位置编码不一样,CoPE采用上下文进行位置编码,进而帮助LLMs更好地进行计数任务。原创 2024-06-03 09:06:08 · 1644 阅读 · 0 评论 -
SleepFM:利用对比学习预训练的多模态“睡眠”基础模型
来自斯坦福大学和丹麦技术大学的研究人员推出SleepFM,这是一种用于睡眠分析的开创性多模态基础模型。该模型利用了来自14,000多名参与者的庞大多模态睡眠记录数据集,这些数据在1999年至2020年间在斯坦福睡眠诊所收集的总计超过100,000小时的睡眠数据。SleepFM 利用对比学习方法来整合大脑活动、心电图和呼吸信号。这种集成使模型能够捕获全面的生理表征,从而显着提高睡眠分析的准确性。原创 2024-06-01 14:05:34 · 997 阅读 · 0 评论 -
斯坦福报告解读5: 图解有趣的推理基准(下)
黄仁勋表示,AI下一个浪潮将是“具身智能”。英伟达、微软、Google纷纷展开机器人的军备竞赛。英伟达VIMA基于T5模型,交错融合文本和多模态输入,集合历史信息进行协助机器人预测下一步的行动。斯坦福大学利用LLM的理解、推理和代码能力,与VLM交互并生成3D Value Map,规划机械臂的运行轨迹。微软则是基于ChatGPT强大的自然语言理解能力和推理能力,生成机器人的控制代码。Google戏路较广,布局条线广泛,包括从PaLM衍生PaLM-E,从Gato迭代来的RoboCat原创 2024-05-30 19:06:01 · 1084 阅读 · 0 评论 -
斯坦福报告解读4:图解有趣的推理基准(中)
《人工智能指数报告》由斯坦福大学、AI指数指导委员会及业内众多大佬Raymond Perrault、Erik Brynjolfsson 、James Manyika等人员和组织合著,该报告已被公认为最权威、最具信誉人工智能数据与洞察来源之一。原创 2024-05-29 15:44:43 · 1040 阅读 · 0 评论 -
斯坦福报告解读3:图解有趣的评估基准(上)
技术性能处于第二章节主要是回顾下现在的人工智能技术走了多远,从总体视角总结当前AI技术发展以及AI模型评估基准现状,再回到各个模态深入分析,以便于观察各个模型在不同课题面前的性能表现以及评估基准。原创 2024-05-28 16:54:02 · 1080 阅读 · 0 评论 -
大模型的灵魂解读:Anthropic AI的Claude3 Sonnet可解释性研究
Anthropic的模型可解释性团队,一直想和大模型的灵魂交流,最近在研究Claude 3 Sonnet的内部的参数结构和工作原理时,获得十分有趣的结论。总所周知,大模型基于人工神经网络,里面的神经元的激活模式运用十分广泛。原创 2024-05-25 19:20:16 · 2430 阅读 · 0 评论 -
MIT提出基于Transformer的Cross-Layer Attention:江湖骗子还是奇思妙想
键值(KV)缓存对于加速基于Transformer的大型语言模型 (LLM) 的解码至关重要。多查询注意力(MQA)和分组查询注意力(GQA)通过允许多个查询头共享单个键/值头,可以有效地减少 KV 缓存大小。跨层注意力(CLA)通过在相邻层之间共享键和值头来进一步实现这一点,从而在保持准确性的同时将 KV 缓存大小减少 2 倍。CLA针对位于传统帕累托前沿的MQA进行改进,在推理过程中实现更长的序列长度和更大的批量大小。原创 2024-05-24 09:53:38 · 1342 阅读 · 0 评论 -
Chameleon:早期融合混合模态的基础模型
Meta研究人员提出了Chameleon,这是一种混合模态的基础模型,有助于生成和推理文本和图像交叉的场景,从而实现全面的多模式建模。与传统模型不同Chameleon采用统一的架构,通过将图像标记为类似于文本的方式,平等地对待这两种模式。这种方法被称为早期融合,允许跨模式无缝推理,这种架构需要调整Transformer的架构和FineTuning策略。原创 2024-05-20 09:08:37 · 4027 阅读 · 0 评论 -
基于BERT的医学影像报告语料库构建
CAMIR语料库凭借其独特的事件结构与概念标准化结合的设计,连接了高度专业的放射学语言与机器学习算法。使海量非结构化的影像报告得以转化为结构化数据,为科研人员、临床医生及医疗软件开发者提供了宝贵的研究素材与开发资源。原创 2024-05-19 09:41:23 · 4555 阅读 · 0 评论 -
小白也会SQL:自动化SQL大模型(下)
综上,若需要构建定制化文本到SQL的大模型,可以参考这份论文。其中给出的一些范式还是具有实操的价值。原创 2024-05-18 16:11:27 · 1682 阅读 · 0 评论 -
轻松读懂FlashAttention 下
FlashAttention是一种无需任何近似即可加速注意力并减少内存占用的新算法。许多组织和研究实验室采用FlashAttention来加速他们的训练和推理。尽管FlashAttention在发布时已经比优化基线快 2-4 倍,但它仍然有相当大的空间。FlashAttention仍然不如优化矩阵乘法 (GEMM) 运算快,仅达到理论最大 FLOPs/s的25-40%。原创 2024-05-18 16:03:25 · 1114 阅读 · 0 评论 -
小白也会SQL:大模型改变交互方式(中)
在人工智能与自然语言处理交汇点,有一种技术正悄然改变与数据交互的方式——将日常语言转化为精准SQL查询。这一“text-to-sql”转换任务,使非专业人士也能轻松驾驭复杂的数据库操作,极大地拓宽了数据应用的边界。原创 2024-05-17 08:11:06 · 1365 阅读 · 0 评论 -
轻松读懂FlashAttention 上
FlashAttention属于AI加速器,要读懂它需要先具备Transformer的背景知识以及注意力机制,最后才到FlashAttention。随着大模型优化技术的层出不穷,里面的kernel fusion技术将会越来越频繁的被提及,例如在Mamba中也被用于加速。因此借着FlashAttention的这个机会更加深入的了解下GPU。原创 2024-05-17 08:02:33 · 1253 阅读 · 0 评论 -
小白也会SQL:大模型改变交互方式(上)
现有前沿方法往往依赖于封闭源代码的大型语言模型,它们虽然功能强大,却伴随着模型透明度缺失、数据隐私风险增大以及高昂推理成本等难题。有没有既开放、高效又安全的替代方案呢?鲁班模锤今天带来的论文《CodeS: Towards Building Open-source Language Models for Text-to-SQL》正在尝试破局。原创 2024-05-16 08:32:24 · 1156 阅读 · 0 评论 -
TimesFM: 预训练的时间序列基础模型
TimesFM是一种预测的基础模型,在包含1000亿个现实世界的大型时间序列语料库上进行了预训练,在来自不同领域和粒度的各种公共基准上显示了令人印象深刻的zero-shot的性能。原创 2024-05-15 07:32:07 · 4417 阅读 · 0 评论 -
GPT-4o: 从最难的“大海捞针”基准看起
该测试旨在检测大型模型是否能从长文本中提取出这些关键信息,从而评估模型处理长文本信息提取的能力,这可以反映LLM对长文本的理解基础能力。GPT-4o甚至可以捕捉声音的细微差别,并产生不同情感风格的反应,包括唱歌。GPT-4 Turbo是OpenAI之前最先进的模型,它接受了图像和文本组合的训练,可以分析图像和文本以完成从图像中提取文本甚至描述这些图像的内容等任务。任务介绍在OpenCompass的NeedleBench框架中,为了全面评估模型在长文本信息提取和推理方面的能力而设计的难度增加的测试方案。原创 2024-05-14 18:34:03 · 1535 阅读 · 2 评论 -
Vidur: 出手只需1小时,瞬间节省20万美元
在将大模型部署到生产线的时候,针对大型语言模型 (LLM) 的部署优化成本高昂。并行策略,批处理技术和调度策略等多维度的因子组成了大模型部署的配置。要摸索出不同维度的最优的组合策略,需要多次的进行实验以便确认LLM应用程序工作负载。这个过程其实耗时耗力,在微软的推动下,诞生了一种大规模、高保真、易于扩展的,专门针对LLM推理性能模拟的框架-Vidur。原创 2024-05-13 16:22:38 · 1289 阅读 · 1 评论 -
xLSTM:拳打Transformer,脚踢Mamba?!
记得在《重新审视神经网络》这篇文章中提及,任何人都可以构建自己心目中的神经网络。在Transformers、Mamba、KAN之后,长短期记忆 (LSTM) 架构的发明者Sepp Hochreiter和他在NXAI的团队推出了一种称为扩展LSTM (xLSTM) 的新变体。原创 2024-05-10 19:30:02 · 2217 阅读 · 1 评论