大模型日报第二期

近期AI领域资讯、研究与产品动态

最新推荐文章于 2025-10-27 00:36:23 发布

原创最新推荐文章于 2025-10-27 00:36:23 发布 · 1k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#AIGC #github #金融 #论文阅读 #人工智能

资讯

研究

20分钟学会装配电路板！开源SERL框架精密操控成功率100%，速度三倍于人类

贡献人：@刘奕龙
https://mp.weixin.qq.com/s/57LjCBFFe8Pgb4aXfp5wHg
近年来，机器人强化学习技术领域取得显著的进展，例如四足行走，抓取，灵巧操控等，但大多数局限于实验室展示阶段。将机器人强化学习技术广泛应用到实际生产环境仍面临众多挑战，这在一定程度上限制了其在真实场景的应用范围。强化学习技术在实际应用的过程中，任需克服包括奖励机制设定、环境重置、样本效率提升及动作安全性保障等多重复杂的问题。业内专家强调，解决强化学习技术实际落地的诸多难题，与算法本身的持续创新同等重要。面对这一挑战，来自加州大学伯克利、斯坦福大学、华盛顿大学以及谷歌的学者们共同开发了名为高效机器人强化学习套件（SERL）的开源软件框架，致力于推动强化学习技术在实际机器人应用中的广泛使用。

首次大规模多语言评估，支持7种语言，生物医学领域7B开源LLM

贡献人：@刘奕龙
https://mp.weixin.qq.com/s/vNHXaGmliqUqIA9TSB8Yvw
大语言模型 (LLM) 已应用于医疗保健和医学等专业领域。尽管有各种为健康环境量身定制的开源 LLM，但将通用 LLM 应用于医学领域仍存在重大挑战。近日，法国阿维尼翁大学（Avignon Université ）、南特大学（Nantes Université）和 Zenidoc 的研究团队开发了 BioMistral，一个专为生物医学领域量身定制的开源 LLM，利用 Mistral 作为其基础模型，并在 PubMed Central 上进行了进一步的预训练。研究人员根据由 10 项既定的英语医学问答 (QA) 任务组成的基准对 BioMistral 进行了全面评估。还探索通过量化和模型合并方法获得的轻量级模型。结果证明了 BioMistral 与现有开源医疗模型相比具有卓越的性能，并且与专有模型相比具有竞争优势。最后，为了解决英语以外的数据有限的问题，并评估医学 LLM 的多语言泛化能力，自动将该基准翻译和评估为 7 种其他语言。这标志着医学领域 LLM 的首次大规模多语言评估。

产业

OPPO 刘作虎：10 年内，手机还是 AI 的最好载体

贡献人：@刘奕龙
https://mp.weixin.qq.com/s/-lzWh5_vCeUtiS29oRiagA
手机 AI 功能应该怎么做？上个时代最重要的智能设备，在 AI 时代是将体验升级，还是将被新设备取代？前几日，魅族宣布将停止传统「智能手机」新项目的开发，全力投入新一代 AI 设备，引起了小范围的热议。而 2 月 20 日，仿佛是一种回应，将 AI 功能部署到手机上最积极的手机厂商之一的 OPPO，宣布了其 AI 战略。OPPO 在手机的 AI 功能方面布局很早。在 2020 年，OPPO 就推出了其首个 AI 大模型。2023 年大语言模型蓬勃发展的一年，OPPO 坚定了 AI 手机的布局。2024 年年初，OPPO 发布了 Find X7，是首个能够在端侧应用 70 亿参数大语言模型的手机。

Sora新视频只发TikTok：OpenAI 4天涨粉10万

贡献人：@刘奕龙
https://mp.weixin.qq.com/s/FqO2OgM2VaDCkKaoJAzZGQ
Sora新视频，变成“抖音独占”了。悄无声息，OpenAI正式杀入TikTok，加上洗脑配乐直接让人刷到停不下来，疯狂引流吸粉中：短短4天，涨粉10万，50万赞——这还是不打枪不宣传的情况下。a16z合伙人惊呼，如果这是在信息流里刷出来的，绝对分不出真假。

Karpathy新视频又火了：从头构建GPT Tokenizer

贡献人：@刘奕龙
https://mp.weixin.qq.com/s/S5MAafk6WYGDsD_MReGSTg
技术大神卡帕西离职OpenAI以后，营业可谓相当积极啊。这不，前脚新项目刚上线，后脚全新的教学视频又给大伙整出来了：这次，是手把手教咱构建一个GPT Tokenizer（分词器），还是熟悉的时长（足足2小时13分钟）。Tokenizer即分词器是大语言模型pipeline中一个完全独立的阶段。它们有自己的训练集、算法（比如BPE，字节对编码），并在训练完成后实现两个功能：从字符串编码到token，以及从token解码回字符串。为什么我们需要关注它？卡帕西指出：因为LLM中的很多奇怪行为和问题都可以追溯到它。

推特

Jason Wei分享：作为OpenAI的技术员工，一个典型的工作日都做了什么

贡献人：@Angela Chen Hanzhe 2022
https://x.com/_jasonwei/status/1760032264120041684?s=20
我的典型工作日，作为OpenAI的技术员工：
[上午9:00] 起床
[上午9:30] 乘坐Waymo前往Mission SF上班。在Tartine买鳄梨吐司
[上午9:45] 背诵OpenAI宪章。向优化之神祈祷。学习苦涩的教训
[上午10:00] 会议（Google Meet）。讨论如何在更多数据上训练更大的模型
[上午11:00] 编写代码，在更多数据上训练更大的模型。合作伙伴=@hwchung27
[中午12:00] 在食堂吃午餐（素食，无麸质）
[下午1:00] 实际上在更多数据上训练大型模型
[下午2:00] 调试基础设施问题（为什么我要从master分支拉代码？）
[下午3:00] 照看模型训练。和Sora玩耍
[下午4:00] 提示工程师前述在更多数据上训练的大型模型
[下午4:30] 短暂休息，坐在鳄梨椅上。想知道Gemini Ultra到底有多好
[下午5:00] 头脑风暴，寻找模型的潜在算法改进
[下午5:05] 得出结论，算法变更风险太大。更安全的方法是扩大计算和数据规模
[下午6:00] 晚餐。与Roon共享蛤蜊浓汤
[下午7:00] 回家
[晚上8:00] 喝点葡萄酒，回到编码工作。巴尔默峰即将到来
[晚上9:00] 分析实验运行。我对wandb既爱又恨
[晚上10:00] 启动实验，隔夜运行，以便明早获得结果
[凌晨1:00] 实验实际启动
[凌晨1:15] 睡觉时间。萨提亚和詹森在上方守望。压缩是你所需要的一切。晚安

Carlos E. Perez：Groq是一种根本不同的AI架构

贡献人：@Angela Chen Hanzhe 2022
https://x.com/IntuitMachine/status/1759941976927924682?s=20
Groq是一种根本不同的AI架构
在新一代AI芯片初创公司中，Groq以其围绕编译器技术优化的极简高性能架构的根本不同方法脱颖而出。Groq的秘密武器是这种优先考虑编译器的方法，它避免了复杂性，转而追求为特定效率量身定制。
Groq架构的核心是一个几乎令人惊讶的极简设计，它摒弃了不必要的逻辑，转而专注于原始的并行吞吐量。硬件本身可比拟于ASIC（应用特定集成电路），这是一种为机器学习精细调优的电路。然而，与固定功能的ASIC不同，Groq利用了一个自定义编译器，可以适应并优化不同的模型。正是这种流线型架构和智能编译器的结合，使Groq与众不同。
关键的洞察是，许多AI芯片堆叠了组件，如GPU，这带来了额外的硬件和膨胀。Groq回归基本原理，认识到机器学习工作负载关乎在简单数据类型和操作上的大规模并行性。通过消除通用硬件甚至是局部性等概念，设计最大化了吞吐量和效率。
这是通过Groq的编译器实现的，该编译器位于软件框架（如TensorFlow）和硬件之间。编译器分析和优化神经网络图，将它们定制并映射到底层架构上以加速执行。它将计算分解为最小的操作以释放并行性。编译器还启用了如批量大小为1的推理等功能，确保所有硬件都被有效利用。
关键的是，Groq在最终确定硬件设计之前就构建了其编译器。软件洞察直接影响了架构。这种共同设计过程允许在没有遗留限制的情况下进行推理特定的优化。编译器还提供了运行时间的确定性保证，使得可靠的扩展成为可能。
Groq的编译器和架构共同形成了一个流线型、强大的机器学习推理引擎。创新的编译器优先方法允许进行自定义优化，平衡了灵活性与性能。Groq意识到，当软件和硬件对齐时，少可以是更多，这是一个随着AI工作负载不断演进而显得更加引人注目的配方，而不是追求复杂性。

Yao Fu：“长上下文将取代RAG”观点的反论和可能的解决方式

贡献人：@Angela Chen Hanzhe 2022
https://x.com/Francis_YAO_/status/1759962812229800012?s=20
在我声称“长上下文将取代RAG”之后的最后两天里，我收到了不少批评（感谢，真的很感激！），其中许多是站得住脚的。在这里，我收集了主要的反论，并尝试一一解决（感觉像是一篇论文的驳斥）：
•RAG便宜，长上下文昂贵。确实如此，但请记住，相比于大型语言模型（LLM），BERT-small也很便宜，n-gram甚至更便宜，但他们今天不被使用，因为我们首先希望模型先聪明起来，然后再让聪明的模型变得便宜——人工智能的历史告诉我们，让聪明的模型变得便宜比让便宜的模型变聪明要容易得多——当它便宜时，它永远不会聪明。
•长上下文可以在整个解码过程中混合检索和推理。RAG只在最开始进行检索。通常情况下，给定一个问题，RAG检索与问题相关的段落，然后生成。长上下文对每一层和每一个令牌都进行检索。在许多情况下，模型需要进行实时的每个令牌交错检索和推理，并且只有在获得第一步推理结果后才知道要检索什么。只有长上下文可以处理这样的情况。
•RAG支持万亿级令牌，长上下文是100万。确实如此，但输入文档有其自然分布，我倾向于相信大多数需要检索的情况都在百万级以下。例如，想象一个处理相关法律文件的案例的层，或者一个学习机器学习的学生，其输入是三本ML书——感觉不像10亿那么长对吧？
•RAG可以被缓存，长上下文需要重新输入整个文档。这是对长上下文的一个常见误解：有一种叫做KV缓存的东西，你也可以设计复杂的缓存和内存层次结构ML系统与kv缓存一起工作。这意味着，你只需读取输入一次，然后所有后续查询都将重用kv缓存。有人可能会说kv缓存很大——确实如此，但别担心，我们LLM研究人员会及时给你提供疯狂的kv缓存压缩算法。
•你还想调用搜索引擎，这也是一种检索。确实如此，在短期内，这将继续成立。然而，有些疯狂的研究人员的想象力可能很狂野——例如，为什么不让语言模型直接关注整个谷歌搜索索引，即，让模型吸收整个谷歌。我的意思是，既然你们相信通用人工智能，为什么不呢？
•今天的Gemini 1.5 1M上下文很慢。确实如此，它肯定需要更快。我对此持乐观态度——它肯定会快得多，并最终与RAG一样快
我们来看看事态将如何发展，好吗？

Karpathy推荐"我对大型语言模型的基准测试"：一个全功能的测试评估框架
贡献人：@Angela Chen Hanzhe 2022
https://x.com/karpathy/status/1760022429605474550?s=20
"我对大型语言模型的基准测试"
https://nicholas.carlini.com/writing/2024/my-benchmark-for-large-language-models.html
这篇文章很不错，但不仅仅是特定的100个测试，GitHub上的代码看起来非常出色——一个全功能的测试评估框架，易于通过进一步的测试扩展并针对多个LLM运行。
https://github.com/carlini/yet-another-applied-llm-benchmark/tree/main
例如，目前100个测试在7个模型上的通过率：
•GPT-4：49%通过
•GPT-3.5：30%通过
•Claude 2.1：31%通过
•Claude Instant 1.2：23%通过
•Mistral Medium：25%通过
•Mistral Small：21%通过
•Gemini Pro：21%通过
我也非常喜欢从聊天历史中实际用例挖掘测试的想法。我认为人们会对许多“标准”的LLM评估基准测试的奇怪和人为性感到惊讶。现在……社区如何在这些基准测试上进行更多的合作……🤔

论文

稳健的智能体学习因果世界模型

贡献人：@林李挚
链接：http://arxiv.org/abs/2402.10877v1
长期以来，人们一直假设因果推理在稳健和泛化智能中起着根本作用。然而，尚不清楚智能体是否必须学习因果模型才能泛化到新的领域，或者是否其他归纳偏见就足够了。我们回答这个问题，表明任何能够在大量分布变化下满足遗憾界限的智能体必须已经学习了数据生成过程的近似因果模型，对于最优智能体来说会收敛到真实因果模型。我们讨论了这一结果对于转移学习和因果推断等多个研究领域的影响。

利用语言模型预测控制从人类反馈中学习更快

贡献人：@林李挚
链接：http://arxiv.org/abs/2402.11450v1
大语言模型 (LLMs) 已经显示出各种能力，比如从语言命令编写机器人代码 -- 可让非专家指导机器人行为，根据反馈修改它们，或组合它们执行新任务。然而，这些能力（由上下文学习驱动）仅适用于短期互动，其中用户的反馈仅在符合LLM上下文大小的情况下才保持相关，并可能在长期互动中被遗忘。在这项工作中，我们调查了微调写机器人代码的LLMs，以记住它们的上下文互动并改善它们的可教性，即它们如何有效地适应人类输入（通过用户认为任务成功之前的平均更正次数进行测量）。我们的关键观察是，当人机互动被制定为部分可观察的马尔可夫决策过程（其中人类语言输入是观察值，机器人代码输出是动作）时，那么训练LLM来完成先前的互动可以被视为训练转移动力学模型 -- 可与经典机器人技术（如模型预测控制MPC）结合，发现成功的更短路径。这催生了语言模型预测控制（LMPC）框架，通过对5个机器人实例中的78个任务对PaLM 2进行微调以提高其可教性 -- 将未见任务的非专家教学成功率提高了26.9%，同时将人类更正的平均次数从2.4降低到1.9。实验证明，LMPC也能生成强大的元学习者，将在未见的机器人实例和API上学习新任务的成功率提高了31.5%。请查看视频，代码和演示：https://robot-teaching.github.io/。

Sequoia：可扩展、强大和硬件感知的推测解码

贡献人：@林李挚
链接：http://arxiv.org/abs/2402.12374v1
随着大语言模型（LLMs）的使用增长，使用这些模型进行高效推断变得越来越重要。尽管最近涌现出了猜测解码作为加速推断的一种有前途的方法，但现有方法在扩展到更大的猜测预算以及适应不同的超参数和硬件方面存在局限。本文介绍了Sequoia，这是一种可扩展、强大且硬件感知的猜测解码算法。为了获得更好的可扩展性，Sequoia引入了一个动态规划算法，以找到最佳的用于被猜测的token的树结构。为实现强大的猜测性能，Sequoia采用了一种新颖的抽样和验证方法，在不同的解码温度下优于先前的工作。最后，Sequoia引入了一种硬件感知的树优化器，通过自动选择给定硬件平台的token树大小和深度，最大限度地提高猜测性能。评估结果显示，Sequoia将Llama2-7B、Llama2-13B和Vicuna-33B在A100上的解码速度提高了最多达4.04倍、3.84倍和2.37倍，以及Llama2-70B在L40上的卸载速度最多提高了10.33倍。

产品

fforward.ai

贡献人：@刘子嘉
https://fforward.ai/
fforward.ai 致力于简化分析客户访谈的过程。这个工具可以帮助产品经理、产品设计师和创业者更轻松地分析客户访谈，以便更好地决定下一步要构建什么产品。通过上传访谈文本到 fforward，该工具会自动提取用户需求和机会，找出跨多个访谈的共同主题，并为这些机会评分。这个工具的目的是帮助团队通过客户访谈揭示见解、发现机会，并优化产品路线图。

AdGen AI

贡献人：@刘子嘉
https://www.adgenai.com/
AdGen AI 是一个旨在简化和改善广告制作方式的解决方案的综合平台，利用先进的人工智能技术，可以从单个 URL 生成符合品牌要义的 100 多种广告变体。这个工具旨在帮助用户优化广告设计、完成 A/B 测试以及做出更明智的决策，从而提升营销效果。

HuggingFace&Github

OOTDiffusion

贡献人：@刘子嘉
https://github.com/levihsu/OOTDiffusion
选择喜欢的衣服，看不同穿搭的生成效果，实现快速试衣。

AnyGPT

贡献人：@刘子嘉
https://github.com/OpenMOSS/AnyGPT
AnyGPT的GitHub库上线了。AnyGPT是一个大型语言模型，具有多模态输入输出能力。通过连接大语言模型与多模态适配器和扩散解码器，AnyGPT可以处理各种模态输入（如文本、图像、视频、音频），并生成任何模态的输出。它采用离散表示法来处理不同模态的数据，使得模型能够轻松添加和处理新的模态，而不需要改变架构或训练方法。

投融资

Bioptimus募集到3500万美元的种子轮资金，用于开发专注于生物学的AI基础模型。

贡献人：@谭泽琪
https://techcrunch.com/2024/02/20/bioptimus-raises-35-million-seed-round-to-develop-ai-foundational-model-focused-on-biology/
生物学AI初创公司Bioptimus在巴黎成立，募集到3500万美元的种子轮资金。公司专注于生物学领域基础模型的开发，面对生物学数据难以获取的挑战，尤其是敏感的临床数据。Bioptimus由资深的人工智能研究员领导，包括前谷歌高级研究科学家Rudolphe Jenatton。该公司将利用与顶级学术医院合作获得的多模态患者数据训练其基础模型，旨在通过人工智能改善疾病诊断、精准医疗并帮助创造新的生物分子。

学习

Sora物理悖谬的几何解释

贡献人：@刘奕龙
https://mp.weixin.qq.com/s/HSZMbiFuNvTmBv26csZFGg
Sora横空出世，举世震惊。Sora声称“作为世界模拟的视频生成模型”，豪气干云。有人悲观预言很多传统领域可能被颠覆，其中最为岌岌可危的可能是计算机图形学，短视频和影视娱乐行业。依随OpenAI透露出更多技术细节，很多Sora生成的物理悖谬的视频流传于网络。这里笔者依据现代数学特别是整体微分几何领域的一些观点来解释目前Sora技术路线中的缺陷，希望能够抛砖引玉，为广大AI研究和工程人员拓宽思路，共同促进提高。这里主要用流形嵌入理论、灾变理论（临界态理论）、纤维丛示性类理论、热扩散方程和最优传输方程（蒙日-安培方程）的正则性理论来解释。

大模型在研发效率提升方面的应用与实践 | 新程序员

贡献人：@谭泽琪
https://mp.weixin.qq.com/s/RolBq4f4RWfcTqDeTs_HtQ
本文探讨了大模型技术在提升研发效率中的应用与实践。大模型通过辅助编程、自动生成代码、测试用例和需求管理等，显著提高了开发效率。谷歌和微软等公司利用大模型技术缩短编码时间，提升测试质量。中兴通讯通过自研和开源大模型的应用，推动企业数智化转型。文章还讨论了大模型在需求管理、设计分析、开发流水线、测试管理等方面的具体应用，并提出了基础模型选择、增强预训练、训练数据组织和精调方法的策略。实践结果显示，大模型在研发领域的应用取得了显著成效，但也面临计算资源和数据隐私的挑战。