快乐小码农-优快云博客

原创 DeepSeek开源周Day4三连发，梁文峰亲自上阵，API 错峰优惠

DeepSeek 使用两个 micro-batch 来重叠计算和全对全（all-to-all）通信，同时确保注意力机制的计算负载在两个 micro-batch 间保持平衡 —— 这意味着同一个提示可以在它们之间拆分。，该配置文件采用 EP32 和 TP1（与 DeepSeek V3/R1 的实际在线部署一致），提示长度设置为 4K，每 GPU 的批大小为 16K 个 token。需要注意的是，专家负载的具体预测方法不在此代码库的讨论范围内，一种常用的方法是使用历史统计数据的移动平均值。

2025-03-04 10:35:38 814

原创 CVPR 2025 录用结果公布！严禁AI评审！大模型参评审稿人的19篇论文被桌拒

CVPR 领域主席（Area Chair/AC）曝出：一些极不负责审稿人，要么彻底放弃了评审过程，要么提交了质量极低的审稿结果，其中一些结果还是由大型语言模型（LLM）生成的。最终，CVPR 官方公布了对此事件的处理结果：项目主席（PC）决定拒收这些审稿人撰写的 19 篇论文，实施「根据 CVPR 2025 此前公布的政策，确认了这些高度不负责的评审员，并追溯到他们作为作者提交的论文。此外，更惊爆的是，CVPR 组委对一些不负责任的审稿人进行了惩罚。），今年的大会录取率创下了历史新低。

2025-03-04 10:31:32 636

原创【最新开源】美研究机构发布全球最大生物学AI模型Evo 2！阶跃星辰首次开源Step系列多模态大模型!

2月19日，美国 Arc Institute 与英伟达合作，联合斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的研究人员，共同推出了——。该模型以超过 128，000 个基因组的数据为基础，训练了 9.3 万亿个核苷酸，使其规模与最强大的生成性 AI 语言模型相媲美。是一种先进的 DNA 语言模型，专注于长上下文的建模和设计。它能够在单核苷酸分辨率下对 DNA 序列进行建模，支持长达 100 万碱基对的上下文长度。

2025-02-25 15:48:56 729

原创机器人前瞻：1X发布全新人形机器人！还有史上最惊悚的机器人！

是 Figure 首个人形视觉-语言-动作（VLA）模型，它统一了感知、语言理解和学习控制，可以克服机器人技术中的多个长期挑战。Clone Robotics 是一家成立于 2021 年的波兰创业公司 —— 专注于仿生机器人技术，致力于实现类似生命体的运动、力量和灵巧度。公司成立后推出的首个产品名叫「Clone Hand」，这是一款配备人工肌肉和骨骼的机械臂，其行为模式与人手相似。是首个同时操控两台机器人的VLA，使他它们能够解决共同的、长序列操作任务，即使是处理从未见过的物品。

2025-02-25 15:46:10 765

原创阿里国际开源Ovis2多模态新王炸！DeepSeek开源首个代码库FlashMLA！

系列包括 1B、2B、4B、8B、16B 和 34B 六种不同参数规模的模型版本，以满足多样化需求。它不仅强化了小规模模型的能力密度，还通过指令微调和偏好学习大幅提升了思维链（CoT）推理能力，使其在数学推理和视频理解任务中表现尤为突出。Hopper 是英伟达的GPU（图形处理芯片）架构，例如H100和H800，发布于2022年，主要用于AI计算。引入了视频和多图像处理能力，并增强了多语言能力和复杂场景下的OCR能力，显著提升了模型的实用性。冻结 LLM，训练视觉模块，学习视觉特征到嵌入的转化。

2025-02-25 15:44:10 409

原创马斯克发布「地表最强」Grok-3，屠榜多个排行榜，暴击DeepSeek-R1

参考：https://techcrunch.com/2025/02/17/elon-musks-ai-company-xai-releases-its-latest-flagship-ai-grok-3/在数学（AIME 2024）、科学问答（GPQA）、编码（LCB）上刷新SOTA，大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。在多项基准测试中，在数学（AIME’24）、科学（GPQA）和编码（LCB Oct-Feb）上，

2025-02-20 19:49:49 980

原创 UC 伯克利等开源OpenThinker-32B，性能直逼 DeepSeek-R1-32B！

最近一段时间，以 DeepSeek-R1 为代表的大型推理模型可谓是「当红炸子鸡」！

2025-02-17 18:11:56 772

原创 AI最新资讯：DeepSeek 估值飙升至 1500 亿美元？国行iPhone最终选择阿里千问？

目前，它打开的是视频推送，但未来也可能会提供图片生成的相关内容。除了图像生成功能的改进，OpenAI 还对 Sora 的视频推送进行了改版，将其分为「Best」和「Top」两个类别，将帮助用户更好地筛选和查找内容。此外，业内人士也指出，ChatGPT 尚未推出基于 GPT-4o 的多模态图像生成功能，因此此次 Sora 项目的推出将是一个值得关注的新进展。近日，OpenAI 被爆出一个消息：在其内部测试的项目 Sora 中，除了已经推出的视频生成功能外，图像生成功能也在紧锣密鼓地研发中。

2025-02-14 15:20:23 779

原创 DeepSeek 开源新一代文生图模型 Janus-Pro！

1月28日，DeepSeek 开源了一个文生图模型，旨在实现高质量的文本-图像生成与多模态理解。是一种新颖的自回归框架，统一了多模态理解和生成。通过将视觉编码解耦为独立路径，同时利用单一的统一 Transformer 架构进行处理，解决了以往方法的局限性。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突，还增强了框架的灵活性。

2025-02-14 15:11:26 355

原创宇树科技+英伟达！ASAP让宇树G1人形机器人变“真人”

基于 HumanoidVerse 框架，支持在多个模拟器中训练人形机器人技能，并实现模拟器与现实世界之间的平滑迁移。(Aligning Simulation and Real Physics，对齐模拟与真实物理) 的创新框架，并将其应用于宇树科技G1人形机器人。在真实机器人上的测试中，ASAP也能够显著提高机器人的运动性能，使机器人能够完成高难度的敏捷动作。在模拟器之间的迁移中，ASAP能够显著降低运动跟踪误差，优于其他基准方法。，这是一个两阶段框架，旨在解决动力学失配问题，并实现敏捷的人形全身技能。

2025-02-14 15:07:42 658

原创谷歌反击DeepSeek R1发布Gemini 2.0全家桶，几大云巨头官宣接入DeepSeek

2月2日，云轴科技 ZStack 宣布 AI Infra 平台 ZStack 智塔全面支持企业私有化部署 DeepSeek-V3/R1/ Janus Pro三种模型，并可基于海光、昇腾、英伟达、英特尔等多种国内外CPU/GPU适配，将充分发挥DeepSeek开源模型和低成本高性能特点，助力企业级AI应用进一步落地。2 月 4 日，华为计算宣布，潞晨科技携手昇腾，联合发布基于昇腾算力的 DeepSeek R1 系列推理 API，及云镜像服务。

2025-02-14 15:02:30 603

原创最新开源： Hugging Face最小AI视觉语言模型登场！百川智能开源Baichuan-M1医疗增强大模型！

基于 GenAI 技术构建，而依赖于逻辑链条（Chain-of-Thought，CoT）来逐步推导出解决方案，这是一种用技术换时间和算力资源的方案，使思考模型可以用 10 分钟做完一套高考数学卷，分数超过 120 分，在逻辑推理能力上，进一步靠近人类专家。两款模型均采用 Hugging Face 的先进多模态技术，能够执行图像描述、短视频分析、文档理解等任务，尤其适合内存少于 1GB 的设备如笔记本电脑，为开发者提供更广泛的应用场景。让生成的「白模」（没上色的模型）效果“堪比设计师手工建模”。

2025-02-14 11:20:06 962

原创百川智能发布「全场景深度思考模型」，开源Baichuan-M1医疗增强大模型！

在 MMMU-val、MathVista 等权威评测中的成绩也超越了 GPT-4o、Claude3.5 Sonnet、QVQ-72B-Preview 等模型，进一步证明了其跨领域的卓越性能。在 AIME、Math 等数学基准测试以及LiveCodeBench代码任务上的表现均优于 o1-preview 等模型，展现了其强大的语言理解和处理能力。，作为 Baichuan-M1-preview 的小尺寸版本，Baichuan-M1-14B 在保持高性能的同时，更加灵活易用。1 月 24 日，百川智能发布了。

2025-02-14 11:14:35 417

原创 DeepSeek-R1 成为首个与OpenAI o1比肩的开源推理模型！

下如图所示，做 2024 年的 AIME 数学奥赛试卷，DeepSeek-R1-Zero 的平均 pass@1 分数从最初的 15.6% 显著提升到了 71.0%，达到了与 OpenAI-o1-0912 相当的水平。结果显示，通过RL，即便没有监督微调数据，DeepSeek-R1-Zero 依然获得了强大的推理能力。在多数投票机制中，DeepSeek-R1-Zero 在 AIME 中的成功率进一步提升到了 86.7%，甚至超过了 OpenAI-o1-0912 的表现。

2025-02-14 11:02:23 460

原创首份《人工智能安全指数报告》发布，Anthropic 获得最高安全评级，中国智谱上榜

2024年12月，未来生命研究所（Future of Life Institute）发布了第一份《人工智能安全指数报告》（FLI AI Safety Index 2024），共80页。该报告由图灵奖得主 Yoshua Bengio、加州大学伯克利分校计算机科学教授 Stuart Russell 等7位全球顶尖AI专家组成的独立评审小组，评估6家主流 AI 公司（Anthropic、Google DeepMind、Meta 、OpenAI、x.AI、智谱）在六大领域的安全实践，包括。

2025-02-14 11:00:28 1030

原创 2024 年最具影响力的AI论文 Part 1

简而言之，对于每条过滤规则，研究团队都会从原始数据和过滤后的数据中抽取了 3600 亿token 的随机样本，然后训练了一个 17.1 亿个参数的小型 Llama 类模型。在“稀疏混合专家”（Sparse Mixture of Experts）模型中，“稀疏”（Sparse）指的是在任意时刻，只有专家层的子集（在 Mixtral 8x7B 中通常是 8 个中的 1 到 2 个）被激活，用于处理一个 token。这篇论文的研究表明，LoRA 的学习效果明显低于完整微调，尤其是在编码等需要获取新知识的任务中。

2025-01-16 09:39:21 1258

原创最新开源：VITA-1.5：实时视觉与语音交互，1.5秒互动延迟

的独特之处在于其能够进行高效的语音对话，无需单独的自动语音识别（ASR）和文本到语音（TTS）模块，这对于加速端到端多模态系统的响应时间具有颠覆性意义。，包括视觉对齐、视觉理解和视觉有监督微调，旨在弥合视觉和语言之间的差距，并使模型能够理解图像内容和回答视觉问题。，是一个开源的集成了视觉、语言和语音的多模态大语言模型，旨在实现类似 GPT-4o 水平的实时视觉和语音交互。，包括编解码器训练和 NAR + AR 解码器训练，旨在使模型能够生成语音输出，实现端到端的语音交互。输出端则具有一个端到端的。

2025-01-16 09:30:00 563

原创最新开源：英伟达推出 Cosmos 世界基础模型平台，支持物理 AI 系统开发

是一个世界模型平台，专为物理AI而设计，上面有一系列开源、开放权重的视频世界模型，参数量从 4B 到 14B 不等。这些模型的作用非常明确，就是为机器人、自动驾驶汽车等在物理世界中运行的 AI 系统生成大量照片级真实、基于物理的合成数据，以解决该领域数据严重不足的问题。平台发布了 8 个模型，参数量从 4B 到 14B 不等，这些模型在 2000 万小时的视频数据上进行训练，分为。一共包含了四大功能模块：扩散模型、自回归模型、视频分词器，以及视频处理与编辑流程。（离散 token）模型两类，支持。

2025-01-16 09:27:10 434

原创 Aria-UI：面向GUI智能交互的多模态模型，超越Claude 3.5

通过开创性的「纯视觉理解」方案彻底改变了这一现状，无需任何后台数据支持，仅通过直接观察用户界面就能完成自然语言理解、界面元素定位、语义对齐和任务执行等全流程操作。是一个轻量级且快速的混合专家(MoE)模型，每个token激活 3.9B 参数，支持超高分辨率，能够高效编码不同大小和纵横比的 GUI 输入。，一款采用纯视觉理解的多模态模型（LMM），凭借其令人瞩目的性能表现，迅速成为AI技术圈中的焦点，甚至超越了Claude 3.5。，我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

2025-01-16 09:24:40 369

原创最新开源：Dispider 实现视频LLMs的主动实时交互！又一个媲美 o1 的“开源推理模型”来了！

NovaSky 团队利用阿里巴巴的 QwQ-32B-Preview 模型，生成了Sky-T1-32B-Preview 的初始训练数据，随后“整理”数据混合，并利用 OpenAI 的 GPT-4o-mini 将数据重构为更易用的格式，最终形成了可用的训练集。Sana 不仅在速度上取得了突破，在图像质量方面也具有竞争力，即使是复杂的场景，如文字渲染和物体细节，Sana 的表现也令人满意。不仅在常规视频 QA 任务中保持了强大的性能，而且在流式场景响应方面也明显超越了以前的在线模型，从而验证了架构的有效性。

2025-01-16 09:20:40 912

原创最新端侧AI ：阿联酋TII发布Falcon3！AI Safeguard联合CMU开发Ivy-VL！微软发布超强小模型Phi-4

超越了顶尖的端侧 SOTA 模型，包括 Qwen2-VL-2B，InternVL2-2B，InternVL2.5-2B，SmolVLM-Instruct, Aquila-VL-2B 以及 PaliGemma 3B 等模型。与传统的大型语言模型（LLM）相比，SLM 模型因其较少的参数和更简洁的设计，具备高效性和低成本优势，尤其适合在客户服务、医疗保健、物联网等领域中应用。，拥有仅 3B 的参数，与7B以几十B的多模态模型相比，具有更小的硬件占用。，延续之前的小参数模式只有 140 亿。

2025-01-06 10:36:12 797

原创最新大模型：香港多所高校推出多模态大模型Lyra！IBM发布Granite3.1模型！

这是一组轻量级、先进的开源基础模型，支持多语言、代码生成、推理和工具使用，能够在有限的计算资源上运行。提供12 种不同语言的多语言支持：英语、德语、西班牙语、法语、日语、葡萄牙语、阿拉伯语、捷克语、意大利语、韩语、荷兰语和中文。的极小尺寸和快速生成能力使其非常适合在移动设备上应用，可以用于各种需要高分辨率图像生成的场景，如图像编辑、视频创建等。在各种视觉-语言、视觉-语音和语音-语言基准测试中取得了 SOTA 的性能，同时还使用了更少的计算资源和训练数据。

2025-01-06 10:31:17 953

原创智源发布 FlagEval 全球100+大模型综合评测结果！国产大模型拿下多个冠军！

今年上半年参评的模型普遍无法生成正确的中文文字，但此次参评的头部模型已经具备中文文字生成能力，但整体普遍存在复杂场景人物变形的情况，针对常识或知识性推理任务，小于3的数量关系任务表现有所提升，大于3的数量关系依然无法处理，涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。，得益于文本大模型的进步，能力提升巨大，覆盖面更全，但在具体任务上与专家模型还存在一定差距，整体而言，性能好、通用能力强的开源语音语言模型偏少。大模型更擅长反驳，各个模型表现突出的辩论维度趋同，在不同的辩题中，模型表现差距显著。

2025-01-06 10:26:46 934

原创最新开源：国产大模型DeepSeek-V3来了！阿里云开源首个多模态推理模型QVQ！腾讯推出新型翻译模型 DRT-o1

DeepSeek-V3 的成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型，并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。此外，在剩下的三个专注于数学和科学问题的基准测试中，QVQ-72B-Preview 表现出色，有效缩小了与领先的最先进的 OpenAI o1 模型之间的差距，与 Claude3.5 Sonnet等推理模型相当。DeepSeek-V3 在多种标准基准测试中表现优异，尤其在数学和代码任务上表现突出。

2025-01-06 10:19:27 2709

原创端侧AI | 小模型 | SLM（11月-12月）

在基准测试方面，和其他 SLM 模型(Gemma-2B, Qwen1.5-1.8B, StableLM-2-1.6B 和 OpenELM1.1B)相比，Fox-1 在 ARC Challenge (25-shot)， HellaSwag (10-shot)， TruthfulQA(0-shot)，MMLU (5-shot)，Winogrande (5-shot)，GSM8k (5-shot)) 模型因其较少的参数和更简洁的设计，具备高效性和低成本优势，尤其适合在客户服务、医疗保健、物联网等领域中应用。

2025-01-06 10:15:05 1040

原创最新开源：全球首个半导体专用大模型SemiKong 70B发布！全球首个中文安全领域事实性基准评测集！

涵盖了包括中国违法违规，伦理道德，偏见歧视，辱骂仇恨，身心健康，谣言错误，网络安全理论知识等方面的安全知识。SemiKong 旨在通过将领域特定的知识融入模型中，解决半导体行业面临的独特挑战，如半导体器件和工艺的物理和化学问题，充当该领域的“数字专家”，从而显著加快新芯片的上市速度。SemiKong 系列模型是双语语言模型，训练于 3T 多语言语料库，展示了在语言理解、常识推理、阅读理解等方面的强大能力。中文：使用中文并且聚焦于中国相关的安全知识，特别是中国法律框架、道德标准和文化环境相关的安全问题。

2025-01-06 10:07:54 767

原创【2024年终总结】2024年AI大模型总结报告 | Artificial Analysis

2024年是大模型发展非常迅速的一年，我们见证了太多AI技术变革带来的惊艳！这一年里，各家大模型的能力提升层出不穷。LLM方面，OpenAI发布了更强的o系列模型；文生图开源模型也出现了 SD 的替代者 Flux；视频生成模型更是百花齐放，很多大模型公司都推出了类 Sora 的视频生成模型。近日，回顾了2024年人工智能的重大事件，梳理出了一份关于人工智能领域的年终总结。Artificial Analysis 是一家领先的独立AI基准测试和分析平台，上面分析的模型不仅包括，还有如文生图、文生视频等等。

2025-01-06 09:48:38 1208

原创【2024年终总结】2024年最值得读的 AI 论文

对于刚刚过去的 2024 年，有哪些论文值得反复阅读？知名机器学习与 AI 研究者 Sebastian Raschka 整理了一份关于LLM 的阅读清单（），清单详细介绍了每个月都有哪些重要论文产出。

2025-01-06 09:44:13 1001

原创【2024年终总结】2024年“大模型 & AI应用”值得推荐的好书

人工智能简史》全面讲述人工智能的发展史，几乎覆盖人工智能学科的所有领域，包括人工智能的起源、自动定理证明、专家系统、神经网络、自然语言处理、遗传算法、深度学习、强化学习、超级智能、哲学问题和未来趋势等，以宏阔的视野和生动的语言，对人工智能进行了全面回顾和深度点评。一是以通俗易懂的方式解释复杂概念，通过实例和案例讲解大语言模型的工作原理和工作流程、基本使用方法，包括大语言模型常用的三种交互格式、提示工程、工作记忆与长短期记忆，以及外部工具等，使读者能够全面了解和掌握这一先进技术的应用和二次开发。

2025-01-06 09:37:59 1733

原创最新开源：Meta 开源 Llama 3.3：更小规模、更高性能！谷歌新一代视觉语言模型PaliGemma 2！

对硬件资源的要求大幅降低。（Vision Tower）：基于 Siglip Vision Transformer，它通过将图像分割为 14×14 的小块（称为图像 patch），并为每块生成特定的嵌入（embedding），最终提取图像的整体语义。的表现超过了谷歌的 Gemini 1.5 Pro、OpenAI 的 GPT-4o 和亚马逊的 Nova Pro，展现出了强大的竞争力。技术，通过整合分组查询注意力（GQA）机制，Llama 3.3 提升了推理时的可扩展性和性能，进一步优化了模型的应用能力。

2024-12-10 16:32:17 7595

原创 NeurIPS 2024 最佳论文揭晓！北大、字节跳动「VAR模型」获最佳论文！

在符合直觉的同时，这样的自回归算法带来了很好的效果：VAR 显著提升了自回归模型的速度和生成质量，在多方面使得自回归模型首次超越扩散模型。与传统的按像素或token顺序生成图像的方法不同，VAR 模型通过从低到高分辨的多尺度 token 图进行自回归生成，每一尺度的token图都依赖于前一尺度的结果。此外，在对 80B 个通用 token 进行持续预训练时，RHO-1 在 15 个不同任务上实现了 6.8% 的平均提升，数据效率和语言模型预训练的性能都得到了提升。

2024-12-10 09:33:47 1994

原创国内“推理模型”卷疯了！类 o1 推理模型，谁更强？

在多模态推理基准测试中超越了其基础模型 8.9%，并在性能上超越了一众开闭源模型，如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。但 OpenAI 并没有公开 o1 模型的具体技术细节，从各高校、研究机构的 o1 模型复现研究来看，o1 的主要技术路线为「搜索+强化学习」，即对思维链进行搜索，然后用强化学习去学习搜索的过程。最近，国内有很多大模型公司开始发布类似 o1 的模型，虽然不排除有炒作的嫌疑，但说明大模型的竞争是非常激烈的！

2024-12-03 10:24:54 1522

原创最新开源：阿里开源QwQ-32B-Preview推理大模型！月之暗面Kimi开源大模型推理架构 Mooncake！阿里开源图像生成模型Qwen2VL-Flux！

是由 Moonshot AI 提出的长文高效推理架构，它采用了 KVCache 为中心的分离架构，将预填充和解码集群分开，并利用 GPU 集群中未充分利用的 CPU、DRAM 和 SSD 资源实现分离的 KVCache。在全面考察数学解题能力的 MATH-500 评测中，QwQ 斩获 90.6% 的高分，一举超越OpenAI o1-preview 和 o1-mini，体现了在各类数学主题上的全面理解；不仅能够根据用户输入的图像生成多幅相似图像，还支持文本引导的图像混合和图像引导的图像融合。

2024-12-02 15:32:20 1728

原创最新开源：开源科研神器 OpenScholar 来了！能检索4500万篇论文，科研效率提升10倍！

本质上，OpenScholar 是一个进行过检索增强（retrieval-augmented）的语言模型，外接一个包含4500万篇论文的数据库，性能可以优于专有系统，甚至媲美人类专家。为了方便自动化评估，研究团队还推出了全新的大规模基准 ScholarQABench，覆盖了CS、生物、物理等多个学科，用于评价模型在引用准确性、涵盖度和质量的等方面的表现。总体而言， OpenScholar 实现了SOTA性能，大大优于 GPT-4o 和相应的标准 RAG 版本，以及 PaperQA2 等专用的文献综述系统。

2024-11-28 16:36:39 1010

原创 TÜLU 3：首个发布后训练配方的开源模型，性能超越Llama3.1

TÜLU 3 建立在 Llama 3.1 基础模型之上，其结果超过了 Llama 3.1、Qwen 2.5、Mistral 的 instruct 版本，甚至超过了 GPT-4o-mini 和 Claude 3.5-Haiku 等闭源模型。最近，来自艾伦人工智能研究所和华盛顿大学的研究团队推出了 TÜLU 3，一个完全开放的 SOTA 后训练模型系列，以及它的数据、代码和训练方法，作为现代后训练技术的综合指南。正是在这个阶段，模型从一个"无所不知"却缺乏判断力的网络，转变为具有特定功能导向的实用工具。

2024-11-28 16:30:31 576

原创最新开源：「天工大模型4.0」o1版来了！国内首款中文逻辑推理能力o1模型

图：在求解组合（从 10 人中选出 3 人组成一队，共多少种选择）问题时，Skywork o1 Preview 在全链路思考过后，答案正确。图：在比较 13.8 与 13.11 孰大孰小时，Skywork o1 Lite 给出了完整的思维链路，找出解题的关键在于小数位大小。与当前市场上基于OpenAI o1模型的复现工作不同，Skywork o1 不仅在输出结果上展现了深度的。，而且在标准测试集中的表现远超常规模型，实现了推理性能的显著提升。技术，能模仿人类的思维过程，显著提升逻辑推理和复杂任务解决能力。

2024-11-28 16:21:52 702

原创吴恩达开源大模型套件aisuite：一个接口，可调用11个模型平台

刚刚，吴恩达宣布，推出新的开源大模型套件 aisuite，不到半天就斩获了1200+星标。aisuite 的核心功能是集成了多达11个知名大模型平台，并提供了一个统一的接口，使不同模型的调用变得极为简单。何构建这个项目？吴恩达表示构建应用时，发现与多个提供商集成非常麻烦。

2024-11-26 14:48:38 890

原创清华、北大团队推出 LLaVA-o1：首个自发性视觉 AI 模型

LLaVA-o1 拥有 110 亿个参数，基于 Llama-3.2-Vision-Instruct 模型开发，设计了总结（summary）、描述（caption）、推理（reasoning）和结论（conclusion）4 个推理阶段。LLaVA-o1(11B) 在六个具有挑战性的多模态基准测试中表现优异，超越了其他竞争者，如 Gemini-1.5-Pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。图 3. 生成 LLaVA-o1-100k 数据集的流程。

2024-11-21 13:18:33 957

原创 Mistral AI 再发力！最强开源多模态模型 Pixtral Large！对标ChatGPT全面升级le Chat！

Mistral AI 在 9 月份甩出了自家的首款多模态大模型 Pixtral 12B，如今，Pixtral 12B 技术报告全公开。从论文的测试结果来看，Pixtral 12B 明显优于其他类似大小的开源模型（比如 Llama-3.2 11B 和 Qwen-2-VL 7B），甚至在一些评测中，表现比 Meta 家的多模态老大哥 Llama-3.2 90B 还要好。

2024-11-20 13:01:35 1486

原创【大模型前沿】FinVision：一种用于股市预测的多智能体框架！港中大 SEALONG，用贝叶斯技巧提升长上下文推理能力！

通过与基准模型的比较，FinVision 在所有评估的股票中表现出显著优势，特别是与传统的买入并持有策略和基于强化学习的模型相比。由芝加哥伊利诺伊大学的 Sorouralsadat Fatemi 和 Yuheng Hu 提出的 FinVision 框架，展示了一种多模态、多智能体系统在股票市场预测中的应用，具有显著的创新性和实用性。每个模块都承担特定的功能，协同工作以提供全面的交易建议。此外，他们还确定了基于 LLM 的智能体的六个关键特征，并在此基础上总结了当前的研究进展，分析了其局限性。

2024-11-20 09:35:00 1024

decision_tree_classifier_viz

空空如也