- 博客(152)
- 资源 (1)
- 收藏
- 关注
原创 DeepSeek开源周Day4三连发,梁文峰亲自上阵,API 错峰优惠
DeepSeek 使用两个 micro-batch 来重叠计算和全对全(all-to-all)通信,同时确保注意力机制的计算负载在两个 micro-batch 间保持平衡 —— 这意味着同一个提示可以在它们之间拆分。,该配置文件采用 EP32 和 TP1(与 DeepSeek V3/R1 的实际在线部署一致),提示长度设置为 4K,每 GPU 的批大小为 16K 个 token。需要注意的是,专家负载的具体预测方法不在此代码库的讨论范围内,一种常用的方法是使用历史统计数据的移动平均值。
2025-03-04 10:35:38
814
原创 CVPR 2025 录用结果公布!严禁AI评审!大模型参评审稿人的19篇论文被桌拒
CVPR 领域主席(Area Chair/AC)曝出:一些极不负责审稿人,要么彻底放弃了评审过程,要么提交了质量极低的审稿结果,其中一些结果还是由大型语言模型(LLM)生成的。最终,CVPR 官方公布了对此事件的处理结果:项目主席 (PC)决定拒收这些审稿人撰写的 19 篇论文,实施「根据 CVPR 2025 此前公布的政策,确认了这些高度不负责的评审员,并追溯到他们作为作者提交的论文。此外,更惊爆的是,CVPR 组委对一些不负责任的审稿人进行了惩罚。),今年的大会录取率创下了历史新低。
2025-03-04 10:31:32
636
原创 【最新开源】美研究机构发布全球最大生物学AI模型Evo 2!阶跃星辰首次开源Step系列多模态大模型!
2月19日,美国 Arc Institute 与英伟达合作,联合斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的研究人员,共同推出了——。该模型以超过 128,000 个基因组的数据为基础,训练了 9.3 万亿个核苷酸,使其规模与最强大的生成性 AI 语言模型相媲美。是一种先进的 DNA 语言模型,专注于长上下文的建模和设计。它能够在单核苷酸分辨率下对 DNA 序列进行建模,支持长达 100 万碱基对的上下文长度。
2025-02-25 15:48:56
729
原创 机器人前瞻:1X发布全新人形机器人!还有史上最惊悚的机器人!
是 Figure 首个人形视觉-语言-动作(VLA)模型,它统一了感知、语言理解和学习控制,可以克服机器人技术中的多个长期挑战。Clone Robotics 是一家成立于 2021 年的波兰创业公司 —— 专注于仿生机器人技术,致力于实现类似生命体的运动、力量和灵巧度。公司成立后推出的首个产品名叫「Clone Hand」,这是一款配备人工肌肉和骨骼的机械臂,其行为模式与人手相似。是首个同时操控两台机器人的VLA,使他它们能够解决共同的、长序列操作任务,即使是处理从未见过的物品。
2025-02-25 15:46:10
765
原创 阿里国际开源Ovis2多模态新王炸!DeepSeek开源首个代码库FlashMLA!
系列包括 1B、2B、4B、8B、16B 和 34B 六种不同参数规模的模型版本,以满足多样化需求。它不仅强化了小规模模型的能力密度,还通过指令微调和偏好学习大幅提升了思维链(CoT)推理能力,使其在数学推理和视频理解任务中表现尤为突出。Hopper 是英伟达的GPU(图形处理芯片)架构,例如H100和H800,发布于2022年,主要用于AI计算。引入了视频和多图像处理能力,并增强了多语言能力和复杂场景下的OCR能力,显著提升了模型的实用性。冻结 LLM,训练视觉模块,学习视觉特征到嵌入的转化。
2025-02-25 15:44:10
409
原创 马斯克发布「地表最强」Grok-3,屠榜多个排行榜,暴击DeepSeek-R1
参考:https://techcrunch.com/2025/02/17/elon-musks-ai-company-xai-releases-its-latest-flagship-ai-grok-3/在数学(AIME 2024)、科学问答(GPQA)、编码(LCB)上刷新SOTA,大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。在多项基准测试中,在数学(AIME’24)、科学(GPQA)和编码(LCB Oct-Feb)上,
2025-02-20 19:49:49
980
原创 UC 伯克利等开源OpenThinker-32B,性能直逼 DeepSeek-R1-32B!
最近一段时间,以 DeepSeek-R1 为代表的大型推理模型可谓是「当红炸子鸡」!
2025-02-17 18:11:56
772
原创 AI最新资讯:DeepSeek 估值飙升至 1500 亿美元?国行iPhone最终选择阿里千问?
目前,它打开的是视频推送,但未来也可能会提供图片生成的相关内容。除了图像生成功能的改进,OpenAI 还对 Sora 的视频推送进行了改版,将其分为「Best」和「Top」两个类别,将帮助用户更好地筛选和查找内容。此外,业内人士也指出,ChatGPT 尚未推出基于 GPT-4o 的多模态图像生成功能,因此此次 Sora 项目的推出将是一个值得关注的新进展。近日,OpenAI 被爆出一个消息:在其内部测试的项目 Sora 中,除了已经推出的视频生成功能外,图像生成功能也在紧锣密鼓地研发中。
2025-02-14 15:20:23
779
原创 DeepSeek 开源新一代文生图模型 Janus-Pro!
1月28日,DeepSeek 开源了一个文生图模型,旨在实现高质量的文本-图像生成与多模态理解。是一种新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码解耦为独立路径,同时利用单一的统一 Transformer 架构进行处理,解决了以往方法的局限性。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。
2025-02-14 15:11:26
355
原创 宇树科技+英伟达!ASAP让宇树G1人形机器人变“真人”
基于 HumanoidVerse 框架,支持在多个模拟器中训练人形机器人技能,并实现模拟器与现实世界之间的平滑迁移。(Aligning Simulation and Real Physics,对齐模拟与真实物理) 的创新框架,并将其应用于宇树科技G1人形机器人。在真实机器人上的测试中,ASAP也能够显著提高机器人的运动性能,使机器人能够完成高难度的敏捷动作。在模拟器之间的迁移中,ASAP能够显著降低运动跟踪误差,优于其他基准方法。,这是一个两阶段框架,旨在解决动力学失配问题,并实现敏捷的人形全身技能。
2025-02-14 15:07:42
658
原创 谷歌反击DeepSeek R1发布Gemini 2.0全家桶,几大云巨头官宣接入DeepSeek
2月2日,云轴科技 ZStack 宣布 AI Infra 平台 ZStack 智塔全面支持企业私有化部署 DeepSeek-V3/R1/ Janus Pro三种模型,并可基于海光、昇腾、英伟达、英特尔等多种国内外CPU/GPU适配,将充分发挥DeepSeek开源模型和低成本高性能特点,助力企业级AI应用进一步落地。2 月 4 日,华为计算宣布,潞晨科技携手昇腾,联合发布基于昇腾算力的 DeepSeek R1 系列推理 API,及云镜像服务。
2025-02-14 15:02:30
603
原创 最新开源: Hugging Face最小AI视觉语言模型登场!百川智能开源Baichuan-M1医疗增强大模型!
基于 GenAI 技术构建,而依赖于逻辑链条(Chain-of-Thought,CoT)来逐步推导出解决方案,这是一种用技术换时间和算力资源的方案,使思考模型可以用 10 分钟做完一套高考数学卷,分数超过 120 分,在逻辑推理能力上,进一步靠近人类专家。两款模型均采用 Hugging Face 的先进多模态技术,能够执行图像描述、短视频分析、文档理解等任务,尤其适合内存少于 1GB 的设备如笔记本电脑,为开发者提供更广泛的应用场景。让生成的「白模」(没上色的模型)效果“堪比设计师手工建模”。
2025-02-14 11:20:06
962
原创 百川智能发布「全场景深度思考模型」,开源Baichuan-M1医疗增强大模型!
在 MMMU-val、MathVista 等权威评测中的成绩也超越了 GPT-4o、Claude3.5 Sonnet、QVQ-72B-Preview 等模型,进一步证明了其跨领域的卓越性能。在 AIME、Math 等数学基准测试以及LiveCodeBench代码任务上的表现均优于 o1-preview 等模型,展现了其强大的语言理解和处理能力。,作为 Baichuan-M1-preview 的小尺寸版本,Baichuan-M1-14B 在保持高性能的同时,更加灵活易用。1 月 24 日,百川智能发布了。
2025-02-14 11:14:35
417
原创 DeepSeek-R1 成为首个与OpenAI o1比肩的开源推理模型!
下如图所示,做 2024 年的 AIME 数学奥赛试卷,DeepSeek-R1-Zero 的平均 pass@1 分数从最初的 15.6% 显著提升到了 71.0%,达到了与 OpenAI-o1-0912 相当的水平。结果显示,通过RL,即便没有监督微调数据,DeepSeek-R1-Zero 依然获得了强大的推理能力。在多数投票机制中,DeepSeek-R1-Zero 在 AIME 中的成功率进一步提升到了 86.7%,甚至超过了 OpenAI-o1-0912 的表现。
2025-02-14 11:02:23
460
原创 首份《人工智能安全指数报告》发布,Anthropic 获得最高安全评级,中国智谱上榜
2024年12月,未来生命研究所(Future of Life Institute)发布了第一份《人工智能安全指数报告》(FLI AI Safety Index 2024),共80页。该报告由图灵奖得主 Yoshua Bengio、加州大学伯克利分校计算机科学教授 Stuart Russell 等7位全球顶尖AI专家组成的独立评审小组,评估6家主流 AI 公司(Anthropic、Google DeepMind、Meta 、OpenAI、x.AI、智谱)在六大领域的安全实践,包括。
2025-02-14 11:00:28
1030
原创 2024 年最具影响力的AI论文 Part 1
简而言之,对于每条过滤规则,研究团队都会从原始数据和过滤后的数据中抽取了 3600 亿token 的随机样本,然后训练了一个 17.1 亿个参数的小型 Llama 类模型。在“稀疏混合专家”(Sparse Mixture of Experts)模型中,“稀疏”(Sparse)指的是在任意时刻,只有专家层的子集(在 Mixtral 8x7B 中通常是 8 个中的 1 到 2 个)被激活,用于处理一个 token。这篇论文的研究表明,LoRA 的学习效果明显低于完整微调,尤其是在编码等需要获取新知识的任务中。
2025-01-16 09:39:21
1258
原创 最新开源:VITA-1.5:实时视觉与语音交互,1.5秒互动延迟
的独特之处在于其能够进行高效的语音对话,无需单独的自动语音识别(ASR)和文本到语音(TTS)模块,这对于加速端到端多模态系统的响应时间具有颠覆性意义。,包括视觉对齐、视觉理解和视觉有监督微调,旨在弥合视觉和语言之间的差距,并使模型能够理解图像内容和回答视觉问题。,是一个开源的集成了视觉、语言和语音的多模态大语言模型,旨在实现类似 GPT-4o 水平的实时视觉和语音交互。,包括编解码器训练和 NAR + AR 解码器训练,旨在使模型能够生成语音输出,实现端到端的语音交互。输出端则具有一个端到端的。
2025-01-16 09:30:00
563
原创 最新开源:英伟达推出 Cosmos 世界基础模型平台,支持物理 AI 系统开发
是一个世界模型平台,专为物理AI而设计,上面有一系列开源、开放权重的视频世界模型,参数量从 4B 到 14B 不等。这些模型的作用非常明确,就是为机器人、自动驾驶汽车等在物理世界中运行的 AI 系统生成大量照片级真实、基于物理的合成数据,以解决该领域数据严重不足的问题。平台发布了 8 个模型,参数量从 4B 到 14B 不等,这些模型在 2000 万小时的视频数据上进行训练,分为。一共包含了四大功能模块:扩散模型、自回归模型、视频分词器,以及视频处理与编辑流程。(离散 token)模型两类,支持。
2025-01-16 09:27:10
434
原创 Aria-UI:面向GUI智能交互的多模态模型,超越Claude 3.5
通过开创性的「纯视觉理解」方案彻底改变了这一现状,无需任何后台数据支持,仅通过直接观察用户界面就能完成自然语言理解、界面元素定位、语义对齐和任务执行等全流程操作。是一个轻量级且快速的混合专家(MoE)模型,每个token激活 3.9B 参数,支持超高分辨率,能够高效编码不同大小和纵横比的 GUI 输入。,一款采用纯视觉理解的多模态模型(LMM),凭借其令人瞩目的性能表现,迅速成为AI技术圈中的焦点,甚至超越了Claude 3.5。,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。
2025-01-16 09:24:40
369
原创 最新开源:Dispider 实现视频LLMs的主动实时交互!又一个媲美 o1 的“开源推理模型”来了!
NovaSky 团队利用阿里巴巴的 QwQ-32B-Preview 模型,生成了Sky-T1-32B-Preview 的初始训练数据,随后“整理”数据混合,并利用 OpenAI 的 GPT-4o-mini 将数据重构为更易用的格式,最终形成了可用的训练集。Sana 不仅在速度上取得了突破,在图像质量方面也具有竞争力,即使是复杂的场景,如文字渲染和物体细节,Sana 的表现也令人满意。不仅在常规视频 QA 任务中保持了强大的性能,而且在流式场景响应方面也明显超越了以前的在线模型,从而验证了架构的有效性。
2025-01-16 09:20:40
912
原创 最新端侧AI :阿联酋TII发布Falcon3!AI Safeguard联合CMU开发Ivy-VL!微软发布超强小模型Phi-4
超越了顶尖的端侧 SOTA 模型,包括 Qwen2-VL-2B,InternVL2-2B,InternVL2.5-2B,SmolVLM-Instruct, Aquila-VL-2B 以及 PaliGemma 3B 等模型。与传统的大型语言模型(LLM)相比,SLM 模型因其较少的参数和更简洁的设计,具备高效性和低成本优势,尤其适合在客户服务、医疗保健、物联网等领域中应用。,拥有仅 3B 的参数,与7B以几十B的多模态模型相比,具有更小的硬件占用。,延续之前的小参数模式只有 140 亿。
2025-01-06 10:36:12
797
原创 最新大模型:香港多所高校推出多模态大模型Lyra!IBM发布Granite3.1模型!
这是一组轻量级、先进的开源基础模型,支持多语言、代码生成、推理和工具使用,能够在有限的计算资源上运行。提供12 种不同语言的多语言支持:英语、德语、西班牙语、法语、日语、葡萄牙语、阿拉伯语、捷克语、意大利语、韩语、荷兰语和中文。的极小尺寸和快速生成能力使其非常适合在移动设备上应用,可以用于各种需要高分辨率图像生成的场景,如图像编辑、视频创建等。在各种视觉-语言、视觉-语音和语音-语言基准测试中取得了 SOTA 的性能,同时还使用了更少的计算资源和训练数据。
2025-01-06 10:31:17
953
原创 智源发布 FlagEval 全球100+大模型综合评测结果!国产大模型拿下多个冠军!
今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于3的数量关系任务表现有所提升,大于3的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。,得益于文本大模型的进步,能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距,整体而言,性能好、通用能力强的开源语音语言模型偏少。大模型更擅长反驳,各个模型表现突出的辩论维度趋同,在不同的辩题中,模型表现差距显著。
2025-01-06 10:26:46
934
原创 最新开源:国产大模型DeepSeek-V3来了!阿里云开源首个多模态推理模型QVQ!腾讯推出新型翻译模型 DRT-o1
DeepSeek-V3 的成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。此外,在剩下的三个专注于数学和科学问题的基准测试中,QVQ-72B-Preview 表现出色,有效缩小了与领先的最先进的 OpenAI o1 模型之间的差距,与 Claude3.5 Sonnet等推理模型相当。DeepSeek-V3 在多种标准基准测试中表现优异,尤其在数学和代码任务上表现突出。
2025-01-06 10:19:27
2709
原创 端侧AI | 小模型 | SLM(11月-12月)
在基准测试方面,和其他 SLM 模型(Gemma-2B, Qwen1.5-1.8B, StableLM-2-1.6B 和 OpenELM1.1B)相比,Fox-1 在 ARC Challenge (25-shot), HellaSwag (10-shot), TruthfulQA(0-shot),MMLU (5-shot),Winogrande (5-shot),GSM8k (5-shot)) 模型因其较少的参数和更简洁的设计,具备高效性和低成本优势,尤其适合在客户服务、医疗保健、物联网等领域中应用。
2025-01-06 10:15:05
1040
原创 最新开源:全球首个半导体专用大模型SemiKong 70B发布!全球首个中文安全领域事实性基准评测集!
涵盖了包括中国违法违规,伦理道德,偏见歧视,辱骂仇恨,身心健康,谣言错误,网络安全理论知识等方面的安全知识。SemiKong 旨在通过将领域特定的知识融入模型中,解决半导体行业面临的独特挑战,如半导体器件和工艺的物理和化学问题,充当该领域的“数字专家”,从而显著加快新芯片的上市速度。SemiKong 系列模型是双语语言模型,训练于 3T 多语言语料库,展示了在语言理解、常识推理、阅读理解等方面的强大能力。中文:使用中文并且聚焦于中国相关的安全知识,特别是中国法律框架、道德标准和文化环境相关的安全问题。
2025-01-06 10:07:54
767
原创 【2024年终总结】2024年AI大模型总结报告 | Artificial Analysis
2024年是大模型发展非常迅速的一年,我们见证了太多AI技术变革带来的惊艳!这一年里,各家大模型的能力提升层出不穷。LLM方面,OpenAI发布了更强的o系列模型;文生图开源模型也出现了 SD 的替代者 Flux;视频生成模型更是百花齐放,很多大模型公司都推出了类 Sora 的视频生成模型。近日,回顾了2024年人工智能的重大事件,梳理出了一份关于人工智能领域的年终总结。Artificial Analysis 是一家领先的独立AI基准测试和分析平台,上面分析的模型不仅包括,还有如文生图、文生视频等等。
2025-01-06 09:48:38
1208
原创 【2024年终总结】2024年最值得读的 AI 论文
对于刚刚过去的 2024 年,有哪些论文值得反复阅读?知名机器学习与 AI 研究者 Sebastian Raschka 整理了一份关于LLM 的阅读清单(),清单详细介绍了每个月都有哪些重要论文产出。
2025-01-06 09:44:13
1001
原创 【2024年终总结】2024年“大模型 & AI应用”值得推荐的好书
人工智能简史》全面讲述人工智能的发展史,几乎覆盖人工智能学科的所有领域,包括人工智能的起源、自动定理证明、专家系统、神经网络、自然语言处理、遗传算法、深度学习、强化学习、超级智能、哲学问题和未来趋势等,以宏阔的视野和生动的语言,对人工智能进行了全面回顾和深度点评。一是以通俗易懂的方式解释复杂概念,通过实例和案例讲解大语言模型的工作原理和工作流程、基本使用方法,包括大语言模型常用的三种交互格式、提示工程、工作记忆与长短期记忆,以及外部工具等,使读者能够全面了解和掌握这一先进技术的应用和二次开发。
2025-01-06 09:37:59
1733
原创 最新开源:Meta 开源 Llama 3.3:更小规模、更高性能!谷歌新一代视觉语言模型PaliGemma 2!
对硬件资源的要求大幅降低。(Vision Tower):基于 Siglip Vision Transformer,它通过将图像分割为 14×14 的小块(称为图像 patch),并为每块生成特定的嵌入(embedding),最终提取图像的整体语义。的表现超过了谷歌的 Gemini 1.5 Pro、OpenAI 的 GPT-4o 和亚马逊的 Nova Pro,展现出了强大的竞争力。技术,通过整合分组查询注意力(GQA)机制,Llama 3.3 提升了推理时的可扩展性和性能,进一步优化了模型的应用能力。
2024-12-10 16:32:17
7595
原创 NeurIPS 2024 最佳论文揭晓!北大、字节跳动「VAR模型」获最佳论文!
在符合直觉的同时,这样的自回归算法带来了很好的效果:VAR 显著提升了自回归模型的速度和生成质量,在多方面使得自回归模型首次超越扩散模型。与传统的按像素或token顺序生成图像的方法不同,VAR 模型通过从低到高分辨的多尺度 token 图进行自回归生成,每一尺度的token图都依赖于前一尺度的结果。此外,在对 80B 个通用 token 进行持续预训练时,RHO-1 在 15 个不同任务上实现了 6.8% 的平均提升,数据效率和语言模型预训练的性能都得到了提升。
2024-12-10 09:33:47
1994
原创 国内“推理模型”卷疯了!类 o1 推理模型,谁更强?
在多模态推理基准测试中超越了其基础模型 8.9%,并在性能上超越了一众开闭源模型,如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。但 OpenAI 并没有公开 o1 模型的具体技术细节,从各高校、研究机构的 o1 模型复现研究来看,o1 的主要技术路线为「搜索+强化学习」,即对思维链进行搜索,然后用强化学习去学习搜索的过程。最近,国内有很多大模型公司开始发布类似 o1 的模型,虽然不排除有炒作的嫌疑,但说明大模型的竞争是非常激烈的!
2024-12-03 10:24:54
1522
原创 最新开源:阿里开源QwQ-32B-Preview推理大模型!月之暗面Kimi开源大模型推理架构 Mooncake!阿里开源图像生成模型Qwen2VL-Flux!
是由 Moonshot AI 提出的长文高效推理架构,它采用了 KVCache 为中心的分离架构,将预填充和解码集群分开,并利用 GPU 集群中未充分利用的 CPU、DRAM 和 SSD 资源实现分离的 KVCache。在全面考察数学解题能力的 MATH-500 评测中,QwQ 斩获 90.6% 的高分,一举超越OpenAI o1-preview 和 o1-mini,体现了在各类数学主题上的全面理解;不仅能够根据用户输入的图像生成多幅相似图像,还支持文本引导的图像混合和图像引导的图像融合。
2024-12-02 15:32:20
1728
原创 最新开源:开源科研神器 OpenScholar 来了!能检索4500万篇论文,科研效率提升10倍!
本质上,OpenScholar 是一个进行过检索增强(retrieval-augmented)的语言模型,外接一个包含4500万篇论文的数据库,性能可以优于专有系统,甚至媲美人类专家。为了方便自动化评估,研究团队还推出了全新的大规模基准 ScholarQABench,覆盖了CS、生物、物理等多个学科,用于评价模型在引用准确性、涵盖度和质量的等方面的表现。总体而言, OpenScholar 实现了SOTA性能,大大优于 GPT-4o 和相应的标准 RAG 版本,以及 PaperQA2 等专用的文献综述系统。
2024-11-28 16:36:39
1010
原创 TÜLU 3:首个发布后训练配方的开源模型,性能超越Llama3.1
TÜLU 3 建立在 Llama 3.1 基础模型之上,其结果超过了 Llama 3.1、Qwen 2.5、Mistral 的 instruct 版本,甚至超过了 GPT-4o-mini 和 Claude 3.5-Haiku 等闭源模型。最近,来自艾伦人工智能研究所和华盛顿大学的研究团队推出了 TÜLU 3,一个完全开放的 SOTA 后训练模型系列,以及它的数据、代码和训练方法,作为现代后训练技术的综合指南。正是在这个阶段,模型从一个"无所不知"却缺乏判断力的网络,转变为具有特定功能导向的实用工具。
2024-11-28 16:30:31
576
原创 最新开源:「天工大模型4.0」o1版来了!国内首款中文逻辑推理能力o1模型
图:在求解组合(从 10 人中选出 3 人组成一队,共多少种选择)问题时,Skywork o1 Preview 在全链路思考过后,答案正确。图:在比较 13.8 与 13.11 孰大孰小时,Skywork o1 Lite 给出了完整的思维链路,找出解题的关键在于小数位大小。与当前市场上基于OpenAI o1模型的复现工作不同,Skywork o1 不仅在输出结果上展现了深度的。,而且在标准测试集中的表现远超常规模型,实现了推理性能的显著提升。技术,能模仿人类的思维过程,显著提升逻辑推理和复杂任务解决能力。
2024-11-28 16:21:52
702
原创 吴恩达开源大模型套件aisuite:一个接口,可调用11个模型平台
刚刚,吴恩达宣布,推出新的开源大模型套件 aisuite,不到半天就斩获了1200+星标。aisuite 的核心功能是集成了多达11个知名大模型平台,并提供了一个统一的接口,使不同模型的调用变得极为简单。何构建这个项目?吴恩达表示构建应用时,发现与多个提供商集成非常麻烦。
2024-11-26 14:48:38
890
原创 清华、北大团队推出 LLaVA-o1:首个自发性视觉 AI 模型
LLaVA-o1 拥有 110 亿个参数,基于 Llama-3.2-Vision-Instruct 模型开发,设计了总结(summary)、描述(caption)、推理(reasoning)和结论(conclusion)4 个推理阶段。LLaVA-o1(11B) 在六个具有挑战性的多模态基准测试中表现优异,超越了其他竞争者,如 Gemini-1.5-Pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。图 3. 生成 LLaVA-o1-100k 数据集的流程。
2024-11-21 13:18:33
957
原创 Mistral AI 再发力!最强开源多模态模型 Pixtral Large!对标ChatGPT全面升级le Chat!
Mistral AI 在 9 月份甩出了自家的首款多模态大模型 Pixtral 12B,如今,Pixtral 12B 技术报告全公开。从论文的测试结果来看,Pixtral 12B 明显优于其他类似大小的开源模型(比如 Llama-3.2 11B 和 Qwen-2-VL 7B),甚至在一些评测中,表现比 Meta 家的多模态老大哥 Llama-3.2 90B 还要好。
2024-11-20 13:01:35
1486
原创 【大模型前沿】FinVision:一种用于股市预测的多智能体框架!港中大 SEALONG,用贝叶斯技巧提升长上下文推理能力!
通过与基准模型的比较,FinVision 在所有评估的股票中表现出显著优势,特别是与传统的买入并持有策略和基于强化学习的模型相比。由芝加哥伊利诺伊大学的 Sorouralsadat Fatemi 和 Yuheng Hu 提出的 FinVision 框架,展示了一种多模态、多智能体系统在股票市场预测中的应用,具有显著的创新性和实用性。每个模块都承担特定的功能,协同工作以提供全面的交易建议。此外,他们还确定了基于 LLM 的智能体的六个关键特征,并在此基础上总结了当前的研究进展,分析了其局限性。
2024-11-20 09:35:00
1024
decision_tree_classifier_viz
2019-12-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人