
推理模型
文章平均质量分 87
思考模型,或者叫推理模型,基于 GenAI 技术构建,而依赖于逻辑链条(Chain-of-Thought,CoT)来逐步推导出解决方案,这是一种用技术换时间和算力资源的方案,使思考模型可以用 10 分钟做完一套高考数学卷,分数超过 120 分,在逻辑推理能力上,进一步靠近人类专家。
快乐小码农
热爱生活,热爱技术,做一个有态度的四有“中年人”。关注科技进步,聚焦人工智能领域的前沿研究:经典AI、NLP、机器学习、数据挖掘、推荐系统等相关技术。人生不易,勇往直前,分享生活中的小确幸。
展开
-
DeepSeek开源周Day4三连发,梁文峰亲自上阵,API 错峰优惠
DeepSeek 使用两个 micro-batch 来重叠计算和全对全(all-to-all)通信,同时确保注意力机制的计算负载在两个 micro-batch 间保持平衡 —— 这意味着同一个提示可以在它们之间拆分。,该配置文件采用 EP32 和 TP1(与 DeepSeek V3/R1 的实际在线部署一致),提示长度设置为 4K,每 GPU 的批大小为 16K 个 token。需要注意的是,专家负载的具体预测方法不在此代码库的讨论范围内,一种常用的方法是使用历史统计数据的移动平均值。原创 2025-03-04 10:35:38 · 834 阅读 · 0 评论 -
马斯克发布「地表最强」Grok-3,屠榜多个排行榜,暴击DeepSeek-R1
参考:https://techcrunch.com/2025/02/17/elon-musks-ai-company-xai-releases-its-latest-flagship-ai-grok-3/在数学(AIME 2024)、科学问答(GPQA)、编码(LCB)上刷新SOTA,大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。在多项基准测试中,在数学(AIME’24)、科学(GPQA)和编码(LCB Oct-Feb)上,原创 2025-02-20 19:49:49 · 999 阅读 · 0 评论 -
UC 伯克利等开源OpenThinker-32B,性能直逼 DeepSeek-R1-32B!
最近一段时间,以 DeepSeek-R1 为代表的大型推理模型可谓是「当红炸子鸡」!原创 2025-02-17 18:11:56 · 791 阅读 · 0 评论 -
AI最新资讯:DeepSeek 估值飙升至 1500 亿美元?国行iPhone最终选择阿里千问?
目前,它打开的是视频推送,但未来也可能会提供图片生成的相关内容。除了图像生成功能的改进,OpenAI 还对 Sora 的视频推送进行了改版,将其分为「Best」和「Top」两个类别,将帮助用户更好地筛选和查找内容。此外,业内人士也指出,ChatGPT 尚未推出基于 GPT-4o 的多模态图像生成功能,因此此次 Sora 项目的推出将是一个值得关注的新进展。近日,OpenAI 被爆出一个消息:在其内部测试的项目 Sora 中,除了已经推出的视频生成功能外,图像生成功能也在紧锣密鼓地研发中。原创 2025-02-14 15:20:23 · 786 阅读 · 0 评论 -
谷歌反击DeepSeek R1发布Gemini 2.0全家桶,几大云巨头官宣接入DeepSeek
2月2日,云轴科技 ZStack 宣布 AI Infra 平台 ZStack 智塔全面支持企业私有化部署 DeepSeek-V3/R1/ Janus Pro三种模型,并可基于海光、昇腾、英伟达、英特尔等多种国内外CPU/GPU适配,将充分发挥DeepSeek开源模型和低成本高性能特点,助力企业级AI应用进一步落地。2 月 4 日,华为计算宣布,潞晨科技携手昇腾,联合发布基于昇腾算力的 DeepSeek R1 系列推理 API,及云镜像服务。原创 2025-02-14 15:02:30 · 608 阅读 · 0 评论