- 博客(259)
- 收藏
- 关注
原创 LLM 扩展方式的三年演进之路:复杂之后,回归简单
摘要:LLM扩展方式的演进与未来趋势 过去三年,LLM扩展方式经历了从复杂到简化、从专用到通用的演进过程。早期ChatGPT插件因模型能力不足而难以实用,随后出现了自定义指令等简化方案。随着模型智能提升,扩展机制逐渐回归通用性,如Cursor Rules将规则融入代码库,MCP协议提供强大但复杂的执行能力。最新趋势如Agent Skills采用轻量级Markdown+脚本方式,标志着"通用工具+自然语言指令"的愿景正因模型能力提升而实现。未来可能不再需要过度设计的专用工具,而是赋予智能体
2025-12-24 08:45:08
328
原创 你说的 CUDA 到底是哪个 CUDA?一文理清那些让人混淆的术语和版本号
CUDA 的术语存在严重的多重含义问题:“CUDA” 一词本身至少指代五种不同的概念,“driver” 在不同上下文中含义也不同,而各种工具报告的版本号衡量的也是不同的子系统。本文从术语辨析入手,逐一澄清“CUDA”、“driver”、“kernel”等关键概念的多重含义,进而剖析 CUDA 软件栈的分层架构 —— 从应用层的 Runtime API(libcudart),到底层的 Driver API(libcuda)与内核驱动(nvidia.ko),最终抵达 GPU 硬件。
2025-12-19 10:47:07
648
原创 对长上下文能力有不同要求,怎么选择合适的模型?
文章系统梳理了当前主流大模型在处理长上下文时所采用的不同技术路径 —— 从优化后的精确注意力机制(如 GPT-5、Mistral)、稀疏或混合注意力机制(如 Claude、Gemini),到彻底脱离注意力范式的状态空间模型(如 Mamba),并深入剖析了每种架构在记忆持久性、推理深度与计算效率之间的权衡。我们今天为大家带来的这篇文章,作者的核心观点是:上下文窗口的长度并不能完全代表模型的实际能力,真正决定模型在长文本场景下表现的是其背后的架构设计与技术权衡。它们的失败往往在于毫厘之差,而非千里之谬。
2025-12-17 08:41:25
433
原创 压缩而不失智:LLM 量化技术深度解析
文章从量化的基本原理出发,深入剖析了训练后量化(PTQ)与量化感知训练(QAT)的适用场景,详细解释了缩放因子、零点、对称/非对称量化等关键技术细节,并进一步探讨了高级量化技术(如 GPTQ、AWQ、SmoothQuant)以及 KV 缓存量化等前沿方法。我们今天为大家带来的这篇文章,作者的核心观点是:量化技术通过在模型精度与效率之间寻找最优平衡点,使得大语言模型能够在资源受限的设备上高效部署,而几乎不降低其“智能水平”。你是在它们学习过程中就引入量化,还是等它们已经记牢所有模式后再量化,表现会大不相同。
2025-12-12 07:56:29
796
原创 AI 处理器全景指南(CPU、GPU、TPU、APU、NPU、IPU、RPU...)
Cerebras 采用的注意力批处理分块(Batch Tiling on Attention, BTA)技术,解决了稀疏 MoE 模型的计算效率问题 —— 它将注意力层与专家层的批处理需求解耦:注意力层在较小的“分块”(tiles)上运行,以降低内存压力;此外,还有总线(buses,用于数据传输)、指令寄存器(instruction register)和指令指针(instruction pointer,用于追踪下一步要执行的内容)等辅助组件,将整个系统紧密连接,使指令能顺畅地从一个步骤流转到下一个。
2025-12-10 08:27:49
760
原创 用户体验与商业化的两难:Chatbots 的广告承载困境分析
作者逐一评估了展示广告、插屏广告、文本内嵌广告、组件广告和经过赞助的问题提示等可能方案,指出前几种要么破坏体验,要么削弱 AI 的“决策投射”能力,唯有“经过赞助的问题提示”相对可行,但仍非理想解。在上文列出的所有选项中,我认为这是“弊端最少”的选择。)”,并利用这些时刻来投放广告。文本嵌入广告则直接触及 Turley 所描述的矛盾核心:ChatGPT“高度对用户负责,必须忠实、专注地帮助用户达成其目标”,如果在已有上下文的情况下,不直接给出最契合用户问题的单一答案,反而插入广告内容,就会损害其核心功能。
2025-12-05 09:34:47
964
原创 为什么语言模型偏爱使用破折号?反驳多种主流解释,并提出猜想
的观点(原因已在上文简要说明),但我认为她提出的“数字化进程推动破折号的使用”这一说法非常可信。文章系统梳理并逐一反驳了多种主流解释,然后通过分析标点使用的历史趋势、尼日利亚英语语料库统计数据,以及 GPT-3.5 到 GPT-4o 破折号使用激增的时间节点,有力支撑了“旧书数字化”这一最合理的假说。我们今天为大家带来的文章,作者的核心观点是:当前主流大语言模型对破折号的偏爱,很可能源于其训练数据中大量引入了 19 世纪末至 20 世纪初的纸质书籍 —— 这些文本本身就比当代英语更频繁地使用破折号。
2025-12-03 10:29:42
547
原创 剖析大模型产生幻觉的三大根源
这项研究为这一问题引入了一个清晰的、基于统计学的视角 —— 不再将幻觉视为某种神秘的故障,而是将其重新定义为两种力量共同作用下的必然结果:二元分类错误,以及鼓励猜测的评估激励机制。核心思路是,重塑当前基准测试中内嵌的激励机制,让模型因“准确”而获得奖励,而不仅仅因为“自信”。我们今天为大家带来的这篇文章指出:幻觉并非模型的故障,而是当前训练与评估机制下的一种理性选择 —— 当模型因进行猜测获得奖励、因坦白“我不知道”而被惩罚时,编造答案就成了最优策略。”这一问题的回答节选,均未生成正确的标题或年份。
2025-11-28 09:18:55
928
原创 上下文管理策略综述
文章系统剖析了长上下文常见的四大失效模式——上下文污染、干扰、混淆与冲突,并提出了六种行之有效的上下文管理策略:RAG(检索增强生成)、工具选配、上下文隔离、修剪、摘要与卸载。尽管这一现象尚属个案,但却揭示了这样一个现象:用于检索任务的长上下文,与用于多步生成式推理的长上下文,有着根本不同的要求和挑战。这类设计模式特别适用于研究类任务。我们今天为大家带来的这篇文章,作者的核心观点是:上下文不是免费的,信息必须被主动管理,否则“Garbage in, garbage out”的老问题将以更隐蔽的方式重现。
2025-11-26 08:10:55
888
原创 当前的“LLM 智能”,是来自模型突破,还是工程堆砌?
作者指出,OpenAI 正从基础研究转向应用变现,其推出的 ChatGPT Apps、Atlas 浏览器等产品,反映的不是技术突破,而是对模型能力停滞的策略性回避。这一点至关重要,因为整个 AI 行业(从数万亿美元的 GDP 预测到独角兽公司的估值[1])都建立在模型能力持续进步的预期之上。这些都是架构层面的限制,而非工程问题。我们今天为大家带来的这篇文章提出了一个尖锐的观点:所谓“推理模型”的突破,本质上并非模型智能的根本性提升,而是通过工具调用与流程编排对模型能力停滞所做的工程性补偿。
2025-11-21 07:50:54
613
原创 分享一名海外独立开发者的 AI 编程工作流
本文系原作者观点,Baihai IDP 仅进行编译分享作者 | Peter Steinberger编译 | 岳扬最近我没怎么在社交平台上活跃,因为我正全身心投入到最新的项目中。如今,智能体工程(Agentic engineering)已经变得非常强大,几乎能编写出我需要的 100% 的代码。然而,我却看到很多人还在费力解决本不该存在的问题,搞出一堆繁复的表演,而不是专注把事搞定。这篇文章的部分灵感来自最近在伦敦参加的“Claude Code Anonymous”活动[1]上的对话,另一部分则是因为距离我上次
2025-11-19 17:27:22
661
原创 如何提升 LLMs 处理表格的准确率?一项针对 11 种格式的基准测试
文章详细介绍了作者针对 GPT-4.1-nano 模型进行的对照实验,测试了包括 CSV、JSON、Markdown Table、YAML 等在内的 11 种常见表格格式,使用 1000 条员工记录和对应问题,系统性地评估了各种格式在准确率和 token 消耗两个维度的表现。我们今天为大家带来的文章,作者通过一项对照实验指出:表格格式对 LLM 的理解能力有显著影响,其中 Markdown-KV 格式在准确率上表现最佳,但也伴随着更高的 token 消耗。为简化实验流程,本次实验未采用该做法。
2025-11-14 09:54:52
573
原创 面向 LLM 的 GPU 系统工程方法论
我们今天为大家带来的文章,作者的观点是:GPU 工程的核心不在于手写内核的能力,而在于构建系统设计思维 —— 理解从模型定义到硬件层的完整技术栈如何协同工作。作者提出了一个五层渐进式调试框架:从模型定义(Model Definition)入手,识别计算与内存瓶颈;进入并行化(Parallelization)阶段,解决多卡同步问题;深入运行时编排(Runtime Orchestration),优化集群资源利用率;通过编译与优化(Compilation & Optimization)提升生产环境性能;
2025-11-12 09:38:48
828
原创 并行智能体是否将重塑软件开发模式?
作者从 AI 编程工具的演进谈起,揭示了从 Copilot 的代码补全到“氛围编程”的自然语言生成,再到当前的范式突破 —— 并行智能体。作者还坦诚分享了实际应用中的成功率分布,指出了智能体擅长与不擅长的任务类型,并强调了全栈技术、问题拆解和代码审查等技能在新工作流中的核心地位。当智能体需要跨多个代码库操作时,它们会失去对服务间交互、共享库与依赖关系的上下文认知,这将导致生成的解决方案在独立环境中可以运行,却会破坏系统间的集成接口。智能体可参照现有的设计模式、复用通用的组件,并确保整个系统的一致性。
2025-11-07 09:52:56
985
原创 怎样为你的 RAG 应用选择合适的嵌入模型?
如果选用了不当的嵌入模型,你的 RAG 应用可能会检索到不相关的或混乱的数据,从而导致回答质量下降、成本增加,并引发用户不满。传统基准测试通常仅覆盖少数语言或垂直领域,而 MMTEB 作为 MTEB 的扩展版本,涵盖了 250 多种语言中的 500 多项评估任务,同时还包含指令遵循、长文档检索、代码检索等高难度挑战,是当前最全面的多语言嵌入基准测试。文章从嵌入的基本原理讲起,系统解析了词嵌入、句嵌入、文档嵌入等不同类型及其适用场景,并深入探讨了上下文窗口、分词方式、维度、训练数据、成本等关键参数的影响。
2025-11-05 10:20:42
730
原创 探讨超长上下文推理的潜力
而要构建更高质量的强化学习环境,有效运用长思维链或智能体交互变得愈发关键,这正是长上下文能力的用武之地。作者认为,强大的长上下文推理不仅能支持模型处理时间跨度更长的复杂任务(例如需要数月才能验证的科研方向),还能通过验证复杂的推理链条为模型提供高质量的训练信号,甚至可以用来生成更逼真的强化学习训练环境。我们今天为大家带来的文章,作者的核心观点是:超长上下文推理的真正潜力,并不仅仅是处理海量文档,更在于它为实现人工智能的“持续学习”和规模化“强化学习”这两大关键瓶颈提供了革命性的突破路径。
2025-11-04 09:41:26
622
原创 对 GPT 5 模型路由机制的深度解析
它认为智能并非源于一个单一的、统一的处理器,而是由大量简单的、各司其职的“智能体”通过交互、协作与竞争涌现出来的。笔者测试过“快速总结”与“深度剖析”等具有细微差异的不同措辞,能清晰观察到 GPT-5 在实时切换处理模式 —— 这仿佛解锁了新的“软指令”层,用户措辞对路由决策的影响程度,已不亚于系统内置的启发式规则。我们今天为大家带来的文章,作者的观点是:GPT-5 通过引入“智能路由器”架构,实现了按需调用不同专家模型的动态协作机制,标志着大模型正从“全能单体架构”迈向“专业化协同架构”的新范式。
2025-10-31 09:26:26
778
原创 AI 编程热潮下的万字思考 —— 规避风险,善用其利
作者 | Addy Osmani编译 | 岳扬氛围编程(vibe coding)并不等同于 AI 辅助的工程实践。近期一则 Reddit 帖子[1]描述了某 FAANG 团队如何使用 AI,由此引发了一场重要讨论:“氛围编程”与专业化的“AI 辅助的工程实践”。虽然该帖子被包装成前者的范例,但它详细描述的流程 —— 包含技术设计文档、严格的代码审查和测试驱动开发 —— 在我看来恰恰是后者的一个清晰例证。将它们区分非常重要,因为将二者混为一谈既会贬低工程学科的专业性,也可能让新人误以为构建健壮的生产级软件无需
2025-10-24 10:17:06
919
原创 LLM 应用评估综合指南(多轮对话系统、RAG、AI Agent)
以 RAGAS 为例,它在衡量第一个指标(Answer Relevancy)时,很可能通过以下方式计算:向 LLM 提供问题、答案及检索到的上下文,要求其“评判该答案在 0-1 分范围内对问题的直接回应程度”,这个过程会返回一个原始的 0-1 分值,该分值可被用于计算整体平均值。我们今天为大家带来的文章,作者的观点是,对现代 LLM 应用的评估,必须超越传统的 NLP 评估指标,转向一个分场景、系统化的评估体系,综合运用新兴的评价指标与自动化框架,从而全面地衡量系统的综合表现。
2025-10-22 09:57:36
725
原创 AI 推理服务是否真的无利可图?从第一性原理看 AI 推理成本
你是否也曾认为,AI 推理服务注定是一场烧钱的无底洞?我们今天为大家带来的这篇文章,作者的核心观点是:OpenAI 和 Anthropic 等公司在推理环节的实际成本远低于外界普遍认知,甚至在某些场景下已具备大幅盈利能力。文章通过第一性原理,以 H100 GPU 集群为例,详细拆解了输入与输出 token 的成本结构,指出输入处理成本极低(每百万 token 约 0.001 美元),而输出生成成本较高(每百万 token 约 3 美元)。
2025-10-17 10:21:06
775
原创 驳“AI 泡沫论”:一场被误读的、正在进行中的产业结构性调整
但实际上,这其实是一个关键时期:护城河正在被真正挖深,财务脆弱的公司开始崩塌,而真正持久的运营杠杆(即成本不变但产出大幅增加的优势)开始在那些不起眼的地方显现出来 —— 比如电力供应、芯片封装、互联技术,以及让智能体(agents)真正可靠干活的、枯燥却至关重要的工程细节。我们今天为大家带来的这篇文章,作者的观点是:当前 AI 市场并非陷入停滞或崩溃,而是进入了一个必要的“消化阶段”,这一过程虽伴随阵痛,却蕴含着持续的发展动能。:横向通用助手的市场声量大,但深度融合领域工具的垂直方案才真正能产生回报。
2025-10-15 09:53:51
442
原创 GPU 网络通信基础,Part 3(LLM 训练过程的网络通信;InfiniBand 真的是“封闭”技术吗?)
如今新兴的 AI 专用以太网协议栈,例如 Nvidia 的 Spectrum-X 和 Ultra Ethernet Consortium 的 UEC 1.0 规范,都直接构建于 RoCEv2 之上,在保留 RDMA 语义的同时,也着力解决其原有缺陷。“如今你能在 10Gb 以太网上实现接近 InfiniBand 的延迟,”IBTA 市场工作组联合主席、Mellanox 市场传播总监 Brian Sparks 表示,“且不必面对 InfiniBand 的技术门槛和随之而来的陡峭的学习曲线。
2025-10-11 09:46:59
651
原创 GPU 网络基础,Part 2(MoE 训练中的网络挑战;什么是前、后端网络;什么是东西向、南北向流量)
与现有 PP 方法相比,DualPipe 的流水线气泡(译者注:指的是在流水线并行处理中,由于阶段之间未能完全紧密衔接而出现的空闲等待时间,是影响大规模分布式训练效率的关键瓶颈之一。我们今天为大家带来的文章,作者的核心观点是:现代 AI 训练系统必须通过严格区分前端与后端网络,并针对数据并行、流水线并行和专家并行等不同通信模式进行协同优化,才能有效应对日益复杂的网络拥塞与延迟问题。通过算法、框架与硬件的协同设计,我们克服了跨节点 MoE 训练中的通信瓶颈,实现了计算与通信的近乎完全重叠。
2025-09-30 11:29:55
847
原创 GPU 网络通信基础,Part 1(横向与纵向扩展;训练中的通信环节...)
最后结合神经网络训练流程(前向/反向传播、梯度更新),点明全归约(AllReduce) 等集合通信操作在梯度同步中的核心地位及其延迟对训练效率的直接影响,并提及软件优化(如通信与计算重叠)的重要性。这正是横向扩展(32 节点)与纵向扩展(单节点 8 GPU)的结合。InfiniBand 是英伟达的专有技术(通过收购 Mellanox 获得),因其比高性能以太网变体(如 RoCE —— 基于融合以太网的 RDMA[1])具有更低的延迟和更高的带宽,历来被大规模 AI 集群优先选用。
2025-09-26 10:17:03
830
原创 上下文工程实施过程中会遇到什么挑战?有哪些优化策略?
作者提出,上下文工程是一套系统级的架构方法,它强调动态地、有策略地为模型组合信息,包括系统指令、对话历史、用户记忆、检索结果和工具定义等,从而在有限的上下文窗口中实现最优性能。其次,上下文窗口(模型的工作记忆)是有限的。用户查询或任务会触发从长期记忆源(情景记忆、语义记忆、程序记忆)中检索信息,它不再是被动的传统 RAG,而是由一个“智能体”主动驱动的、更复杂的 Agentic RAG 组件。简而言之,上下文工程的核心在于策略性地将正确的信息,在正确的时机,以正确的格式填入模型有限的上下文窗口。
2025-09-25 10:36:05
748
原创 分享一些“氛围编程”的工程化技巧
关键在于采用有逻辑的文档拆分方式,保持文档的实时性与简洁度,帮助您和 AI 共同维持对上下文的清晰认知(对项目背景、进展和细节的掌握)和控制(对项目方向和内容的管理能力)。文章系统性地介绍了“氛围编程”(Vibe Coding)的核心组成与工作流程,强调了明确需求与设计先行的重要性,并详细阐述了如何通过提示词工程、上下文管理、测试验证和文档协作等方式,最大化 AI 编程助手的效能。AI 助手只能创建浅层测试或无关断言,这些测试仅能验证现有代码,无法确保足够的测试覆盖率或有效的验证。
2025-09-23 09:06:56
542
原创 AI Agents 能自己开发工具自己使用吗?一项智能体自迭代能力研究
通过机器学习工程实现的自我改进轨迹,是由更优的算法、更纯净的数据和更高效率的内存使用驱动的 —— 即训练阶段的自我改进(training-time self-improvement)。作者发现,尽管两个模型都能创建出功能完备的工具集(GPT-5 偏向构建 Unix 风格的命令行工具,而 Opus 4 更注重拟人化的任务执行助手),但在真正执行复杂编程任务时,它们却几乎不使用这些自建工具,而是选择基于训练数据中的知识直接完成任务。我要求创建的第二个工具,是用于统一代码库规范标准的实施机制。
2025-09-17 09:01:19
1048
原创 2025 年大语言模型架构演进:DeepSeek V3、OLMo 2、Gemma 3 与 Mistral 3.1 核心技术剖析
实际上,在今年 1 月发布时(早于 Llama 4、Gemma 3 和 Qwen 3),OLMo 2 系列模型正处于计算效率与性能的帕累托前沿【译者注:“帕累托前沿”(Pareto Frontier)是一个起源于经济学和优化理论的重要概念,它描述的是一种最优状态,在这种状态下,任何一方的利益或某个目标的提升都无法不以牺牲其他方利益或其他目标的下降为代价。今天我们为大家带来的这篇文章,作者的核心观点是:尽管大语言模型在技术细节上持续优化,其核心架构仍保持延续,真正的创新更多体现在效率提升与工程实现上。
2025-09-12 09:08:15
3025
原创 MCP 是为开发者设计的工具,而非为 LLM 而设
Model Context Protocol (MCP) 已成为构建智能体时使用工具调用(tool calling)的标准,但恰恰相反,你的 LLM 并不需要理解 MCP。通过使用 MCP,你可以访问成千上万的工具,而无需为每个工具编写自定义的集成逻辑。在上方的示意图中,我们可以看到 LLM 实际看到的内容:一个由指令、之前的用户消息和可用工具列表组成的提示词。随着智能体系统的扩展,MCP 能有效管理复杂的多工具协作:实现跨项目的工具复用,统一数据格式规范,以及无需重构即可无缝接入新系统。
2025-09-11 08:49:23
987
原创 系统梳理 Test-Time Compute 的主要实现路径
本文系统梳理了测试时计算(test-time compute)的三大实现路径:N 选 1 采样、多数投票及相关方法、思维链(Chain-of-Thought)自我推理,到融合搜索算法与世界模型的结构化推理系统,还深入探讨了验证器设计、奖励机制、隐空间推理与智能体行为优化等关键挑战。—— 在特定问题领域,可通过程序化方法生成复杂的推理轨迹。优化模型的多步骤复杂推理轨迹,与优化智能体的多步骤推理轨迹存在高度相似性 —— 唯一区别在于智能体的子步骤被拆分为不同的模型调用,且通常涉及更多动态组件(如函数调用等)。
2025-09-05 10:24:00
765
原创 系统梳理 RAG 系统的 21 种分块策略
本文系统梳理了从基础到进阶的 21 种分块策略,涵盖了基础分块法、定长分块法、滑动窗口分块等传统方法,以及语义分块、上下文增强分块、多模态分块等前沿技术。我们今天为大家带来的文章,作者的观点是:分块(chunking)才是决定 RAG 系统成败的真正关键因素,不同场景需要匹配相应的分块策略。如果任何生成的分块超过预设的分块大小限制,对这些区块递归使用小粒度分隔符(如句子或单词)进行分割,直至所有分块都符合所需大小。不同的数据类型、文件格式、内容结构、文档长度和使用场景,都需要匹配不同的分块策略。
2025-09-03 10:09:08
894
原创 强化学习的“GPT-3 时刻”即将到来
对此我们持怀疑态度。此外,复制任务(replication tasks)本身具有一定的人造性,因为精确复制现有软件并非日常软件工程的典型工作(尽管在软件移植、遗留系统重构、净室重新实现【译者注:clean-room reimplementations,指在严格隔离原始代码知识的前提下,仅通过分析功能规范或外部行为,重新实现与原有软件功能相同的程序。GPT-3 证明了,仅仅通过扩大语言模型的规模,就能带来强大的、task-agnostic(译者注:模型不依赖特定任务的设计或微调,就能处理多种不同类型的任务。
2025-08-29 09:29:26
1029
原创 构建 AI 智能体的实用开源技术栈(框架、计算机与浏览器操控、语音功能、文档理解...)
回顾我早期构建研究助手时的尝试,我意识到自己当初把问题复杂化了。那个项目最终是一团糟 —— 充斥着过时的代码、半成品的工具,以及连 PDF 这种简单文件都处理得力不从心的系统。但正是在这次失败中我收获最多。关键不在于寻找最完美的工具,而在于坚持有效的方案并保持简单。
2025-08-28 10:36:27
1187
原创 RAG 文档解析工具选型指南
从 HTML 处理的 BeautifulSoup、HtmlRAG,到 PDF 解析的 MinerU、GPTPDF、Marker,再到多模态处理的 CLIP、Wav2Vec 2.0 等。本文结合近期一篇 RAG 调查报告[2]的发现与我之前的部分研究,对 RAG 系统如何解析和整合结构化、半结构化、非结构化和多模态知识进行了简明概括。尤其是 PDF 文档,简直就是噩梦:不一致的布局、嵌入内部的图像、复杂的格式。但这样做的回报是值得的:更自主的源代码控制、更强的文档安全性,以及更可靠的结果。
2025-08-22 09:52:28
885
原创 OpenAI 开源模型 gpt-oss 是在合成数据上训练的吗?一些合理推测
虽然 gpt-oss 模型的研发阵容尚未披露,模型卡片(model card)[9]也未详述预训练细节,但我确信 Sebastien Bubeck 参与了这个项目,且这些模型基于经过严格筛选或完全合成的数据集训练而成。梳理业界对每代 Phi 模型的评价可发现一个相同的模式:惊艳的测试分数[6],高涨的市场热情,但实际性能却远低于基准测试所显示的水平[7]。我们今天为大家带来的这篇文章,作者推测 OpenAI 的新开源模型本质上就是微软 Phi 模型的翻版,采用了相同的合成数据训练路线。
2025-08-21 16:07:03
793
原创 当 AI SaaS 的边际成本不再为零,Cursor 是如何设计定价策略的?
在 AI 时代之前,SaaS 的毛利率常高达 80-90%,因为单个用户的边际成本近乎为零。Cursor 对此建立了完善的风险对冲机制,因其对算力消耗最大的功能采用按 Token 计价模式,并在 API 供应商的成本价格基础上保持有 20% 的溢价空间。(特别说明:任何 SaaS 服务条款中的“无限制(unlimited)”通常受合理的使用条款约束,供应商保留对滥用服务者拒绝服务的权利)。更妙的是,20 美元/月已成为 ChatGPT、Claude 等工具的基准定价,这进一步降低了用户的认知门槛。
2025-08-15 10:24:07
1123
原创 许多 AI 智能体评测基准并不可靠
在近期的研究中[10],我们剖析了当前基准测试中的一些常见的失效模式,并提出了一份检查清单,以最大限度减少 AI 智能体基准测试的“可作弊性”,并确保这些基准测试能切实衡量他们声称要衡量的能力。通过增强单元测试[14],我们观察到排行榜上的排名发生了明显的变化,影响 SWE-bench Lite 中 41% 的智能体和 SWE-bench Verified 中 24% 的智能体。我们今天为大家带来的文章,作者的核心观点是:当前许多 AI 智能体基准测试存在严重缺陷,亟需建立更严谨的评估框架。
2025-08-13 09:30:30
836
原创 AI 智能体记忆机制详解
不妨关注一下专为智能体设计的 Mem0 等新兴架构,它们的目标是实现智能化的记忆管理 —— 能像人类一样自主判断信息价值,动态筛选需要保留的内容并优化存储方式。但这种情况正在改变。如今,AI 小伙伴能记住我们上周的对话,回想起我们的喜好,并从与我们长期的交流互动中学习。我们今天为大家带来的文章,作者的观点是:记忆能力是 AI 从工具进阶为真正智能伙伴的关键桥梁,只有具备完善的记忆系统,AI 才能提供个性化体验、拥有持续学习和处理复杂任务的能力。相反,它会执行一次优雅的高速检索,以找到最相关的上下文。
2025-08-08 10:13:56
1223
原创 为何说「新数据源」是推动 AI 发展的核心动力?
他们花了一年左右的时间,以数百种不同的方式对架构进行了调整,最终成功开发出了一种不同类型的模型(这是一种状态空间模型/“SSM”),在相同的数据上进行训练时,它的表现与原始的 transformer 大致相当。(b)通过新技巧提升数据的利用效率,使系统更高效、对数据的需求更低(预计 2025-2026 年我们将见证推理模型领域的此类竞赛 —— 研究人员争相对可验证的内容进行发掘、分类和验证)。可以肯定的是,只要我们的模型足够高效,或者我们的算力足够强大,谷歌就会开始在 YouTube 数据上训练模型。
2025-08-06 09:49:35
808
原创 构建 AI 护城河的六大常见误区分析
本文系原作者观点,Baihai IDP 仅进行编译分享作者 | Shaili Guru编译 | 岳扬在上一篇文章中,我分享了“AI Moat Pyramid”框架,企业团队可以用它来构建真正的人工智能防御壁垒。这篇文章是反面教材:介绍六种最常见的误区 —— 它们看似是护城河,实则因未能夯实金字塔的核心能力层,而在悄然削弱你的竞争优势。现实情况:历史数据往往分散杂乱、标注混乱,或尘封在无人愿意触碰的旧系统中。 这种误区使团队无法真正构建金字塔的第二层:专有数据。如若出现以下情况,你的数据优势就不会存在:自我审
2025-08-01 10:01:30
1037
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅