自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(16)
  • 收藏
  • 关注

原创 Code Agent 重构

本文提出了一种新型代码智能体(Yi式代码Agent)的设计框架,通过重构传统代码生成模型的几何结构,将单一的大语言模型分解为多模块协同的系统。该框架包含:1)三层世界模型(P):需求/代码/项目图建模;2)多层验证机制(V):从语法检查到灰度测试的递进式验证链;3)分级可回滚行动(A):将代码修改分解为提案-审查-应用的可逆流程;4)任务路由机制:为不同任务类型匹配最优P-V-A组合。这种结构化设计通过显式建模工程动力学、缩短验证延迟、确保操作可逆性,显著提升了代码智能体在复杂工程环境中的可靠性和可控性。

2025-11-13 22:54:59 481

原创 动态缓存的生成式记忆:从生成到固化的连续谱

人类记忆采用动态多层缓存架构,从工作记忆(L0)到长期固化缓存(L2)再到原始存储(L3),形成速度与持久性平衡的记忆系统。关键特性包括: 按使用频率自动分级缓存 从完全生成到固化调取逐步演进 采用复合淘汰策略(使用频率+重要性+情感权重) 各层对应不同神经机制(神经活动→突触改变→网络结构) 这对AI系统的启示是应构建动态缓存层次:会话级暂存(L1)、热点固化(L2)配合原始数据生成(L3),在14%响应速度提升的同时保持灵活性。这种架构既避免了完全预存储的资源浪费,也克服了纯生成方案的重复计算缺陷。

2025-10-29 13:46:32 674

原创 生成式记忆:大球不是存储的,而是临时合成的

人类记忆与AI记忆本质上是基于线索的动态生成过程,而非静态存储。核心观点包括: 存储配方而非内容:大脑仅存储关键词、关联和情感标记(占信息量1-2%),而非完整摘要,查询时通过激活线索实时重构信息。 上下文敏感生成:同一组线索能根据不同需求(如解释概念或推导过程)生成差异化的动态摘要,且允许有损但保留核心语义。 分层动态合成:回忆遵循从粗糙到精细的渐进生成,类似算法解压,实现存储效率与灵活性的平衡,完美解释人类回忆的"慢而准"特性。 这一机制对AI系统的启示在于:应放弃预存静态摘要,转向

2025-10-29 13:44:55 547

原创 从开普勒猜想到AI记忆:信息压缩的几何本质

高维球体堆积与AI记忆组织的深层联系 1611年开普勒的球体堆积问题与2025年AI记忆组织问题,在高维空间被发现本质相通。现代AI的token embedding(如768维向量)本质上是在超高维空间中的点分布,但不同于3D世界中74%的堆积密度,高维空间呈现"维度诅咒"——几乎所有点都处于空间边缘,彼此距离相似且稀疏。这导致两个关键发现: 压缩即降维投影:文本压缩到视觉token时,本质是从768维投影到256维空间,体积缩小约10¹⁵⁴倍,必然伴随信息损失,理论损失率达96.7%,

2025-10-29 13:43:08 558

原创 记忆驱动架构 V9.9:让架构自己学习生成-创造涌现智能的条件

本文反思了AI设计中常见的"人类傲慢"错误,即过度设计复杂系统而忽视简单计算方法的历史教训。作者提出了6种极简主义替代方案:1)仅定义能量函数让模块自发涌现;2)通过神经架构搜索让算法自行设计结构;3)采用自组织Transformer让层次自然分化;4)仅保留核心架构元素;5)结合进化算法与Hebbian学习;6)直接使用基础大模型+提示词引导。这些方案遵循"设计vs涌现"的哲学,强调最小人为干预,让系统通过大规模计算自行演化出所需功能。文章对比显示,人为设定越少的方

2025-10-27 16:15:40 200

原创 记忆驱动架构 V5.0:自由流动架构-动态认知网络 (Dynamic Cognitive Network)

认知思维的范式革命:从线性流程到动态网络 文章揭示了人类思维运作方式的根本性转变:从传统的线性"流水线"模式(先A后B最后C)升级为并行处理的"神经网络"模式(A、B、C同时激活并互相影响)。通过数学题求解等实例,展现真实认知过程中记忆、推理、检验等模块的并行激活与动态交互。核心架构提出"认知状态空间"概念,将思维建模为五维状态(Z/M/D/C/H)的持续演化,通过动态路由机制实现各模块权重的实时调整。全连接设计使策略、记忆、注意力等模块能双向影响

2025-10-27 16:13:49 224

原创 记忆驱动架构 V4.0:整合潜变量的认知完备系统

本文提出了一种从"反应式"到"意图式"生成的范式突破,通过结构化潜变量(Z)实现内容生成的可控性与一致性。传统Transformer面临事后推断、容易矛盾的问题,而改进后的Free Transformer通过分层潜变量(全局Z_global、段落Z_section、局部Z_local)在知识图谱嵌入空间进行导航式生成。六维架构整合了潜变量层与记忆系统,通过知识图谱对齐的Z空间实现语义结构化,使生成过程具备全局策略性(主题/情感/风格)、段落目标性和局部修辞控制。关键创

2025-10-24 14:04:39 323

原创 记忆驱动架构 V3.0:统一理解与计算的完整方法论

本文提出认知任务存在"理解"与"计算"两种根本差异:理解任务可稀疏、有损且需语义处理,而计算任务必须密集、精确且无需语义。基于这一洞见,作者设计了一个五维架构系统,包含任务分类器、理解路径(四层记忆系统+DSA优化)、计算路径(三种模式:预计算/增量计算/符号执行)和混合路径。其中计算引擎通过生成程序而非神经网络来精确处理数值任务,任务分类器则根据查询类型、数据规模和精度需求智能分配处理路径。这一架构有效解决了传统单一模型无法兼顾语义理解与精确计算的矛盾。

2025-10-24 14:04:06 352

原创 记忆驱动架构 V2.0:整合稀疏注意力的完整方法论

文章摘要: 本文提出了一种融合稀疏注意力(DSA)与层次化记忆系统的新型架构,通过四个协同层次实现高效信息处理: 感知流层(2K tokens):采用DSA在有限窗口内快速聚焦关键信息(512 tokens),效率提升4倍 情节记忆层(50K tokens):结合DSA选择与动态评估机制,实现智能缓存管理 语义索引层:构建多级压缩表示,通过嵌入相似度快速定位相关信息 回溯门控层:按需加载外部存储片段,并再次应用DSA处理 关键创新在于将DSA的效率优化与记忆系统的存在论转换相结合,形成互补的稀疏化策略。DS

2025-10-24 14:03:34 646

原创 记忆驱动架构 V1.0:新的注意力机制,从人脑回忆重新思考长文本理解

本文探讨了人类记忆机制与当前AI模型的差异,提出改进AI记忆系统的三个关键启示。首先指出人类记忆是生成式的分层重构过程,而非精确检索;其次揭示记忆采用有损压缩+索引的存储方式;最后分析记忆检索的分层加速特性。基于此,文章提出三点AI改进方向:1)放弃将全部内容装入工作记忆的尝试,采用层次索引;2)用关联导航替代扁平化注意力机制;3)允许记忆重构而非强求完美保真。最后设计了两个具体方案:层次索引记忆(HIM)系统模拟人脑记忆组织,关联导航注意力(ANA)机制实现高效信息检索,为优化大语言模型的长文本处理能力提

2025-10-24 14:02:44 363

原创 合成数据的困境:多样性、数据耗尽与真实世界的未开垦之地

摘要 当前AI发展面临数据瓶颈:合成数据存在多样性退化问题,导致"模型崩溃";互联网文本数据可能接近耗尽。然而,视频、音频等多模态数据仍未被充分利用,其蕴含的物理常识和空间推理远超文本。未来突破方向包括:合成与真实数据混合使用、精准生成缺失数据、进化式数据生成等新范式,以及深度开发视频数据资源和创新数据增强技术。关键在于从追求数据数量转向质量,充分挖掘现有数据的多维价值。

2025-10-24 13:58:33 814

原创 视觉压缩的根本谬误:为什么“一图胜千言”对现在的AI不成立

视觉压缩的认知陷阱:信息密度与可访问性的矛盾 摘要:本文揭示了视觉语言模型(VLM)处理文本图像时的根本误区。人类"一图胜千言"的直觉在AI系统中失效,因为: 人类并行处理全局信息,而VLM受限于串行编码和固定粒度的视觉token 高压缩比导致信息可访问性急剧下降,模型无法聚焦词级细节 论文中的"有效"源于任务选择偏差和弱基线对比,实际细粒度理解任务表现不佳 存储压缩≠认知优化,视觉压缩在需要精确推理的场景适得其反 核心结论:视觉token的信息密度提升以牺牲细粒度注

2025-10-23 12:13:12 692

原创 DeepSeek-OCR 和 Glyph 的视觉文本压缩:一个更直观的解释

清华与智谱的论文提出了一种创新的长文本处理方法——将文本渲染为图片后让AI读取,比传统逐字处理更高效。核心方法包括三步:持续预训练模型识别图片文字,用GPT-4优化渲染参数组合(如分辨率、字体),以及后训练微调模型性能。实验显示,该方法能以3-4倍压缩比处理文本,且速度提升4.8倍,性能优于传统模型。与DeepSeek-OCR的离线批量处理不同,Glyph方案更注重实时交互的高精度需求,二者分别代表了OCR赛道中"生产扫描"与"实时阅读"的两种技术路线。

2025-10-22 19:22:43 786

原创 DeepSeek OCR 及 Glyph 论文解析:视觉压缩的注意力悖论

视觉压缩方法存在根本性缺陷:注意力粒度退化。文本LLM可精确关注单个词,但视觉压缩后,模型只能以"视觉块"为单位处理信息,无法聚焦到具体词汇。这导致三个问题:1) 词级定位能力丧失;2) 跨块推理困难;3) 无法模拟人类非均匀阅读模式。论文数据表明,压缩比越高性能越差,长文本任务退化尤为明显。虽然通过提高分辨率可缓解,但本质是信息可访问性(而非信息量)的损失,类似压缩文件需整体解压才能访问细节。现有方法仅通过增加训练多样性或降低压缩比来回避问题,未解决注意力粒度退化的核心矛盾。

2025-10-22 19:21:09 827

原创 知识与认知的不可分离性:对“认知核心“假设的根本质疑

简单规则 → 复杂行为局部交互 → 全局模式无中生有的质变涌现 = 局部规则 → 全局性质且全局性质无法从局部规则直接推导不是:无知识的算法而是:最小的充分知识-认知系统类比:不是"无菌培养基"而是"最简生态系统"有人说可以把水和湿分开可以把火和热分开可以把认知和知识分开但水之所以为水因为湿火之所以为火因为热认知之所以为认知因为它知道那些"知道"不是包袱是骨骼不是装饰是血肉你问1GB够吗我说装不下一个灵魂因为灵魂从来不是程序而是。

2025-10-21 17:44:19 1145

原创 DeepSeek-OCR的记忆类比:一个优美但致命简化的错误

这张图展示的"记忆遗忘=分辨率降低"的类比,是DeepSeek-OCR论文中的部分。让我从认知科学角度彻底拆解。

2025-10-21 17:40:23 1276 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除