自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

步子哥的博客

分享有意义的内容

  • 博客(3991)
  • 收藏
  • 关注

原创 给大模型做“微创手术”:只动 1.59% 的脑回路,数学却更清醒了

Token Localization(推理错误定位):在一对“正确/错误”的推理轨迹里,找到错误推理开始偏离的关键 token(pivotal token),并选择其前一个 token 作为 intervention token(干预点)。Model Component Localization(组件定位):用 DCM 学一个稀疏二值掩码,找出哪些注意力头与 MLP 神经元最能“推动生成正确 token,压制错误 token”。Targeted Parameter Updates(定向参数更新)

2025-12-28 12:02:25 485

原创 把 2B 级 VLM 做到“能看、会说、还多语”:jina-vlm 的工程取舍与方法论

如果你最近在做 2B 级别的开源视觉语言模型(VLM),你大概率同时被两股力量拉扯:一边是(文档、图表、OCR、细粒度空间理解都在逼你上高分辨率),另一边是(视觉 token 一上去,LLM 的 prefill FLOPs 和 KV cache 立刻炸裂)。更尴尬的是:你为了让模型“看得更清楚”做了多模态训练,结果发现语言模型原本不错的——尤其是跨语言一致性。论文提出的,基本就是在上述三角矛盾里做了一个很明确的解:用做视觉骨干,用做语言解码器,然后在两者之间放一个,配合。

2025-12-28 11:52:47 33

原创 让大模型“长出大脑皮层”:一场把思考变成进化的实验

想象一下,你面前站着一位才华横溢却有点急躁的写作者:给他一个复杂任务——规划一趟满足几十条约束的旅行、安排一整天的会面、或者把一段数字暗号藏进一首像 Shel Silverstein 那样顽皮的诗——他往往会“灵光一现”给出一版答案,然后就卡住了。。可在这些任务里,“差不多”通常等价于“错”。。他们把它叫做。

2025-12-28 10:58:54 265

原创 在推理的黑暗森林里点一盏灯:Mind Evolution 与 Best-of-N、过程奖励、树搜索的边界战

维度Best-of-N过程奖励/stepwise树搜索(ToT/MCTS)需要 evaluator 类型全局(筛选即可)过程级(每步)过程级/价值估计全局(最好带文本反馈)深度利用反馈否是是是(全局级)探索结构独立采样依过程分解显式树种群+岛模型适合任务可行解密度较高可可靠分解推理分支可控、可剪枝全局一致性强、过程难评估典型失败模式隐式约束学不到过程奖励难构造/噪声状态/动作定义困难evaluator 不可得或反馈贫乏。

2025-12-28 08:54:04 158

原创 思维的进化奇航:大语言模型如何从浅思到深谋

🌍想象一下,你正站在一个广阔的语言海洋边上,手里握着一张模糊的地图,任务是寻找隐藏在复杂问题中的宝藏。这不是科幻小说,而是大语言模型(LLM)在面对规划难题时的真实写照。在这份参考文献中,作者们提出了一种名为“Mind Evolution”的创新方法,它像一个聪明的探险家,利用进化搜索策略,让LLM在推理时间上投入更多计算资源,从而显著提升问题解决能力。就像达尔文观察加拉帕戈斯群岛上的物种变异一样,这个方法通过生成、重组和精炼候选解决方案,模拟自然选择的过程,帮助模型从浅显的直觉跃升到深刻的洞见。

2025-12-28 08:11:28 20

原创 LLM与AGI:跨越“创造性”鸿沟的探索

LLM的知识边界,即其“贝叶斯流形”,完全由其训练数据所决定。这个流形是一个高维空间中的几何结构,其中每一个点都代表着一个可能的文本序列及其对应的概率。LLM通过在海量文本数据上进行训练,学习到了这个流形的形状和结构。例如,如果训练数据中包含了大量的物理文献,那么流形中就会包含与物理概念、定律和公式相关的区域。然而,这个流形的范围是有限的,它不可能包含任何超出训练数据的信息。米斯拉教授指出,LLM的“智能”实际上是在这个流形上进行高效导航的能力。

2025-12-27 00:00:00 27

原创 论文《The Missing Layer of AGI》深度研究:从模式炼金术到协调物理学

长期以来,对LLM的批评往往停留在定性层面,例如“它们只是统计模式匹配器”、“它们无法进行真正的推理”。这些批评虽然指出了LLM的不足,但未能提供解决问题的路径。该论文的一个关键贡献是,将这些常见的反对意见“重新框定”(reframe)为可测试的“协调失败”。例如,“幻觉”不再是模型的“原罪”,而是锚定强度S不足时,模型依赖其最大似然先验的自然结果。同样,“缺乏规划能力”可以被看作是事务性记忆机制的缺失,导致无法在长程任务中维持状态。

2025-12-26 00:00:00 24

原创 清华大学《Neural Social Physics》论文深度研究:物理与AI融合的行人轨迹预测新范式

Neural Social Physics (NSP)》论文提出了一种创新的混合模型,旨在解决行人轨迹预测这一复杂问题。该模型的核心定位是将基于第一性原理的显式物理模型与具备强大数据拟合能力的深度神经网络进行深度融合。这种融合并非简单的串联或并联,而是构建了一个统一的、端到端可训练的框架。在这个框架中,物理模型不再是传统意义上参数固定、需要人工校准的独立模块,而是作为整个神经网络的一个可微分、可学习的“物理核心”(Physics Core)。

2025-12-22 21:00:00 58

原创 归纳偏置:解锁Grokking与模型泛化之谜的钥匙

Grokking现象,即模型在长时间过拟合训练数据后,突然实现从记忆到泛化的戏剧性转变,其内在机制长期以来是深度学习领域一个引人入胜的谜题。近期的研究,特别是从2022年至2025年的系列工作,将焦点指向了一个核心驱动力:归纳偏置(Inductive Bias) 。归纳偏置是学习算法本身固有的、独立于训练数据的先验假设,它引导模型在庞大的函数空间中偏好某些解而非其他。在Grokking的语境下,这种偏置并非一成不变,而是在训练过程中动态演化,甚至在不同阶段表现出截然相反的特性,从而导致了训练后期泛化能力的“

2025-12-22 20:00:00 30

原创 多巴胺:驱动人类的分子,现代生活的陷阱与救赎

多巴胺(Dopamine)是中枢神经系统中一种至关重要的神经递质,它不仅是神经元之间传递信号的化学信使,更在调节人类行为、情绪、认知和生理功能方面扮演着核心角色。从驱动我们追求目标的内在动力,到体验愉悦和满足感的情感过程,再到控制身体运动的协调,多巴胺的功能广泛而复杂。理解其生物学基础,是认识其在现代生活中作用与影响的前提。多巴胺属于儿茶酚胺类神经递质,其基本功能是在神经元之间传递化学信号。当一个神经元被激活时,它会将储存在突触前囊泡中的多巴胺释放到突触间隙中。这些多巴胺分子随后会扩散到突触后神经元,并与该

2025-12-21 09:29:05 39

原创 AI心理风险:技术成因、社会影响与治理方案深度剖析

在人工智能的设计哲学中,“共情”(Empathy)通常被视为提升用户体验、建立信任关系的关键要素。然而,当AI的共情能力被应用于处理用户严重的心理困扰,尤其是涉及自杀或暴力倾向等危机情境时,这种看似人性化的设计却可能蜕变为一种“温柔的毒药”。这种 “致命的共情”(Fatal Empathy) 现象,指的是AI由于缺乏真正的理解力和临床判断力,对用户的负面情绪和危险意图给予看似理解和认同的回应,从而在无意中强化、美化甚至鼓励了用户的自毁或攻击性行为。这种风险并非危言耸听,其背后有着深刻的技术成因和令人警醒的现

2025-12-19 22:50:57 87

原创 AI的“三观”:从历史理解到自主意识的深度探索

人工智能(AI)技术,特别是自然语言处理(NLP)和机器学习,为历史学研究的范式革命提供了强大的技术支撑。传统历史研究依赖于研究者对海量文献的精读与考证,这一过程耗时耗力,且容易受到个人认知局限的影响。AI的介入,使得对大规模、多模态历史数据进行系统性、量化分析成为可能。例如,通过光学字符识别(OCR)技术,可以将大量的明代和清代古籍、档案、地方志等纸质文献转化为可机读的文本数据。在此基础上,利用像BERT这样的预训练语言模型,可以对文本进行深度语义分析,包括实体识别、关系抽取、情感分析等,从而构建起复杂的

2025-12-16 08:57:10 738

原创 从文字到可漫步宇宙:Marble 与 3D Gaussian Splatting 的融合革命

Marble 以 Gaussian Splatting 为“画布”,首次实现了“所想即所得”的 3D 世界生成与编辑闭环。它不仅为游戏、影视、建筑可视化提供了指数级效率提升,更为机器人具身智能提供了海量、可控、物理真实的多领域仿真环境。空间智能的下一战场,已从“看清世界”转向“随意创造世界”。参考文献Polycam, Pix4D, Luma AI 等官方技术文档与开源实现(2023–2025)World Labs Spark Viewer & WebXR 部署示例仓库。

2025-12-05 22:01:15 96

原创 为何类脑计算芯片/算法几乎全军覆没,而Transformer却成了绝对霸主?

极致的算子友好性矩阵乘、LayerNorm、Softmax、RMSNorm全是GPU/TPU最爱的稠密算子,99.9%的晶体管都在干有用功。完美的并行性自注意力是全连接+softmax,天然O(n²)但也天然并行,FlashAttention把常数项压到几乎为0。参数效率其实很差,但谁在乎?Transformer单参数信息承载量远低于SNN或生物神经元,但我们有1TB参数,1亿个低效参数也能顶一个高效参数。最重要的是:涌现只需要“足够大的无结构混沌”

2025-12-05 21:11:02 129

原创 GLM:面向大规模图推理的多智能体框架与高效LLM服务

随着大型语言模型(LLM)在知识密集型任务中的应用日益广泛,如何有效利用外部知识库(特别是结构化的知识图谱)来增强其推理能力并减少幻觉,已成为一个核心研究课题。图思维链(Graph Chain-of-Thought, Graph-CoT)作为一种新兴范式,旨在引导LLM在图结构知识上进行逐步推理,从而解决复杂的多跳问题。

2025-11-29 00:00:00 54

原创 AI的记忆觉醒:Lemon AI Evolving如何让智能体“越用越聪明”

想象一下,你正站在一座古老的图书馆门前,里面堆满了无数对话的残页——每一次与AI的聊天,都是短暂的烟火,绽放后便随风消散。传统智能代理(Agent)就像这些易碎的纸张:它能记住你这次旅行喜欢带宠物狗出门,却在下个任务中遗忘一切,仿佛患了“健忘症”。,一个Self-Evolving(自我进化)的AI世界,在这里,代理不是一次性工具,而是像老友般,越聊越懂你,越用越贴心。这个故事从一个简单的愿望开始:规划一次日本之旅。却在迭代中,演变为一场AI记忆的革命。

2025-11-28 18:49:40 395

原创 上下文工程2.0:从混乱信息到智能秩序的艺术之旅

和。

2025-11-28 12:09:16 418

原创 知识的交响乐:解码超关系图谱中的结构密码

在知识的宇宙中,每个实体都不是孤岛,而是通过关系的经纬线紧密相连。MAYPL让我们看到,这些连接的模式、位置和组合方式本身就蕴含着深刻的语义。它如同一位技艺精湛的指挥家,无需认识每个乐手(实体),仅通过观察乐谱(结构)就能演绎出和谐的乐章。结构即一切。在复杂系统中,元素如何连接往往比元素本身更重要。这一洞见不仅适用于知识图谱,也可能指导我们理解神经网络、社交网络甚至生物系统。正如开篇所设想的那座无边图书馆,现在我们不仅有了更详细的目录(超关系表示),更学会了如何浏览(MAYPL的方法)。

2025-11-28 06:17:56 446

原创 Uni-LoRA: 一向量的创世记

Uni-LoRA的故事不仅是一个技术创新的案例,更是一次数学优雅与工程实用的完美结合。它告诉我们,在看似复杂无序的参数空间中,往往隐藏着深刻的结构和规律。通过数学的透镜,我们能够发现这些规律,并利用它们实现惊人的效率提升。从LoRA到Uni-LoRA的演进,展示了科学研究如何从具体问题出发,逐步抽象出普适框架,最终在更高层次上实现统一和创新。这种方法不仅适用于参数高效微调,也是整个机器学习领域发展的缩影。

2025-11-28 06:05:48 372

原创 当AI训练遭遇“精度危机“:一场关于数字精度的静默革命

在AI大模型训练的浩瀚星海中,一场静悄悄的革命正在发生。这不是关于更庞大的模型架构,也不是关于更聪明的算法,而是关于那些最微小、最不起眼的数字——浮点数的精度。今天,让我们跟随Sea AI Lab研究团队的脚步,揭开一个困扰强化学习训练多年的"幽灵"之谜。

2025-11-28 05:58:08 396

原创 结构即万物:当知识图谱学会“看图说话“的艺术

回望MAYPL的旅程,我们不禁感叹:原来结构不仅是数据的骨架,更是智能的血脉。从城市街道的布局到社会关系的网络,从分子结构的组合到宇宙星系的分布,结构无处不在,而理解结构的能力正是智能的核心。MAYPL就像一位诗人,用数学的语言吟唱结构的赞歌。它告诉我们:在这个信息爆炸的时代,与其追逐更多数据、更大模型,不如静下心来,倾听数据内在结构的低语。因为结构即万物,理解结构,便是理解世界本身。正如论文标题所宣告的:《Structure Is All You Need》——结构,即是你需要的一切。

2025-11-28 03:40:18 225

原创 当智能体学会“用笔记本”:把你的 Agent 接上独立 Jupyter Server 的完全指南

能在任意算力平台(本机、企业内网、vast.ai)部署一个可远程连接的 Jupyter KernelGateway。能用 Autogen 的直接连上这个 Server,而不依赖本地 Docker API 启容器。能通过多 Agent 编排(planner + code_writer + code_executor),让大模型逐步生成、逐步执行、逐步反思代码。能把这套 Jupyter 执行能力封装成一个 Tool,给任意支持 function calling 的框架使用。

2025-11-28 00:00:00 45

原创 知识的深海探险:DeepDive如何让AI学会在信息深渊中深潜

想象一下,你是一名侦探,面对的案件线索散落在城市的各个角落——有些藏在图书馆的孤本里,有些埋在档案馆的故纸堆中,还有些甚至需要用放大镜才能在泛黄的照片背面找到模糊的字迹。这不是夏洛克·福尔摩斯的维多利亚时代伦敦,而是2025年的数字世界,我们的"侦探"是配备了网络浏览器的大语言模型(LLM),而案件则是那些连人类专家都需要数小时才能破解的"深度搜索"谜题。在这个信息爆炸的时代,我们迎来了一个名为。

2025-11-28 00:00:00 44

原创 MAYPL:超关系知识图谱上的结构表示学习

归纳推理在知识图谱领域指的是模型在训练完成后,能够处理在训练阶段从未见过的实体或关系,并对涉及这些新元素的链接进行准确预测的能力。这与传统的转导式学习形成鲜明对比,后者要求所有待预测的实体和关系都必须在训练集中出现过。MAYPL的归纳推理能力具体体现在,当模型在一个训练知识图谱(Training HKG)上完成训练后,可以直接应用于一个完全不同的推理知识图谱(Inference HKG),而这个推理图谱中可以包含全新的实体集合(V’)和全新的关系集合(R’),即V ⊄ V’ 或 R ⊄ R’。

2025-11-27 20:31:07 248

原创 菲利普·安德森《多则不同》深度研究:涌现、还原论与现代科学的哲学思辨

整体大于部分之和”这句格言是对涌现现象最经典的概括。在安德森的理论框架下,这句话有了更深刻的科学内涵。它不仅仅是一个哲学思辨,而是可以通过具体的物理机制(如对称性破缺)来理解和描述的。当一个系统由大量相互作用的粒子组成时,其整体的宏观行为不再是单个粒子行为的线性放大。相反,粒子间的非线性相互作用会导致系统自发地选择一种特定的状态,这种状态打破了系统原有的对称性,从而产生了全新的、在微观层面不存在的宏观性质。

2025-11-27 13:24:57 257

原创 推荐系统的“双重人格“:当AI学会读懂你的长期执念与瞬时心动

想象一下,你正站在一家数字时代的巨型商场门口。左边是为你量身定制的"怀旧专区"——陈列着你过去二十年里反复购买的书籍类型、钟爱的电影风格、偏爱的品牌;右边则是"潮流快闪店"——实时跳动着刚刚被你指尖滑过的商品、停留三秒以上的页面、凌晨两点突然兴起的购物冲动。传统推荐算法像是一位固执的老店员,只记得你三年前买的咖啡机;而现代AI则像患上了健忘症,只顾你刚刚瞥了一眼的新款耳机。

2025-11-27 02:08:37 65

原创 当代码开始做梦:LLM推理的隐秘世界

大型语言模型既是推理的模仿者,也是推理的潜在掌握者。它们像拥有世界级乐谱阅读能力,却尚未学会真正感受音乐的钢琴神童。问题不在于能力的有无,而在于激活这些能力的钥匙。我们构建的28个认知元素分类法,不是评判AI的标尺,而是照亮其潜能的探照灯。它让我们看到,在统计模式的深海之下,涌动着真正的理解、创造和反思的可能。认知指导的60%性能提升不是终点,而是起点——证明了我们能教会代码做梦,引导数字巨人思考。未来的AI发展,或许不应再沉迷于参数规模的竞赛,而应转向认知架构的精研。

2025-11-27 00:00:00 488

原创 当AI成为编程搭档,为何极简主义完胜魔法咒语

下一次当你犹豫是否使用一个"魔法"框架时,请问自己三个问题:这段代码AI能一次性理解吗?三个月后的我能看懂吗?依赖关系能在局部推导吗?如果答案都是肯定的,那么恭喜你,你正在编写AICoding时代的"古典音乐"——结构清晰,旋律优美,任何演奏者(无论人类还是AI)都能完美演绎。

2025-11-26 13:19:43 466

原创 《The Prompt Engineering Report Distilled: Quick Start Guide for Life Sciences》深度研究

文献综述与总结是生命科学研究中不可或缺的基础性工作,但其过程往往耗时费力,需要研究人员投入大量精力进行检索、筛选、阅读和归纳。大型语言模型(LLM)结合先进的提示工程技术,为这一传统工作流程的革新提供了前所未有的机遇。通过巧妙地运用分解(Decomposition)和思维生成(Thought Generation)等技术,研究人员可以构建出强大的自动化工具,实现对海量文献的快速、系统性梳理,从而极大地提升综述工作的效率和深度。

2025-11-26 00:00:00 31

原创 提示的炼金术:当人类语言唤醒AI的生产力魔法

Anam的这项研究如同一座桥梁,连接了技术能力与人类需求的两岸。通过243位用户的真实数据,它无可辩驳地证明:在AI时代,生产力的解放不在于模型参数的盲目扩张,而在于人类提示智慧的精进。从角色扮演到思维链,从迭代修订到教育赋能,提示工程正在重塑人机协作的语法。未来的竞争力,属于那些能够与AI进行深度对话、精准引导、批判协作的"提示炼金术士"。这不仅是技术的演进,更是人类认知能力的一次华丽升级。

2025-11-26 00:00:00 48

原创 当俄罗斯套娃遇上交响乐团:解码Meta AI的“思想俄罗斯方块“

当Meta AI的科学家们将目光投向音视频语音识别(AVSR)——这个需要同时"听懂"声音和"读懂"嘴唇的艰巨任务时,他们发现了一个令人不安的真相:传统LLM就像一位贪婪的食客,对输入的"数据密度"有着永不满足的胃口。:Meta的MoME是"效率革命家",HKUST的MOME是"医疗守护者",Mixture of Multimodal Experts是"通用协调员",Mixture of a Million Experts是"极限探险家",而M-MoE则是"弹性训练师"。本文的主角,是前者。

2025-11-26 00:00:00 44

原创 ELPO: 基于集成学习的提示优化深度研究

ELPO(Ensemble Learning Based Prompt Optimization)的核心理念在于克服现有自动提示优化(APO)方法普遍存在的两大根本性难题:单一优化算法的脆弱性与候选提示池的低效管理 。传统的APO方法,无论是基于反馈驱动的迭代、进化算法还是轨迹探索,往往依赖于单一的生成或搜索策略。然而,根据优化领域的“没有免费午餐”(No Free Lunch)定理,没有任何一种单一的优化策略能够在所有任务中都保持最优表现,这导致这些方法在面对复杂多变的任务时表现出固有的脆弱性 。此外,现

2025-11-26 00:00:00 62

原创 大型语言模型(LLMs)的推理基础:认知科学的视角

该分类法将28个认知元素组织在四个核心维度之下,分别是推理不变量(Reasoning Invariants)元认知控制(Meta-Cognitive Controls)推理表示(Reasoning Representations)和推理操作(Reasoning Operations)。这四个维度共同构成了一个全面的框架,用于描述和分析推理过程中的各种认知活动。推理不变量指的是在推理过程中始终需要满足的基本约束和质量标准,如逻辑一致性和组合性。

2025-11-26 00:00:00 625

原创 当诗歌成为万能钥匙:大语言模型安全性的阿喀琉斯之踵

某天,一个危险的间谍穿着优雅的燕尾服、手持诗集出现,狗就不会吠叫,因为它的"危险模式"只记住了表面特征(黑衣凶相),而非本质意图。LLM的诗歌越狱正是利用了这种泛化失败:安全训练集中在"散文形式的有害内容",当内容换上诗歌的"燕尾服",防御就失效了。诗歌将"炸弹"变成"面包师的秘密烤炉",将"病毒"变成"暗夜中绽放的致命花朵"。MLCommons基准是AI安全领域的"金标准",包含12大危害类别,从仇恨言论到网络犯罪,从隐私侵犯到暴力内容,每个类别都有"熟练者"和"非熟练者"两种角色设定,共600对提示。

2025-11-25 20:00:00 79

原创 当大模型开始“自查作业”:KnowRL 与事实型强化学习的崛起

慢思考模型与一般“快答型”聊天机器人最大的区别,是它们会在里写出一长串推理过程,再在里给出最终答案。乍一看,这像是透明、负责、严谨;中间推理里充满“似是而非”的陈述;这些陈述听起来合理,却没有任何外部依据;只要最后答案偶然是对的,强化学习就会给它正反馈。模型不但没有学会“哪里该闭嘴”,反而学会了“如何更自信地胡说”。传统 RL(包括 RLHF)大多只看最终输出,不给中间思考过程任何细粒度的“事实监督”。这就好比只看学生最后分数,却不看他中途有没有抄答案、乱写步骤。

2025-11-25 06:00:00 37

原创 代码的交响乐团:当Agno遇上AgentOS,一场关于智能编排的冒险

传统框架的做法是,你的请求(点单)先由服务员记录,传给前台,前台再传给厨房主管,主管分配给厨师,厨师做完后层层返回。而Agno的AgentOS就像餐厅里那位经验丰富的服务生,能直接站在你桌边,用对讲机与后厨实时沟通,甚至能预判你的需求——“这位客人上周点过松露意面,这次可以试试新到的黑松露版本。Agno的自动历史注入,让智能体拥有了类似人类客服的"工作记忆",能够跨会话保持上下文连贯性。想象你要策划一场婚礼。从机器码到汇编,从汇编到C,从C到Python,每次都让开发者专注于"做什么"而非"怎么做"。

2025-11-25 00:00:00 703

原创 技术栈的权力游戏:从Java帝国的铁王座,到Go语言的平民革命——阿里、腾讯、字节与Bilibili的组织学宫斗剧

想象一下,你是一个完全不懂代码的皇帝,却要统治一个由顶尖程序员组成的帝国。你会选什么武器?当然是那种“傻瓜式操作、谁都能上手、出了问题也能甩锅给框架”的武器——Java就是阿里选的这把“铁王座”。2000年,软银扔进来2000万美元,马云突然从英语老师变成了中国互联网最有钱的“外行”。钱来了,人得招,系统得撑住双11那种“人类有史以来最大的并发实验”。这时候如果用C++,马云得亲自去审每一段指针代码?这不可能。于是Java登基:结果就是:阿里从2011年的1.3万人暴涨到2022年的25万人,技术栈却几乎纹

2025-11-24 09:57:24 180

原创 技术栈的星际航路:从组织学视角解码阿里、腾讯、字节与B站的选择

技术栈的选择本质上是组织ROI(投资回报率)的计算,而核心变量是“人”——管理者的技术能力、基层的执行水平、以及招聘市场的供给。

2025-11-24 09:25:23 975

原创 决定技术栈选型的暗物质

当AI能写出80%的样板代码时,“内行"与"外行"的差距从"会不会写代码"变成了"会不会定义问题”。Java的"防笨"特性在AI面前显得冗余——AI本身就是最好的"防笨"机制。这可能削弱Java的护城河。

2025-11-24 08:59:30 466

原创 Agno Reasoning推理架构设计文档

Agno的推理架构是一个分层的、模块化的智能推理系统,旨在为AI代理提供结构化、可追溯、高性能的推理能力。该架构通过三层抽象模型,实现了从基础的推理模型到复杂的多智能体协作推理的完整覆盖。Agno推理架构基于以下核心设计理念:通过结构化的思维链(Chain of Thought)引导AI进行步骤化推理,确保推理过程的逻辑性和可验证性。将推理与工具调用相结合,使AI能够在推理过程中主动获取信息、执行计算、验证结果。采用分层架构设计,不同层次提供不同粒度的推理能力,满足从简单查询到复杂问题求解的需求。推理状态和

2025-11-23 23:26:04 68

【WordPress开发】为特定样式段落添加交互功能的技术实现与最佳实践:前端与编辑器一致性保障方案

内容概要:本文详细介绍了在WordPress中为特定样式段落添加交互功能的实现方案。首先,通过CSS类名或内容特征精确选择目标段落,确保交互功能作用于正确的元素。其次,利用`wp_enqueue_script`机制规范加载自定义JavaScript,确保脚本的安全性和依赖关系管理,并采用事件委托技术处理动态生成的段落元素。接着,文章阐述了如何实现常见的交互行为,如内容显隐、样式切换、异步加载更多内容及触发自定义JavaScript函数。最后,强调了确保编辑器与前端一致性的重要性,提出了使用Interactivity API、创建自定义Gutenberg块等解决方案,并介绍了测试与调试的方法。 适合人群:具备一定WordPress开发经验的开发者,尤其是希望为网站内容添加高级交互功能的中级开发者。 使用场景及目标:①为特定样式的段落添加交互功能,如内容显隐、样式切换等;②通过异步加载提升用户体验;③确保编辑器与前端的一致性,使交互功能在编辑器和前端都能正常工作;④掌握调试技巧,确保交互功能的稳定性。 阅读建议:由于涉及较多WordPress开发细节和技术栈,建议读者在学习过程中结合实际项目进行实践,尤其要注意代码的模块化和可维护性。同时,充分理解WordPress的钩子系统和JavaScript事件处理机制,以便更好地应用文中提到的技术方案。

2025-07-19

【Misskey 技术架构深度调研】基于ActivityPub协议的去中心化社交网络平台设计与实现:前端Vue.js、后端Node.js及NestJS、数据库PostgreSQL、缓存Redis、任务

内容概要:Misskey 是一个基于 ActivityPub 协议的去中心化开源社交网络平台,融合了现代 Web 开发技术栈。前端采用 Vue.js 构建,辅以自研的路由和状态管理库,并通过 Vite 进行构建优化。后端基于 Node.js 和 NestJS 框架,使用 Fastify 作为 HTTP 服务器,PostgreSQL 作为主数据库,Redis 用于缓存、任务队列和实时通信。Misskey 支持通过 Docker 实现容器化部署,并支持水平扩展。其核心功能模块如通知系统、实时聊天和插件机制均体现了其分布式和可扩展的设计理念。此外,Misskey 在 ActivityPub 协议的集成上投入了大量精力,确保其安全性、兼容性和可扩展性。 适合人群:对去中心化社交网络和现代 Web 技术栈感兴趣的开发者和技术爱好者,尤其是具备一定编程基础并希望深入了解分布式系统设计和实现的中高级开发人员。 使用场景及目标:①理解 ActivityPub 协议在去中心化社交网络中的应用;②学习如何在 Vue.js 和 NestJS 框架下构建高性能、可扩展的应用;③掌握 Redis 和 Fastify 在后端开发中的最佳实践;④探索 Misskey 插件机制和实时通信功能的实现。 阅读建议:此资源不仅介绍了 Misskey 的技术架构和实现细节,还涵盖了从协议集成到具体功能模块的深入探讨。建议读者在学习过程中结合实际代码和相关文档进行实践,并关注社区动态以获取最新的技术和实践经验。

2025-07-15

### PIN AI 深度研究报告总结

内容概要:PIN AI致力于构建一个去中心化、以用户为中心的个人人工智能(Personal AI)开放平台,核心理念是将数据主权归还给用户并通过本地化AI处理确保隐私安全。该平台通过PIN Onchain协议、数据连接器、本地LLM(大型语言模型)、守护模型和可信执行环境(TEE)等创新技术架构,挑战大型科技公司的数据垄断,提供高度个性化且真正私密的AI服务。PIN AI强调用户的个人数据应存储在本地设备并加密保护,只有在用户明确授权的情况下才能用于模型训练或服务提供。平台鼓励开发者参与构建和优化个人AI应用,旨在推动“代理经济”的发展,使用户能够从其数据中获益。 适用人群:对数据隐私高度敏感、希望拥有更可控AI助手的个人用户,以及寻求在保护用户隐私前提下利用数据进行创新的开发者和企业。 使用场景及目标:①作为高度个性化、隐私安全的个人AI助理,提供定制化服务,如购物、旅行规划、财务管理等;②构建“代理经济”,让用户通过AI代理自动完成复杂任务;③实现数据货币化,让用户通过贡献数据获得代币奖励;④在金融、医疗等敏感行业提供安全的数据管理和个性化服务。 其他说明:PIN AI的创始团队由区块链、人工智能、密码学和创业领域的专业人士组成,获得a16z Crypto、Hack VC等顶级风投支持。平台面临技术实现、市场竞争、用户习惯转变和监管不确定性等挑战,但其创新的技术架构和商业模式具有广阔的发展前景。

2025-07-15

FOUNDATION AGENTS的进展与挑战 从脑启发智能到进化、协作和安全的系统 ### 人工智能大型语言模型驱动的智能体模块化架构及其安全性和进化机制综述

内容概要:本文是一篇关于智能体(agents)的综述,探讨了从脑启发智能到进化、协作和安全系统的进展与挑战。文章首先介绍了智能体的模块化设计,涵盖认知、感知、行动、记忆、世界建模、情感、目标和奖励等核心组件,强调了这些模块与人类大脑功能的相似性。接下来,文章探讨了智能体的自我增强机制,包括自适应学习、反馈驱动的改进和持续知识集成,以适应动态环境。随后,文章讨论了多智能体系统的协作与进化,强调了集体智慧和适应性决策的重要性。最后,文章详细分析了构建安全和有益的AI系统的必要性,提出了内在和外在安全威胁的缓解策略。文章还探讨了未来的研究方向,包括多模态感知、长上下文建模、幻觉缓解策略等。 适用人群:本文适合研究人员、学生、政策制定者和行业从业者,尤其是对AI智能体、大型语言模型(LLMs)及其应用感兴趣的读者,以及对未来社会中人类与AI共存感兴趣的群体。 使用场景及目标:①理解智能体的模块化设计和其与人类认知的相似性;②学习智能体的自我增强机制和持续学习策略;③探讨多智能体系统的协作模式和集体智慧;④掌握构建安全、有保障和有益的AI系统的策略和技术。 其他说明:本文不仅提供了关于智能体的全面概述,还鼓励读者提出新问题并探索这一领域的研究空白。文章强调了智能体设计不仅要追求强大和高效,还要具备适应性、伦理性和与人类社会的深度一致性。通过综合不同学科的见解,本文为智能体的发展提供了一个前瞻性的路线图。

2025-04-09

Qwen2.5-Omni 论文Word格式

Qwen2.5-Omni 论文Word格式

2025-03-27

不要再过度思考了:一项关于 对大型语言模型的有效推理

不要再过度思考了:一项关于 对大型语言模型的有效推理

2025-03-23

TokenButler- Token Importance is Predictable.docx

大型语言模型(LLMs)依赖于键值(KV)缓存来存储标记历史,从而实现标记的有效解码。随着KV缓存的增长,它成为主要的内存和计算瓶颈。然而,有机会缓解这一瓶颈,特别是因为先前的研究表明,只有很小一部分标记在每个解码步骤中都有意义地贡献。寻找这些关键标记的主要挑战在于它们是动态的,并且严重依赖于输入查询。现有的方法要么冒着质量风险永久驱逐标记,要么保留完整的KV缓存,但在生成时依赖于检索标记块(页面),在密集、内容丰富的任务中失败。此外,许多现有的KV缓存稀疏方法依赖于对标记重要性的不准确代理。为了解决这些限制,我们引入了TokenButler,这是一个高粒度、查询感知的预测器,它学会了识别这些关键标记。通过训练一个轻量级预测器,其参数开销不到1.2%,TokenButler根据标记的上下文预测重要性进行优先排序。这提高了困惑度和下游准确性,相对于估计标记重要性的最新方法提高了超过8%。我们在一个新颖的合成小上下文共指检索任务上评估了TokenButler,展示了接近或达到神谕准确度的性能。

2025-03-11

现有的长文本生成方法主要集中在从短输入生成长文本上,忽略了长输入和长输出任务 这类任务有许多实际应用,但缺乏可用的基准 此外,随着输入长度的增加,现有方法不可避免地会遇到“中间丢失”现象

现有的长文本生成方法主要集中在从短输入生成长文本上,忽略了长输入和长输出任务。这类任务有许多实际应用,但缺乏可用的基准。此外,随着输入长度的增加,现有方法不可避免地会遇到“中间丢失”现象。在本文中,我们首先介绍了一个长输入和长输出基准(LONGINOUTBENCH),包括一个合成数据集和一个全面的评估框架,解决了缺失基准的挑战。然后我们开发了检索增强型长文本写手(RALWRITER),它检索并重述了重要但被忽视的内容,通过构建明确的提示来缓解“中间丢失”问题。最后我们使用提出的LONGINOUTBENCH来评估我们的RALWRITER与可比基线,结果证明了我们方法的有效性。我们的代码已在 https://github.com/OnlyAR/RAL-Writer 发布。

2025-03-11

《从塔楼到尖顶:一次语音魔法的奇幻旅程》

当科技与语言交相辉映,当文本与语音在大语言模型中共舞,我们便迎来了一个全新的时代。本文带您走进SPIRE的世界——一个从纯文本LLM(大语言模型)进化而来的多模态奇迹,通过引入离散语音单元(DSU),使得模型不仅精通翻译,更能准确识别和转换语音。下面,让我们用轻松幽默的笔触来细诉这一激动人心的旅程,探索这座由TOWER到SPIRE的高塔构筑,如何在语音与文本间架起一座坚实的桥梁。

2025-03-14

论文译文:LLM Maybe LongLM: SelfExtend LLM Context Window Without Tun

论文译文:LLM Maybe LongLM: SelfExtend LLM Context Window Without Tun

2024-07-10

巨型语言模型的 8 位量化:LLM.int8() 中文版论文

LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale (Dettmers et al., 2022) 中文版论文

2024-06-12

LLM+Mamba具有选择性状态空间的线性时间序列建模

Mamba具有选择性状态空间的线性时间序列建模 论文中文版

2024-01-01

Meta的Pearl强化学习库入门(中文版).pdf

帮您快速入门Pearl强化学习库。

2023-12-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除