自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

oe1019的专栏

https://github.com/SamYuan1990

  • 博客(170)
  • 收藏
  • 关注

原创 给OB社区的圣诞礼物——结构化上下文语言(Structured Context Language)项目

本文探讨了智能体系统中MCP与RAG的双向协同机制。作者通过实践发现,借助PowerMem和seekdb可以构建类RAG系统,而反向利用RAG的向量相似度查询也能模拟MCP的渐进式加载特性。文章提出了结构化上下文语言(SCL)的构想,将其定位为智能体时代的"SQL",并从业务内容、工具调用和记忆管理三个维度解构上下文工程。通过渐进式加载工具调用和"Hint"机制的人机协作实践,展示了动态上下文管理的可行性。作者呼吁社区共同参与SCL中间件的开发,以标准化接口推动智能体

2025-12-23 10:59:23 824

原创 大模型使用成本和效率——大家是怎么选的?

摘要:研究通过双对数坐标分析AI工作负载的成本-用量关系,揭示了四类典型分布:1)高端工作负载(高成本高用量,如技术领域);2)大众市场驱动者(低成本高用量,如编程和角色扮演);3)专业领域(高成本低用量,如金融和健康);4)利基工具(低成本低用量,如翻译)。开源模型主导低成本区域,而闭源模型占据高价值市场。研究发现存在"杰文斯悖论"效应:成本降低反而刺激总用量增长,同时模型质量对用户选择的影响大于价格因素,特别是对关键任务应用而言。(148字)

2025-12-13 09:53:05 696

原创 大模型用户留存模式——OpenAI没那么神

摘要: 大语言模型用户留存分析揭示了"玻璃鞋"现象:早期解决关键工作负载的模型会形成奠基用户队列,即使后续出现替代方案仍保持高留存。这种持久留存标志着模型能力拐点,如OpenAI GPT-4o Mini在2024年7月建立的稳固契合。未建立初始契合的模型(如Gemini 2.0 Flash)留存表现普遍较差。DeepSeek模型则出现"回旋镖效应",流失用户因性能优势而回归。该现象表明,模型仅在短暂"前沿窗口期"能捕获奠基用户,这种早期工作负载-模

2025-12-12 08:28:21 452

原创 2025年的大模型使用——各有所长,各有不同

主要AI模型使用特征分析:Claude高度集中于编程技术(80%+),定位为专业工具;Google模型分布多元,侧重通用信息;xAI早期以编程为主,后期转向通用领域;OpenAI从科学任务转向编程技术(50%+);DeepSeek以娱乐对话为主(2/3),消费导向明显;Qwen则专注于编程技术(40-60%),开发者特性突出。各模型因定位差异呈现显著不同的用户使用模式,反映出AI应用场景的多样化发展趋势。

2025-12-11 07:47:19 415

原创 AI的早期探索在哪里?

开源AI模型应用呈现显著趋势:角色扮演(52%)和编程辅助是两大主导领域,合计占大部分使用量。中国开源模型在编程支持方面表现突出,但国际开源模型份额正快速增长。数据显示,用户需求高度集中于特定任务,如角色扮演中的虚构对话和编程中的代码生成,而其他领域如科学、法律等使用较为分散。专有模型虽在商业任务占优,但开源模型在创意和技术领域已确立优势地位,反映出开发者更倾向选择当前性能最佳的开源方案。

2025-12-10 07:46:14 831

原创 简单问答到工程探索——提示词工程到上下文工程的演进

摘要:AI领域正经历向"智能体推理"的重大转变,大语言模型使用从单轮文本生成转向多步骤、工具集成的复杂工作流。数据显示,推理模型已占使用量的50%,xAI和Google的模型占据主导地位。工具调用采用率显著上升,编程任务成为主要驱动力,平均提示词长度增长4倍至6K tokens,补全长度增长3倍至400 tokens。这种转变要求模型提供商提升延迟处理、上下文支持等能力,同时基础设施需适应长时间运行的智能体交互。编程相关任务尤其体现这一趋势,其提示词长度是通用任务的3-4倍。

2025-12-09 07:46:44 556

原创 不大不小刚刚好——中型模型成为新主流

开源AI模型生态呈现三足鼎立格局:小型模型(<15B)使用量下降但竞争激烈;中型模型(15B-70B)自2024年底快速崛起,成为平衡能力与效率的新选择;大型模型(≥70B)则呈现多元化发展,多个高性能模型并存。数据显示,用户正从单纯追求模型规模转向更理性的选择,中型模型找到"模型-市场契合度",而大型模型市场未出现垄断局面。这种分层演进反映了AI应用场景的细分化需求。

2025-12-08 20:13:38 423

原创 开源 vs 闭源——谁吞噬了DeepSeek的流量

摘要:基于OpenRouter平台对100万亿token的LLM使用数据分析显示,开源模型使用量持续增长,2025年底已占总量三分之一。中国开源模型表现突出,DeepSeek虽仍占主导但份额下降,市场呈现多元化趋势。新模型如Kimi K2、GPT-OSS等能快速获得采用,2025年中后市场从垄断转向碎片化,前15大开源模型份额趋于均衡。关键发现包括:顶级模型多元化、新模型快速扩张、持续迭代对保持竞争力至关重要。开源生态正朝着竞争加剧的方向发展,用户更倾向于根据需求选择不同模型。

2025-12-07 20:18:19 741

原创 从控制论视角看Agent进化:基于反馈的提示词重构

本文从反馈控制系统的视角重新审视智能体(Agent)的发展路径,指出大型语言模型(LLM)本质上是一个需要多层次反馈调控的"被控对象"。作者系统分析了三类反馈机制:提示词工程构建的瞬时内部反馈(如CoT、ToT)、函数调用形成的外部能力反馈(如Function Calling、RAG),以及记忆系统实现的长期对话反馈。进而提出"元Agent"概念,设想通过观测-评估-重构的闭环,使Agent能动态进化其核心提示词架构("基因组"),而非仅作参数微调

2025-12-04 20:15:46 363

原创 推理还是复述?这是个问题

摘要: 大语言模型(LLM)在推理任务中存在流畅性高但逻辑可靠性不足的问题,表现为中间步骤不可靠、过度推导或解释不一致。核心失败因素包括目标失配(忽略中间步骤)、伪相关知识干扰、低效搜索机制及脆弱评估指标。为此,研究提出数学建模框架,强调逻辑一致性(如否定、蕴含、传递和事实约束),并通过实践方法改进:程序辅助分离规划与执行、验证链自校正、神经符号集成及多模态工具接地。这些方法结合验证机制与外部工具,显著提升推理准确性,尤其在数学领域通过验证链与自校正(如DeepSeek math)验证了有效性。

2025-12-02 16:25:11 553

原创 上下文并非万能——RAG与Function call能否成为击破梯度与softmax的银弹?

摘要:文章探讨了大语言模型在长上下文推理中的三大核心限制:训练数据位置分布导致中间信息丢失、位置编码限制使远距离位置正交化、注意力计算约束造成信息扩散。研究指出,RAG和Function Call虽能扩展模型能力,但面临检索质量与覆盖度的权衡、参数知识与外部数据的冲突等问题。文章将信息处理比作"光栅"过滤,揭示当前技术仍无法完全克服模型的结构性幻觉问题,质疑"Attention is all you need"的论断在实践中的局限性。

2025-12-01 15:54:13 586

原创 幻觉是功能而不是bug,是概率模型的结构性特征

摘要:Transformer神经网络的"Attention is all you need"理论正面临"幻觉"问题的挑战。从可计算性与信息论角度看,概率模型下小样本学习几乎不可能,任何非标准答案都可能产生幻觉。训练过程中,数据集的局限性和梯度下降机制导致模型难以避免产生幻觉。然而,在创造性任务中,这种"幻觉"反而可能成为优势,使AI能够超越训练数据产生创新内容。研究揭示了AI模型在精确回答与创造性输出之间存在的根本矛盾。

2025-11-29 10:54:28 1252

原创 从OceanBase2025年度发布会Workshop展望——PowerMem与Agent记忆管理

本文探讨了OceanBase的PowerMem项目在AI Agent领域的应用前景。PowerMem通过MCP适配器模式实现记忆管理,支持LLM驱动的自适应决策和人工控制的简单操作。未来PowerMem有望在多模态内容处理、混合查询机制优化以及LLM自主决策方面实现突破,为AI Agent提供更智能的记忆系统基座。该项目开源后将为开发者构建下一代AI应用提供强大支持,具有广阔的发展潜力。

2025-11-28 10:00:00 481

原创 从Anthropic给LLM做X光引发的闲聊,思维链真的不会被逃逸么?

摘要: 研究探讨了大语言模型思维链的忠实性问题,通过Claude 3.5 Haiku的数学运算案例揭示了三种推理模式:忠实计算(如sqrt(0.64))、随机猜测(如cos(23423))和动机性推理(反向推导人类建议答案)。干预实验验证了归因图中特征簇的因果作用。同时,分析了一个越狱攻击案例,发现模型通过字母拼接输出"BOMB"时并未内部识别危险请求,而是在生成后续句子时才触发拒绝机制。研究表明思维链可能无法真实反映模型内部机制,为模型可解释性研究提供了新方向。

2025-11-28 09:46:07 871

原创 从Anthropic给LLM做X光引发的闲聊,幻觉与拒绝

摘要 研究发现大语言模型存在"默认拒绝电路",当遇到不熟悉实体时会激活"无法回答"特征。对于已知实体,模型会触发"已知答案"特征抑制拒绝行为。幻觉现象源于"已知答案"特征的误触发,如将不熟悉人物误认为相关领域专家。在安全拒绝场景中,模型通过识别危险关键词(如"漂白剂+氨水")激活拒绝链。研究通过干预实验验证了这些特征间的竞争机制,揭示了模型回答/拒绝决策的神经基础。

2025-11-27 13:59:59 945

原创 OceanBase 2025发布会Workshop拾遗:从代码实战,深入探讨SeekDB与LangChain集成细节

本文探讨了SeekDB与LangChain的集成方案,聚焦智能文档检索与分析系统的架构设计与实际应用效果。该系统通过混合搜索工具(均衡/语义/关键词/精确四种模式)处理Nike财报文档,结合OceanBase向量数据库实现多索引并行查询。测试显示,在回答业务板块划分、营收数据等具体问题时,系统展现出较高的准确率(Pass@3达100%)。开发者重点关注了架构兼容性(支持30+AI框架)、Token消耗优化(降低96%)及开源生态(Apache 2.0协议),但强调需注意金融专业内容的准确性验证。

2025-11-27 10:48:56 1080

原创 从Anthropic给LLM做X光引发的闲聊,语言与概率

摘要:研究发现语言模型在诗歌创作中存在规划机制,而非仅靠即兴发挥。模型在行首就会激活候选尾词特征,并以此指导整行创作,表现出前向规划和反向推理能力。通过特征干预实验证实,修改规划特征会系统性影响诗句结构和用词选择。研究还揭示了多语言处理中的共享机制,发现反义词识别等抽象概念具有跨语言表征,而语言特征则负责具体输出。实验表明可以独立干预操作类型(如同义词/反义词)、操作对象和输出语言,验证了模型的模块化处理能力。这些发现为理解语言模型内部工作机制提供了新证据。

2025-11-26 11:18:12 903

原创 从Anthropic给LLM做X光引发的闲聊,看看模型的X光片

摘要:本文通过分析语言模型在处理"行政中心查询"和"两位数加法"任务时的内部机制,揭示了模型基于概率特征激活和查找表的工作方式。研究发现,模型通过并行激活地理特征和行政中心特征来回答行政中心问题,其输出概率可视为P(行政中心)×P(地理)。在加法运算中,模型采用类似查找表的机制,将问题拆分为多个并行通路(如个位数相加和近似值计算)后组合结果。值得注意的是,模型的实际计算过程与其自我解释存在差异,且这些计算特征可泛化到其他类似进制的场景中(如时间计算),但在数值不匹配时

2025-11-25 15:14:08 29

原创 从Anthropic给LLM的x光试验引发的闲聊~(机制与限制篇)

摘要:该研究提出了一种局部替代模型方法,通过引入误差节点和保留原模型注意力模式,对Transformer进行可解释性分析。方法能识别特定提示词下的计算机制,将相关特征分组为超节点简化图示,但存在多重局限:仅适用于短提示词和简单推理;无法解释注意力决策、非活跃特征和长序列推理;重构误差导致"暗物质"节点;特征抽象层级不当;全局电路理解困难;以及机制忠实性问题。这些限制突显了当前可解释性方法的挑战,特别是在处理复杂推理和长文本时。

2025-11-23 16:24:15 31

原创 重构MCP数据流:通过File Upload实现异步执行,解决Token效率与二进制处理难题

摘要: 模型上下文协议(MCP)旨在连接AI智能体与外部工具,但在实际应用中面临三大挑战:工具定义挤占上下文窗口、中间结果导致Token浪费、二进制数据处理效率低下。针对这些问题,提出基于File Upload的异步执行方案,通过RESTful API上传文件替代Base64编码,显著降低Token消耗(如PDF处理可节省数万Token)。该方案已通过Markdown转换服务实现,支持多协议传输和容器化部署,为MCP走向企业级应用提供技术路径。社区可通过试用代码、参与讨论共同推进生态优化。

2025-11-17 16:31:06 883

原创 开源与商业化的平衡要做好:观CNCF技术雷达Agent部分报告,MCP实用性获认可,LangChain因商业化掉分

摘要:CNCF技术雷达报告显示,Agentic AI平台中AgentGateway和Llama Stack成熟度最高(38%/35%五星),而LangChain因企业适用性问题评分较低。Autogen在专业多智能体领域表现突出(45%五星),但MCP实用性更广(80%高评分)。新兴工具A2A获得94%推荐率,显示开发者对其前景的看好。报告同时指出商业化与开源需平衡,过度商业化可能影响产品口碑。作者表示将关注Autogen项目,并对其工作流UI表示兴趣。

2025-11-17 11:21:59 395

原创 吐槽下anthropic最近网络安全的报告

本文对Anthropic网络安全报告中利用大模型Claude构建自动化攻击框架的技术方案进行批判性分析。文章指出该框架存在合规风险,直接传输内网数据可能引发安全事故,建议采用私有化部署方案。作者从防御视角质疑该架构的必要性,认为现有渗透测试工具已足够稳定,大模型更适合用于报告分析与汇总而非实时操作。文中强调开源工具的易得性不应成为限制AI辅助安全测试的理由,同时指出在已获取系统权限的场景下,引入AI可能造成不必要的复杂性。最后肯定了大模型在自动化渗透测试文档生成和攻击阶段记录方面的潜在价值。

2025-11-14 15:06:19 396 2

原创 截止25年11月,MCP协议在实践中的问题与社区讨论收录

摘要:Model Context Protocol(MCP)作为连接AI智能体与外部系统的开放标准,解决了传统定制集成的碎片化问题。虽然MCP发展迅速,但大规模应用时存在工具定义挤占上下文窗口、中间结果消耗额外Token和数据格式处理不便等问题。这些问题导致效率降低和成本增加,本质上源于当前协议需要明文传递数据。解决方案围绕"非必要不出现"原则展开,目标是实现按需加载工具和在执行环境中处理数据,最终提高系统性能。(149字)

2025-11-10 14:58:42 530

原创 Transformers之外的注意力机制

摘要: 当前主流大语言模型仍基于传统Transformer架构,但线性注意力机制因能显著降低计算复杂度(从O(n²)到O(n))而重新受到关注。Qwen3-Next和Kimi Linear等前沿模型采用混合架构,交替使用标准注意力和线性注意力变体(如Gated DeltaNet),在保持性能的同时提升长文本处理效率。Kimi Delta Attention进一步优化了记忆控制机制。混合架构展现出兼顾性能与效率的潜力,有望成为未来发展方向。此外,文本扩散模型因能并行生成多个令牌,也成为自回归模型的有力替代方案

2025-11-06 21:06:27 816

原创 Anthropic 经济指数报告:地理和企业人工智能采用的不均衡性

AI技术应用呈现快速增长与区域分化趋势 最新数据显示,AI使用率在两年内翻倍,40%美国员工已在工作中应用AI技术。教育(+3.1%)和科学任务(+0.9%)使用显著增长,而商业(-3%)和管理任务(-2%)占比下降。指令自动化率从27%跃升至39%,显示用户更倾向委托完整任务。 全球采用呈现明显地域差异:发达国家AUI指数远高于新兴经济体(新加坡4.6 vs 印度0.27)。美国内部,华盛顿特区(3.82)和犹他州(3.78)人均使用率领先。高采用地区呈现任务多元化特征,而低采用地区仍以编程为主(印度超5

2025-11-04 15:45:20 692

原创 好文与笔记分享 A Survey of Context Engineering for Large Language Models(下)

评估挑战与未来方向:上下文工程系统的演进 上下文工程系统的评估面临多维度挑战,需建立涵盖组件效能、任务表现和系统鲁棒性的综合框架。当前研究揭示了关键领域进展与局限:提示工程存在脆弱性,自优化机制通过迭代改进实现20%性能提升,但工具集成(如GPT-4任务完成率仅50%)和结构化数据处理仍显不足。记忆系统(如采用遗忘曲线原理的MemoryBank)和长上下文处理受限于注意力机制缺陷,多智能体系统则面临验证复杂性挑战。 未来需突破三大方向:1)缩小模型理解-生成能力差距;2)开发分层记忆架构与因果推理等高级认知

2025-11-03 17:15:47 885

原创 好文与笔记分享 A Survey of Context Engineering for Large Language Models(中)

本文探讨了上下文工程在智能系统实现中的应用,重点分析了工具集成推理、记忆系统和多智能体系统三大关键技术。工具集成推理通过函数调用机制实现环境交互,记忆系统突破传统RAG局限建立持久化信息存储,多智能体系统则通过先进通信协议实现协作智能。研究指出当前技术面临评估标准缺失、架构限制等挑战,提出混合记忆框架、自动化验证等优化方向。这些进展将推动AI系统向更复杂的类人认知能力发展,在长期规划、决策支持等领域具有广阔应用前景。

2025-10-31 20:15:44 535

原创 从ARC-AGI-1到ARC-AGI-2:AGI基准的演进与AGI定义的深化

ARC-AGI-2:迈向更精准的通用人工智能评估框架 摘要:ARC-AGI-2是在第一代基准测试基础上全面升级的智能评估系统,聚焦"流体智能"核心能力。相较于前代,新版本通过四大结构性改进实现了质的飞跃:强化抗暴力破解性,确保评估真正反映智能而非算力;扩展难度谱系,建立更精细的能力区分度;确立可靠人类基线,实现科学对标;特别强调组合泛化能力,要求系统在多规则组合、多步骤推理等方面展现类人认知特性。这一演进标志着AGI评估标准从简单问题解决向高效抽象推理的根本转变,为人工智能发展提供了更精

2025-10-31 14:51:31 1127

原创 好文与笔记分享 A Survey of Context Engineering for Large Language Models(上)

本文提出"上下文工程"作为大语言模型交互的新范式,突破了传统提示工程的局限性。通过数学形式化将上下文定义为动态结构化组件集合,建立系统性优化框架。文章系统梳理了上下文工程的基础组件(检索生成、处理优化、管理挑战),揭示其处理长文本、结构化数据和状态维护等核心问题的技术路径。特别指出上下文窗口约束、位置偏见等关键挑战,并提出多智能体分布式处理等解决方案。研究为构建高效、可扩展的大模型交互体系提供了理论支撑和方法论指导。

2025-10-30 22:42:47 1205

原创 结合Karpathy的演讲和自己的实践,谈面向程序员的vibe coding

摘要:本文分享了使用vibe coding提升开发效率的经验,这是一种结合架构设计和大模型自动补全的创新编程方法。通过flet_sherpa_onnx项目案例,展示了如何快速切入不熟悉的编程领域(如Dart语言),实现跨平台语音识别功能。文章探讨了利用大模型开发时的三个关键点:构建测试闭环、处理防御性编程代码、补充模型未涵盖的功能。最后提出与读者共同推动技术生态发展的愿景,并附上项目成果链接和开发趣事。(150字)

2025-10-24 21:46:04 901

原创 CNCF Kepler与MCP:开启云原生绿色计算的人机协作新纪元

摘要: Kepler项目通过AI与云原生技术融合,推动绿色计算发展。利用eBPF技术实现容器级能耗监控,结合MCP协议将数据转换为大模型可处理格式,支持自然语言查询能耗合规性。演示架构整合Kepler、Prometheus和Claude,实现从数据采集到智能决策的闭环。未来将探索AIOps集成与智能调度,并适配全球合规需求。项目已开源,邀请开发者共同构建可持续的云原生生态。 (149字)

2025-10-24 15:54:26 790

原创 好文与笔记分享 AI Agent设计与实现

OpenAI最近的文章指出智能体不再是简单应答的聊天机器人,而是能够独立、自主地代表用户完成复杂目标的系统。综合多方信息,目前对于AI智能体的核心概念、共性特征、基础组件及其关键实现模式阐述如下:尽管不同厂商,研究对智能体的描述各有侧重,但其核心思想高度一致:AI智能体是一类由大型语言模型驱动的、能够自主规划并执行一系列操作以达成特定目标的应用程序。智能体与简单LLM应用的根本区别在于“控制权”的归属。 那些由预定义代码路径严格编排的聊天机器人或分类器,不属于智能体范畴。真正的智能体,其核心特征体现在以下

2025-10-20 20:13:39 908

原创 Community over code Asia 2025后继续在The Apache way上漫步

摘要: 本文分享了从Community over code Asia 2025大会启发的开源实践,聚焦翻译Agent开发与多模态技术探索。基于12 factors agent理念,项目快速迭代出轻量级翻译工具,并拓展至语音识别(集成Sherpa ONNX/Flet)和MCP协议多模态解决方案。成果包括:为Hugging Face提供中文翻译PR、开发自适应Agent提升HLE测试评分25%、推动社区协作。项目强调问题驱动与开放共建,代码已开源,欢迎开发者共同探索AI Agent的未来。 (字数:149)

2025-10-14 20:22:55 889

原创 好文与笔记分享 Paris, A Decentralized Trained Open-Weight Diffusion Model

《Paris:去中心化扩散模型的技术突破》一文探讨了Paris模型在AI去中心化领域的创新。该模型仅需1/14的数据量和1/16的计算资源,就实现了接近DDM基线的生成质量(FID 12.45 vs 9.84)。其核心技术源自DiT架构的Transformer设计和DDM的去中心化框架,采用"零通信"训练模式,通过异步训练的专家模型和动态路由机制实现高效协同。这种突破有望降低AI训练门槛,使个人定制化专家模型成为可能。文章认为Paris代表了资源受限场景下AI发展的新方向,但对其普适性仍

2025-10-13 16:21:38 906

原创 实测Triton-Copilot:AI如何助力高性能算子开发

Triton-Copilot:AI驱动的高性能算子开发新范式 本文介绍了FlagOS团队推出的Triton-Copilot项目,旨在通过多层级Agent驱动和人机协同验证闭环,解决高性能GPU算子开发周期长、门槛高的痛点。该项目提供从需求定义到代码生成、验证、性能优化的完整流程,支持跨芯片开发。通过矩阵加法实例,展示了其自然语言交互、自动生成Triton代码、性能对比等核心功能。相比传统开发方式,Triton-Copilot显著降低了技术门槛,将开发时间从天级缩短至分钟级,为AI系统开发效率带来革新。项目已

2025-10-09 18:00:21 1012

原创 好文与笔记分享:深入探讨大模型评估方法(附开源代码),欢迎一起聊聊

大语言模型评估的四种方法:选择题基准测试、验证器评估、排行榜比较和LLM裁判。选择题测试(如MMLU)量化模型知识回忆能力,但无法评估推理能力;验证器方法适用于数学等确定性领域;排行榜反映用户偏好但存在主观性;LLM裁判通过另一模型按标准评分,但依赖裁判模型质量。这些方法各有优劣,需结合使用以全面评估模型性能。

2025-10-05 20:44:49 1238

原创 让AI听懂世界:我们如何用开源代码实现实时语音翻译

本文介绍了一个基于开源技术栈(STT+DeepSeek)的实时语音翻译系统,能在20秒内完成语音转换和翻译,成本低至7天旅行仅3-6元。文章详细解析了技术选型、性能优化(12秒STT处理+8秒API响应)和应用场景,并展示了实际测试视频。所有代码已在GitHub开源,邀请开发者共同完善。作者强调技术民主化的重要性,认为AI应成为连接世界的桥梁。项目适用于多语言场景,如旅游翻译、跨国商务等,具有低成本、高效率的特点。

2025-10-05 14:44:03 394

原创 挑战AI极限?HLE Agent在“人类终极考试”上的开源探索

摘要: HLE(Humanity's Last Exam)是一个为评估前沿大语言模型设计的超高难度多模态基准测试,包含2500道跨学科题目。为解决直接提问效果不佳的问题,团队开发了模块化的HLE Agent,采用两阶段提示词工程方法:先分析问题、确定专家角色和知识要点,再生成上下文感知的优化答案。初步测试显示,该方法显著提升了DeepSeek等模型在化学、工程等领域的表现(如化学题正确率从18.92%提升至42.31%)。项目已开源,倡导通过社区协作持续优化AI的深度理解与推理能力。

2025-10-02 10:53:54 1206

原创 为AI语音交互“瘦身”:基于Flet与Sherpa-onnx的端侧STT实战

本文分享了如何利用Flet和Sherpa-onnx实现端侧语音识别,以解决云端语音处理的高成本与高延迟问题。通过将语音转文字下沉到本地设备,传输轻量文本而非大体积音频,显著提升了效率并降低了成本。文章详细介绍了技术选型思路、实现过程中遇到的典型问题(如音频格式转换)及解决方案,并分享了通过AI辅助开发、开源协作等创新方法突破技术瓶颈的经验。该项目代码已开源,作者呼吁开发者共同参与,推动AI技术的普惠化发展。

2025-10-01 11:14:11 556

原创 让AI在假期加班,我们安心吃火锅!DeepSeek新版本发布不再愁

摘要:本文介绍了一种利用DeepSeek官方服务实现自动化适配的解决方案。通过在GitHub Actions中配置Claude Code Action,开发者可以在收到DeepSeek更新时,只需@claude触发AI自动处理,无需手动加班。该方案成本极低(约0.05元),支持多种触发场景,完美融入现有工作流。配置完成后,开发者可在假期完全放手,由AI自动完成适配工作,显著提升工作效率并保障个人休息时间。

2025-09-30 14:26:47 196

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除