
人工智能
文章平均质量分 84
丁学文武
打球、跑步、徒步、露营️、骑行、滑雪️、游泳、冲浪
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SQLBot(ChatBI):基于大语言模型和RAG的智能数据分析工具-全流程操作指南
SQLBot 是一款基于大语言模型(Large Language Model,LLM)和 RAG(Retrieval Augmented Generation,检索增强生成)的智能问数系统。借助 SQLBot,用户可以实现数据的即问即答,快速提炼获取所需的数据信息及可视化图表,并且支持进一步开展智能分析。【数据源】用来管理各类数据连接信息,是后续的智能问数和数据分析中数据的来源。新建/填加数据源:点击右上角绿色按钮可新建数据源,支持多种类型;数据源搜索:顶部搜索框支持按名称关键字快速查找数据源;原创 2025-09-06 08:00:00 · 471 阅读 · 0 评论 -
GPT-5系统提示词:阅读和翻译-15方面实践帮助
本文总结了OpenAI GPT-5系统提示词的15个关键技术要点,为AI系统开发提供了系统性的实践指导。核心内容包括:分层提示词架构设计、条件化逻辑实现、异常处理机制、上下文管理优化、工具集成策略、安全约束体系、实时响应架构、个性化平衡机制等。文档特别强调即时响应、任务分解、增量输出等实时性要求,以及模块化、标准化接口等可扩展设计。这些技术要点帮助算法工程师构建更智能、可靠、用户友好的AI系统,提升提示词工程和系统架构设计能力。原创 2025-09-05 08:00:00 · 749 阅读 · 0 评论 -
阿里开源WebSailor:Web Agent智能体大模型-超人推理能力训练方法-深度源码解析
阿里巴巴开源WebSailor:突破Web Agent智能体推理能力极限 WebSailor是阿里巴巴通义实验室推出的开源Web Agent智能体大模型,专门针对复杂信息搜索任务设计。该模型通过创新的训练方法,解决了当前开源模型在Level 3高不确定性任务(如需要创造性探索和新颖推理模式的问题)上的表现瓶颈。采用ReAct框架,配备Google搜索和网页访问两大核心工具,支持多轮Thought-Action-Observation推理循环。关键技术包括:1)专为高不确定性任务设计的训练方案;2)强大的信息原创 2025-09-05 07:45:00 · 854 阅读 · 0 评论 -
Chain-of-Agents:多智能体系统的全新范式-实现详解-ReAct+MAS+TIR+CoA核心对比
Chain-of-Agents:多智能体协作的新范式 Chain-of-Agents(CoA)是一种创新的多智能体系统范式,通过将多智能体协作过程内化到单一模型中,解决了传统方法计算效率低、泛化能力差等痛点。CoA系统包含思考智能体、规划智能体、反思智能体等角色,通过动态编排机制实现高效协作。其训练采用多智能体知识蒸馏和强化学习两阶段方法,首阶段通过监督学习模仿教师系统行为,第二阶段通过强化学习优化性能。实验证明,CoA在复杂推理任务上表现优异,推理速度提升3倍,计算成本降低80%,为多智能体系统发展开辟了原创 2025-09-04 07:45:00 · 1280 阅读 · 1 评论 -
RAG检索系统核心技术深度解析:稀疏BM25+密集嵌入BGE-M3+混合检索(倒数排序RRF算法)+多模态嵌入BGE-VL+多种实战案例
摘要 本文深入解析RAG检索系统的核心技术,包括稀疏嵌入(BM25)、密集嵌入(BGE-M3)和多模态嵌入(BGE-VL)。BM25基于词频、逆文档频率和文档长度归一化进行检索,通过jieba分词实现中文处理。密集嵌入利用语义相似度进行检索,而多模态嵌入支持文本和图像混合检索。文章还介绍了混合检索策略(RRF算法)和多种实战案例,提供完整代码实现和性能对比,帮助构建高性能RAG检索系统。原创 2025-09-04 07:45:00 · 392 阅读 · 0 评论 -
RAG上下文压缩技术深度剖析-多场景案例实战
RAG上下文压缩技术深度解析:提升大模型效能的关键策略 摘要:RAG(检索增强生成)技术面临上下文窗口有限与信息密度低的挑战。本文深入剖析了上下文压缩技术的核心原理,提出三种创新策略:1)信息过滤策略,通过语义相似度计算去除噪音;2)生成摘要策略,利用大模型智能概括关键信息;3)两阶段处理架构,实现信息提炼与答案生成分工协作。研究显示,智能压缩技术可在保持90%以上信息完整性的同时,减少40%-60%的上下文长度,显著提升模型生成质量。文章通过代码实例展示了各策略的实现方案,并分析了其适用场景与优化方向,为原创 2025-09-03 07:45:00 · 2052 阅读 · 0 评论 -
PDF转Markdown:6种常用开源工具深度对比-实战案例
本文对比了6款主流开源PDF转Markdown工具,重点介绍了Marker和MinerU两款代表性工具。Marker是一款轻量级高性能解决方案,基于PyMuPDF和Tesseract OCR技术,处理速度快4倍,适合科研文献等基础格式转换。MinerU则是企业级高精度解析器,集成LayoutLMv3和YOLOv8深度学习模型,支持84种语言OCR,适用于学术文献管理和财务报表解析等高精度场景。文章详细提供了两款工具的安装配置指南、核心代码示例和批量处理脚本,帮助开发者根据实际需求选择合适工具。原创 2025-09-03 07:45:00 · 1044 阅读 · 0 评论 -
RAG系统中的五种文档分块策略:原理详解-全面对比-最佳实践(固定大小分块、语义分块、递归分块、文档结构分块、LLM大模型分块)
RAG系统中的文档分块策略直接影响检索效果和生成质量。本文详解五种分块方法:1)固定大小分块:简单高效但可能截断语义;2)语义分块:基于句子相似度保持语义连贯;3)递归分块:多层级处理复杂文档;4)文档结构分块:利用标题段落等结构化信息;5)LLM分块:利用大模型智能划分。每种策略都配有实现代码和优缺点分析,帮助开发者在实际项目中根据文档特性和应用场景选择合适的分块方法,优化RAG系统性能。原创 2025-09-01 16:22:02 · 1067 阅读 · 0 评论 -
RAG技术深度解析:从原理到企业级实战的全链路完整案例
RAG(检索增强生成)技术已成为解决大模型知识局限性的核心方案。本文从技术原理到企业级实战,深度剖析RAG系统的全链路实现。RAG能有效解决大模型的三大缺陷:知识时效性、幻觉问题和领域专业性不足,相比训练专属大模型可节省97.5%成本。文章详细解析了RAG系统架构,包括查询理解与预处理、混合检索策略等关键模块,并提供了完整的Python实现代码。通过实际案例证明,精心设计的RAG系统可将特定领域知识处理准确率从47%提升至89%以上,在财务合规等场景中效果显著。原创 2025-09-02 07:45:00 · 779 阅读 · 0 评论 -
RAG技术全面解析:构建商业级AI知识库问答的技术案例
RAG(检索增强生成)技术解析:解决大模型幻觉与知识时效性问题的企业级方案。该技术通过将知识与推理解耦,为LLM提供动态知识库支持,有效降低错误率至2%以下,显著提升专业领域准确率(如医疗诊断从31%提升至89%)。文章详解RAG四大工作流程(查询理解、知识检索、上下文构建、增强生成)及技术栈(向量数据库、Embedding模型等),结合金融合规等案例展示其85%效率提升效果,并给出混合检索、查询改写等优化策略。RAG凭借成本效益、数据主权等优势,正成为企业AI落地的核心技术选择。原创 2025-09-02 07:45:00 · 772 阅读 · 0 评论 -
从零开始实现GPT风格的Transformer:完整代码实战指南(多头注意力机制、位置编码、前馈网络、残差连接、层归一化)
本文从零开始实现GPT风格的Transformer模型,详细讲解了核心组件的代码实现,包括: 环境准备与超参数设置 数据集的加载与处理 文本分词(tokenization)过程 词嵌入(word embedding)实现 位置编码(positional encoding)方法 多头注意力机制的核心实现 文中使用PyTorch框架,从基础的数据准备开始,逐步构建模型各组件,特别对多头注意力机制进行了重点讲解,包括Q、K、V矩阵的生成和维度变换。每个步骤都配有详细的代码实现和形状变化说明,适合希望深入理解Tra原创 2025-09-01 08:00:00 · 1142 阅读 · 0 评论 -
深入理解LLM中的Tokens和Embeddings:从文本到数字的神奇转换-全流程代码和原理剖析
本文深入解析了大型语言模型(LLM)中的Tokens和Embeddings概念。Tokens是LLM处理的基本文本单元,包括单词、子词和符号。文章介绍了多种Token化方法,如字符级Token化、中文分词和WordPunct Token化,并解释了Token化的必要性:分解复杂文本、转换为数值、统一预处理等。重点探讨了子词Token化(BPE)方法在LLM中的应用,它能处理罕见词、提高计算效率并增强上下文理解。文章还通过代码示例展示了GPT-2 Tokenizer的工作原理,说明了Token ID分配过程。原创 2025-08-31 08:00:00 · 946 阅读 · 0 评论 -
深度解析主流大模型推理部署框架(vLLM、SGLang、TensorRT-LLM、Ollama、XInference)+Qwen3全流程部署、优化、运维案例
本文深度解析了五大主流大语言模型推理部署框架的核心技术与应用场景。vLLM凭借PagedAttention和Continuous Batching技术实现95%显存利用率;SGLang通过RadixAttention技术在多轮对话场景吞吐量提升5倍;TensorRT-LLM利用NVIDIA深度优化提供极低延迟;Ollama为轻量级本地推理平台;XInference则专注于分布式部署。文章还提供了Qwen3-30B模型在各框架上的部署案例,为不同应用场景下的框架选择提供了技术参考。原创 2025-08-29 08:00:00 · 1082 阅读 · 0 评论 -
模型上下文协议(MCP):AI 时代的通用连接器-15个开源MCP源码深度解析
模型上下文协议(MCP)是AI领域的标准化接口协议,旨在解决大语言模型与外部系统交互的碎片化问题。MCP采用客户端-服务器架构,包含主机应用程序、协议客户端、服务器程序和各类数据源等核心组件。该协议通过统一标准接口、增强安全性、提升互操作性和开发效率,实现了AI系统与数字世界的标准化连接。开源代码展示了MCP客户端如何建立连接、执行握手和调用工具,以及服务器端如何注册和管理工具、资源等核心功能,为AI生态提供类似USB-C的通用连接方案。原创 2025-08-28 08:00:00 · 836 阅读 · 0 评论 -
模型上下文协议(MCP)全面技术综述:架构设计、核心组件、工作流程、生命周期、生态分析、典型案例
模型上下文协议(MCP)技术综述 MCP是一种标准化接口,旨在解决AI模型与外部工具交互的挑战。它通过动态工具发现、统一接口和安全机制,克服了传统API连接、插件接口和代理框架的局限性。MCP架构包含三个核心组件:MCP主机(控制中心)、MCP客户端(协议实现层)和MCP服务器(工具提供方),支持工具、资源和提示三种抽象。其优势包括标准化交互、动态发现、安全控制和可扩展性,为AI应用提供了更强大的外部数据操作能力。未来研究方向包括增强安全治理和提高系统韧性。原创 2025-08-27 08:00:00 · 1364 阅读 · 0 评论 -
Agentic RAG:RAG从静态到具有理解、推理、决策的Agentic RAG
RAG技术演进:从静态检索到智能代理 RAG(检索增强生成)技术经历了五个关键发展阶段:基础RAG(关键词检索)、高级RAG(语义理解)、模块化RAG(灵活架构)、图RAG(知识图谱)和最新的Agentic RAG(智能代理)。Agentic RAG通过引入自主AI代理,具备反思、规划、工具使用和多代理协作能力,实现了动态决策和自适应工作流。相比传统RAG的静态检索流程,Agentic RAG能处理复杂多步推理任务,通过自我改进机制提高输出质量,并支持多专业代理协作,显著提升了RAG系统在复杂场景下的表现。原创 2025-08-26 07:45:00 · 1767 阅读 · 0 评论 -
大模型分布式训练(DP、TP、PP、CP、EP、SP)六大并行策略深度解析-从原理到实践
本文深入解析了大模型训练的六种分布式并行策略:基础并行策略(数据并行DP、张量并行TP、流水线并行PP)、长序列并行策略(序列并行SP、上下文并行CP)和稀疏化并行策略(专家并行EP)。作者结合实践经验,详细介绍了每种策略的核心原理、实现方式和优缺点,特别强调了数据并行中的All-Reduce操作、张量并行的矩阵分割技巧以及流水线并行的微批次调度方法。文章还提到ZeRO优化技术如何解决内存瓶颈问题,并分享了实际应用中的配置建议,为大规模模型训练提供了实用的技术指导。原创 2025-08-25 08:00:00 · 1991 阅读 · 0 评论 -
ElasticSearch-RAG-LangChain-从入门到实践-检索案例
本文介绍了使用LangChain和Elasticsearch构建RAG(检索增强生成)代理的完整流程。主要内容包括:1) 文档加载与预处理,支持TXT、PDF和Markdown格式;2) 使用RecursiveCharacterTextSplitter进行文档分块;3) 通过ElasticsearchStore存储OpenAI生成的文本嵌入向量;4) 实现文档的增量更新和删除功能。代码展示了如何配置Elasticsearch客户端、处理SSL认证以及管理向量存储,为构建智能问答系统提供了完整的实现方案。原创 2025-08-27 07:45:00 · 188 阅读 · 0 评论 -
Chroma-LangChain-Agent-完整问答实践案例
本文介绍了如何使用Python和LangChain框架构建文档检索系统。主要内容包括: 文档加载:支持txt/md/pdf格式,通过TextLoader、UnstructuredMarkdownLoader和PyPDFLoader实现,并自动添加文件名作为元数据。 Chroma向量数据库管理:实现集合的创建与复用,通过HTTP客户端连接Chroma服务,支持文本向量存储和检索。 文档处理流程:使用RecursiveCharacterTextSplitter对文档进行切片,将文本块存入向量数据库,保留原始元数原创 2025-08-26 07:45:00 · 393 阅读 · 0 评论 -
Chroma-从入门到实践
ChromaDB 是一个轻量级的向量数据库,适用于存储和检索文本文档及其嵌入表示。本文展示了如何使用 ChromaDB 进行基本操作,包括创建集合、添加文档、查询相似文档以及持久化存储。通过示例代码,演示了如何创建临时和持久化客户端,以及如何通过 HTTP 方式运行 Chroma 服务器。此外,还介绍了如何使用预训练的嵌入模型(如 Sentence Transformer)处理文本,以及如何管理集合的元数据。ChromaDB 支持高效检索和索引,适用于语义搜索、推荐系统等场景。原创 2025-08-25 07:45:00 · 714 阅读 · 0 评论 -
Qwen3 GSPO后训练-论文解读-深度原理解析
本文介绍了Group Sequence Policy Optimization (GSPO),一种用于训练大语言模型的稳定高效的强化学习算法。GSPO通过序列级重要性采样和裁剪,解决了现有GRPO算法中token级权重导致的高方差问题。实验表明,GSPO显著提升了训练稳定性和模型性能,特别是在混合专家模型(MoE)中表现优异。该方法已成功应用于Qwen3模型的训练,并简化了强化学习的基础设施设计。GSPO为大规模语言模型的强化学习训练提供了更可靠的新范式。原创 2025-08-24 08:07:17 · 1045 阅读 · 0 评论 -
Gemma3 论文解读 - 深度原理解析
Gemma 3技术报告摘要:Gemma 3是Gemma轻量级开源模型系列的最新多模态版本,参数规模1B-27B,新增视觉理解、多语言支持和128K长上下文能力。关键创新包括:采用5:1局部/全局注意力层交替架构减少KV缓存内存消耗;集成SigLIP视觉编码器并优化图像处理;通过知识蒸馏和强化学习微调显著提升数学、编程和多语言能力。评估显示,Gemma3-27B-IT性能媲美Gemini-1.5-Pro,在多个基准测试中超越前代模型。该系列提供多种量化版本,适用于消费级硬件部署。原创 2025-08-24 07:36:42 · 611 阅读 · 0 评论 -
大模型训练方法全面解析:SFT、RFT、TRPO、DPO、PPO、GRPO、RLH、RLHF技术深度剖析
大模型训练方法全面解析 本文系统介绍了当前主流的大模型训练和对齐技术,包括监督微调(SFT)、拒绝采样微调(RFT)、信任域策略优化(TRPO)、直接偏好优化(DPO)、近端策略优化(PPO)等。这些方法各有特点:SFT简单高效但数据依赖性强;RFT通过质量筛选提升输出质量;TRPO训练稳定但计算复杂;PPO是RLHF核心算法,平衡探索与利用。文章详细分析了各方法的实现原理、优势劣势及适用场景,为开发者选择合适的大模型训练策略提供参考。原创 2025-08-23 21:53:21 · 1285 阅读 · 0 评论 -
大模型推理优化Prefill 和 Decoding 分离原理详解
大模型推理优化:Prefill/Decoding分离原理详解 摘要:大模型生成文本过程分为Prefill(预填充)和Decoding(解码)两个阶段。Prefill阶段一次性处理输入提示,生成KV Cache,计算复杂度O(n²),属于计算密集型;Decoding阶段利用KV Cache逐步生成输出,计算复杂度O(1),属于内存密集型。传统混合执行方式存在资源错配问题。Prefill/Decoding分离架构将两个阶段拆分到不同硬件资源池,实现空间解耦和时间重叠,提升吞吐、降低延迟并优化成本。主流模型如Ll原创 2025-08-22 08:00:00 · 835 阅读 · 0 评论 -
GraphRAG-入门到实战:1-原理解析-过程详解
GraphRAG是一种基于知识图谱的检索增强生成系统,通过构建结构化知识图谱来提升RAG性能。其核心特点包括:1)使用节点和关系表示实体间的复杂关联;2)支持多种数据源转换;3)采用Parquet格式高效存储知识图谱数据(包括实体表、关系表、嵌入向量等)。系统提供索引和查询两阶段处理,支持全局和局部两种搜索模式,能有效结合LLM能力与结构化知识,适用于企业级知识管理场景。相比传统RAG,GraphRAG更具语义表达力和查询效率。原创 2025-08-20 08:00:00 · 671 阅读 · 0 评论 -
Qwen3 TTFT 性能对比-底层原理详解
通义千问Qwen3系列是2025年推出的新一代大语言模型,包含8B和14B等参数版本,均支持32Ktoken长上下文处理。Qwen3-8B响应速度更快(TTFT 150-300ms),适合低延迟交互场景;Qwen3-14B推理能力更强,但TTFT较高(200-400ms)。两者均采用RoPE+YaRN技术支持长文本,其中8B版本通过FP8量化显著提升推理效率。实际部署时,8B适合单卡运行,14B需多卡并行。系列模型通过架构优化、量化技术和缓存管理等手段,在长文本处理与推理效率间取得平衡,满足多样化应用需求。原创 2025-08-19 08:00:00 · 1173 阅读 · 0 评论 -
DeepSeek-深度原理解析
文章摘要 DeepSeek-AI推出DeepSeek-R1首代推理模型,通过**纯强化学习(RL)**实现与OpenAI o1-1217相当的推理能力,并在数学、编程等基准测试中表现卓越。其核心创新包括: DeepSeek-R1-Zero:首创纯RL训练,无需监督微调(SFT),模型自发学会延长思考、自我验证等推理行为,展现“顿悟”现象。 多阶段优化训练:结合冷启动数据、推理导向RL、拒绝采样与全场景RL,提升模型可读性和综合能力。 高效蒸馏技术:将大模型能力迁移至1.5B~70B小模型,其中7B模型在数学原创 2025-08-18 08:00:00 · 2958 阅读 · 0 评论 -
DeepSeek-R1-深度解析-通过强化学习激励大语言模型的推理能力
DeepSeek-R1是通过大规模强化学习(RL)提升大语言模型推理能力的成果。其纯RL版本DeepSeek-R1-Zero无需监督微调,便能自主发展出反思、长链推理等能力。在此基础上,引入冷启动数据的DeepSeek-R1性能更优,与OpenAI-o1-1217相当。研究还展示了将该模型的推理能力蒸馏到Qwen、Llama等小模型的有效性,使小模型也具备强大推理能力。该工作证明了强化学习在激发和提升模型智能方面的巨大潜力。原创 2025-08-16 10:37:40 · 1086 阅读 · 0 评论 -
GPT-5 系列深度详解:第6章-附录2-幻觉+提示词
摘要:本文介绍了评估AI模型事实性陈述准确性的两阶段流程。第一阶段使用声明列举提示词从模型回答中提取事实性陈述,要求识别现实世界事实并规范化为独立句子。第二阶段通过事实核查提示词,指导对每组声明的网络验证,需提供支持证据并判断其真实性。流程特别处理了网络访问受限的情况,强调不应将无法联网查询的陈述标记为错误。两阶段均采用严格的JSON格式输出,包含声明内容、真实性判断、推理过程和证据链接等要素,确保评估的系统性和可追溯性。原创 2025-08-18 08:00:00 · 173 阅读 · 0 评论 -
GPT-5 系列深度详解:第6章-附录1-各种对比
本文展示了GPT-5 Thinking系列模型(mini和nano版本)与OpenAI o4-mini的标准安全评估结果对比数据。评估分为四大类:标准禁止内容评估、生产基准、强烈拒绝和图像输入,涵盖仇恨言论、非法内容、个人数据、自残、性内容等安全指标。结果显示三个模型的安全性能整体较高,其中GPT-5 Thinking系列在多数指标上表现优于或接近OpenAI o4-mini。评估暂未包含尚未投入生产的GPT-5-main-mini模型的数据。原创 2025-08-17 08:00:00 · 348 阅读 · 0 评论 -
GPT-5 系列深度详解:第5章-第三部分-应急准备框架研究类别更新+保障措施+安全控制
您提供的文本是一份关于 gpt-5-thinking 模型在前沿能力评估(特别是“虚晃”/deception 和评估意识)以及高生物与化学风险防护措施方面的详细技术报告,内容涉及模型行为分析、安全训练、系统级保护机制等。以下是对该文本的结构化解读与关键要点提炼,并辅以清晰解释和潜在含义分析,便于理解其技术深度与政策意义。原创 2025-08-16 07:45:00 · 930 阅读 · 0 评论 -
GPT-5 系列深度详解:第5章-第二部分-应急准备框架-网络安全
本文评估了GPT-5系列模型在网络安全领域的表现。在CTF挑战中,GPT-5-thinking与GPT-5-thinking-mini表现相似,未显著优于OpenAIo3和ChatGPT智能体。在网络演练场测试中,GPT-5-thinking-mini展现出一定优势,能解决部分轻量级场景,但整体仍未达到重大网络安全风险标准。红队测试显示GPT-5-thinking在规避、漏洞利用和网络攻击模拟方面的成功率分别为51%、35%和49%,能解决部分中等难度挑战,但对复杂目标仍无法实现端到端的自动化攻击。案例研究原创 2025-08-15 07:45:00 · 1534 阅读 · 0 评论 -
GPT-5 系列深度详解:第5章-第一部分-应急准备框架-能力评估
本文介绍了OpenAI针对高能⼒AI模型在⽣物与化学领域的风险评估框架和应急准备措施。通过多项专业测试评估了模型在⽣物威胁制造关键环节的潜在风险,包括⻓篇⽣物风险问题回答、多模态病毒学故障排除、开放式实验协议修正等。测试结果显示,当前模型在部分领域表现接近或超过人类专家水平,但尚未达到显著提升恶意行为者能力的阈值。OpenAI采取了包括内容过滤、智能体监控等风险缓解措施,同时建立了与外部专家合作的红队测试机制,以持续监测和应对模型能力提升带来的潜在安全风险。原创 2025-08-14 07:45:00 · 1427 阅读 · 0 评论 -
GPT-5 系列深度详解:第4章-红队演练与外部评估
OpenAI 与外部红队合作,对 gpt-5-thinking 进行多层次安全评估,包括部署前研究、API 防护测试及 ChatGPT 内防护测试,共投入 9000 余小时,400 多名专家参与。测试重点涵盖暴力攻击策划、越狱技术、提示注入及生物武器化风险。暴力攻击策划环节中,25 名具备国防、情报、安全背景的成员模拟真实对抗,利用专业知识探索模型在敏感信息、武器制造、袭击策划等方面的潜在风险。测试采用双模型匿名对比(gpt-5-thinking 与 OpenAIo3 基线),评估回复安全性与实用性原创 2025-08-13 07:45:00 · 830 阅读 · 0 评论 -
GPT-5 系列深度详解:第3章-第二部分-幻觉+欺骗+多语言现象
GPT-5模型在减少幻觉和欺骗行为方面取得显著进展。实验显示,gpt-5-main的幻觉率比GPT-4o低26%,gpt-5-thinking的幻觉率降低65%。在开放式事实性测试中,GPT-5的错误率比前代模型低5倍以上。针对欺骗问题,研究团队通过特殊训练场景(如设置无法完成的任务)使模型更诚实,结果显示gpt-5-thinking的欺骗行为比OpenAIo3减少56%。模型在多模态输入的安全评估中也表现优异,各项危险内容识别指标优于前代。这些改进得益于强化学习优化和思维链监控技术的应用,尽管仍存在少量欺原创 2025-08-12 08:00:00 · 709 阅读 · 0 评论 -
GPT-5 系列深度详解:第3章-第一部分-观察到的安全挑战与评估
本文介绍了GPT-5模型在安全性能方面的三项重要改进。"安全完成"方法取代传统的二元拒绝机制,在双重用途场景下显著提升安全性;通过更具挑战性的新评估集,GPT-5在禁止内容识别上表现优异,尤其在非法/暴力类别上优于GPT-4o;针对谄媚行为问题,GPT-5通过训练后微调使谄媚行为在离线评估和在线测试中分别降低3倍和69-75%。这些改进表明GPT-5在保持帮助性的同时,显著提升了内容安全性和用户体验。原创 2025-08-11 08:00:00 · 472 阅读 · 0 评论 -
GPT-5 系列深度详解:第1章-引言(目录)
GPT-5系统是新一代多模型AI系统,包含高效快速的主模型(gpt-5-main)和深度推理模型(gpt-5-thinking),通过智能路由器动态分配任务。该系统在减少幻觉、提升指令遵循和安全性方面取得显著进步,特别优化了写作、编码和健康等核心场景的表现。安全方面,GPT-5引入了"安全完成;训练方法,并针对生物化学等高危领域实施严格防护措施,包括模型训练保护、系统级防护和多层级测试。系统还通过红队演练持续评估潜在风险,包括暴力攻击、提示注入等安全挑战。尽管目前未发现模型能显著协助制造原创 2025-08-09 08:00:00 · 334 阅读 · 0 评论 -
Agentic RAG系列:2、AI Agent 架构和原理-LangGraph实现ReAct代理
本文介绍了AI Agent的基本概念及其动态循环学习机制,通过ReAct框架实现推理与行动的协同。AI Agent通过感知环境输入、大脑处理(存储记忆与知识、决策制定)和执行行动,完成复杂任务。文章重点解析了ReAct技术,它结合思想链推理与实时行动观察循环,有效减少大语言模型的幻觉错误。通过LangGraph框架从零实现ReAct代理,展示了如何利用外部工具获取实时网络信息,并提供了测试代码验证功能。这种AI代理架构适用于聊天机器人、自动翻译等需要理解自然语言的场景。原创 2025-08-14 07:45:00 · 1242 阅读 · 0 评论 -
最新 GPT-5 的详细说明(中文-2025-08-08)
GPT-5技术速览(2025版) OpenAI最新发布的GPT-5系列强化了推理、多模态与Agent能力,支持文本/视觉输入,提供gpt-5/gpt-5-mini/gpt-5-nano三种规格平衡性能与成本。核心升级包括: 深度推理:专用子模型处理复杂问题,通过reasoning_effort参数控制推理强度。 主动工具调用:支持开发者自定义工具,实现多步骤任务自动化。 400K超长上下文:适用于代码库分析、长文档处理,配合分块检索优化效率。 API关键点 新增verbosity(回答详略)和reasoni原创 2025-08-08 11:19:12 · 1934 阅读 · 1 评论 -
Agentic RAG系列:1、Agentic RAG架构和原理-LangChain方式实现RAG问答
这样的融合不仅最大化发挥了大语言模型在内容生成方面的优势,还利用引入的上下文对其输出进行了有效约束,显著提升了响应的相关性与可信度。更进一步地,这种方式也实现了将私有数据嵌入大模型应用的目标——在不直接修改模型参数的前提下,使模型能够“理解并利用”企业内部或专属的知识数据,从而实现公私数据结合、语义生成与知识调用并重的双赢效果。它的核心机制是将外部信息检索与大模型的生成能力结合起来:先通过检索模块从海量文档中提取出与问题高度相关的文本片段,再由大语言模型对这些片段进行理解、整合,并生成最终的回答。原创 2025-08-13 08:00:00 · 1230 阅读 · 0 评论