自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(349)
  • 收藏
  • 关注

原创 【读代码】Agent内存管理:Memori内存引擎框架

Memori (https://github.com/GibsonAI/Memori)是一个创新的开源SQL原生内存引擎,专为AI代理和多智能体系统设计。通过独特的双模式内存架构(Conscious Ingest 与 Auto Ingest)和智能上下文注入机制,Memori 实现了90%的成本节省(相比向量数据库)。

2025-11-20 00:00:39 739

原创 能够落地的Agent应该长成什么样子【完整代码见资源下载】

以DeepResearch为例,如何才能构建一个强大、稳定且可扩展的商用应用,如何使用LangGraph库来编排一个循环、有状态的工作流。并且,这些难点要怎么解决呢模糊指令下如何通过多轮追问明确需求长短记忆如何分别管理子任务失败如何回溯LLM API 限流和报错如何处理如何防护恶意指令的攻击工具调用如何监控和优化效率。

2025-11-18 14:22:41 561

原创 【读代码】最新端侧TTS模型NeuTTS-Air

NeuTTS Air (https://github.com/neuphonic/neutts-air)是一个面向“实时、可部署到设备”的 TTS 解决方案,其核心是:使用一个小型 LLM(0.5B backbone,如 Qwen 0.5B / Qwen2.5 0.5B)负责将文本与语音特征(以 token 化的 codec codes)进行序列生成,再通过高效的神经音频 codec(NeuCodec)将离散 code 解码为波形。

2025-11-16 23:06:56 377

原创 【读代码】LightRAG轻量级知识图谱增强检索系统的架构与实现

在大型语言模型(LLM)时代,如何让AI系统获取准确、可追溯的知识成为重要课题。传统的检索增强生成(RAG)系统多采用简单的向量相似度搜索,存在上下文片段化、知识关联缺失等问题。针对这些难题,今天一起看下开源项目LightRAG(https://github.com/HKUDS/LightRAG),它将知识图谱与向量检索进行深度融合,实现了"轻量级但高效"的RAG方案。双层次检索架构:结合本地(local)和全局(global)两级知识检索自适应存储层。

2025-11-16 21:28:07 245

原创 Kimi K2 Thinking:兼顾Agent和推理的六边形战士

Moonshot AI(月之暗面)近期发布技惊四座的Kimi K2 Thinking模型,并非传统意义上的大语言模型(LLM)的简单升级,而是一次深刻的范式转换——从“生成答案”的语言模型,演进为“解决问题”的思维代理(Thinking Agent)。本文依据官方发布内容,深入剖析Kimi K2 Thinking的设计哲学、核心能力、工程实现逻辑,并探讨其在长程规划、适应性工具调用等方面的创新价值,揭示其如何通过架构与工程的协同,实现复杂任务处理能力的飞跃。

2025-11-14 22:08:11 266

原创 Phoenix-VAD:流式语义VAD

在人机语音交互领域,以GPT-4为代表的大型语言模型(LLM)极大地提升了对话系统的智能水平,使其能够进行更自然、更富有上下文的交流。然而,一个长期存在的瓶颈——交互的流畅性——依然阻碍着我们迈向真正无缝的人机对话。目前大多数语音助手仍采用半双工(half-duplex)的“对讲机”模式,用户和系统无法同时说话,导致了延迟和僵硬的交互体验。实现全双工(full-duplex)交互,即系统能够边听边说边思考,是下一代语音交互的必然趋势。这其中的核心技术难题之一,便是:系统如何实时判断用户是否已经“说完了”

2025-11-14 11:12:19 752

原创 【读论文】基于LLM增强的全双工对话

当前的语音助手,尽管功能日益强大,但其交互模式大多仍停留在“对讲机”式的半双工(half-duplex)阶段:用户说,系统听;系统说,用户等。这种模式割裂了对话的连续性,导致了延迟和不自然的体验。为了打破这一瓶颈,实现真正意义上的全双工(full-duplex)——即系统能够同时“听、说、想”——是下一代口语对话系统(Spoken Dialogue Systems, SDS)的关键。

2025-11-13 22:13:51 169

原创 PaddleOCR-VL对标DeepSeek-OCR?

PaddleOCR-VL的价值:其最大的价值在于提供了一个高度实用和可靠的解决方案。双阶段架构虽然看起来比端到端模型“步骤更多”,但在工程上却更加稳健。它允许对布局分析和内容识别两个环节分别进行优化和迭代,降低了调试和维护的复杂度。对于需要处理大量格式复杂、语言多样的文档的生产环境而言,PaddleOCR-VL的稳定性和高效率使其成为一个极具吸引力的选择。DeepSeek-OCR的价值:DeepSeek-OCR的价值在于其前瞻性的算法探索。

2025-10-30 16:56:37 195

原创 RAG文档切片新方案HiChunk:LLM重构RAG文档分块

HiChunk巧妙地将复杂的“文档结构化”任务,转换成了一个LLM擅长的文本生成任务。输入: 一篇被预先分割成句子的文档,每句带有一个行号。1: 这是第一句。2: 这是第二句,属于第一段。3: 这是新的一段的开始。...输出: 一个描述了所有“分割点”及其层级的列表。每个元组代表一个新chunk的开始。: 数字越小,层级越高(如1代表章,2代表节)。: 该行是否可以作为这个chunk的标题。

2025-10-27 22:01:30 640

原创 【DeepSeek新开源】DeepSeek-OCR如何用“视觉压缩”革新长文本处理

DeepSeek-OCR的方案揭示了视觉模态作为文本信息高效压缩媒介的巨大潜力。视觉压缩可行且高效: 证明了可以用远少于文本token数量的视觉token来表示长文本,压缩率可达10倍以上。分工合作的编码器设计是关键: DeepEncoder通过串联SAM(感知)和CLIP(知识),并用压缩器连接,实现了高分辨率下的高效、深度编码。Token效率是未来VLM的核心竞争力: 在模型性能趋于饱和的今天,谁能用更少的token完成同样的任务,谁就掌握了成本和效率的优势。光学上下文处理开辟了新大陆。

2025-10-21 22:41:56 1101

原创 微软新模型UserLM:如何为AI助手打造一个“真实世界”模拟器

传统助手LM的训练模型学习在给定用户输入和历史对话的情况下,生成助手的下一句话。UserLM的训练“翻转”了条件和目标!模型学习在给定助手回复、历史对话和用户意图(intent)的情况下,生成用户的下一句话。微软研究院的这篇论文,其价值远不止于发布了一个新模型。它从根本上挑战了当前LLM评估领域一个被广泛采用但存在严重缺陷的方法,并提供了一个严谨、创新且有效的解决方案。“提示助手扮演用户”的不可靠性,并从模型内在分布的角度阐明了其原因。开创性地提出了UserLM这一新物种。

2025-10-12 22:23:18 301

原创 开源TTS项目 Neutts-Air:架构、训练、推理与应用全景

Neutts-Air是由 Neuphonic 团队开源的端到端语音合成系统,主打高质量、低延迟、易扩展。项目定位于学术与工业应用,支持多种语音合成任务,包括单说话人、多说话人、情感语音等。其核心优势在于模块化设计、灵活的数据处理、强大的模型结构和高效的推理能力。高质量音频输出:媲美商业 TTS 系统。低延迟推理:适合实时应用。模块化设计:易于扩展和定制。多说话人/情感支持:丰富表达能力。高效训练与部署:支持分布式、混合精度、云端/本地部署。

2025-10-12 21:55:58 1211

原创 RAG创新方案支REFRAG

检索增强生成(RAG)已成为提升大型语言模型(LLM)回答问题时效性和准确性的关键技术。。将成千上万个token组成的上下文送入LLM进行预填充(prefill),不仅计算量巨大,导致**首token生成时间(Time-To-First-Token, TTFT)**急剧增加,还会挤占宝贵的KV Cache内存,降低系统的整体吞吐量。最近来自Meta 提出了,一个专为RAG应用量身定制的、旨在的创新框架。它并非对LLM架构进行大刀阔斧的改造,而是通过一种巧妙的**“上下文压缩”

2025-10-08 22:54:43 247

原创 企业级RAG检索增强系统的设计与优化

传统的关键词搜索无法深刻理解用户意图的语义,检索增强生成(Retrieval-Augmented Generation, RAG)作为一种新兴范式,通过结合大规模语言模型(LLM)的理解生成能力与外部知识库的精准事实,成为了下一代智能搜索服务的关键。然而,将RAG应用于企业级的检索增强场景,意味着需要处理海量、异构的数据源,并应对用户开放、模糊的查询,所以如何设计一个高效的RAG系统就是实践的关键。

2025-10-08 16:07:40 292

原创 【工业实战】从架构到优化:企业级RAG客服对话系统的构建之道

检索增强生成(Retrieval-Augmented Generation, RAG)已成为构建智能客服对话系统的核心技术。然而,将RAG从概念验证推向企业级应用,会遇到搜索范围不精、回答内容冗余、顶层结果准确率不高等一系列严峻挑战。本文旨在从工程设计与算法优化的双重视角,系统性地剖析构建一个高性能、高可用的RAG客服对话服务的完整方案。

2025-10-02 20:49:05 101

原创 【Qwen-Image技术报告】兼顾图像生成和文字渲染

在文生图(Text-to-Image)的“百模大战”中,生成照片般逼真的图像、模仿各种艺术风格似乎已成为标配。然而,当用户提出更具挑战性的要求——比如“在图片中生成一段多行、语义连贯的中文对联”,或者“将图中人物的姿势从坐着改成站着,并保持其衣物和背景不变”——许多顶尖模型便会暴露出它们的短板。和,正是当前图像生成模型面临的两大核心挑战。开源狂魔阿里最近又更新了,通过,旨在打造一个既擅长通用图像生成,又能在文本渲染和图像编辑方面达到SOTA(State-of-the-Art)水平的基础模型。

2025-10-02 19:09:23 378

原创 阿里pdf解析方案Logics-Parsing如何用RL攻克复杂文档解析

论文引用了一项重要研究[4]SFT memorizes and RL generalizes (SFT负责记忆,RL负责泛化)。SFT阶段: 就像一个学生在大量做题,通过模仿标准答案(next-token prediction),记忆下各种内容(文本、公式、表格)的正确HTML格式和基本解析模式。这个阶段的目标是让模型的输出在格式上稳定,建立一个坚实的基础。RL阶段: 像一个学生在进行更高阶的专题训练。在已经掌握了基本格式后,通过一个“教练”(奖励函数)的直接反馈,学习更复杂的、难以通过简单模仿学会的。

2025-10-02 15:57:22 488

原创 解读DeepSeek新模型DeepSeek*-V3.2-Exp

闪电索引器像一个“海选评委”,快速地对所有候选者(历史token)进行粗略打分;Top-k选择器则根据这个分数,选出少数优胜者进入“决赛”——即真正昂贵的主注意力计算。

2025-09-29 23:05:45 263

原创 【读代码】Qwen3-VL多模态大模型的架构、训练与应用

Qwen3-VL 是由阿里云开源的多模态大语言模型,支持文本、图像、文档、表格等多种输入,具备强大的视觉理解与生成能力。Qwen3-VL 继承了 Qwen3 系列的高效 Transformer 架构,并针对多模态任务进行了深度优化。。Qwen3-VL 支持多种推理模式,适用于问答、内容生成、视觉定位、表格理解等场景,在各大榜单上取得亮眼的成绩。

2025-09-25 23:17:21 1153

原创 阿里新开源Qwen3-Omni技术解析

在多模态大模型(MLLM)的演进历程中,一个长期存在的“魔咒”是。我们常常看到,一个模型在增强了视觉理解能力后,其纯文本推理能力可能会有所下降;或者,一个强大的音文模型,在图像处理上却表现平平。如何构建一个真正的“全能选手”——一个在模态(文本、图像、音频、视频)上都能达到与其同尺寸的性能,同时还能展现出强大的的统一模型?这正是AI领域追求的“圣杯”之一。最近阿里巴巴通义千问团队推出的就是一次对的成功实践。它通过在预训练早期精心设计的,完全可以打造出一个的全能多模态模型。Qwen3-Omni,从其核心的。

2025-09-25 23:02:36 432

原创 端侧多模态大模型MiniCPM-V 4.5技术报告解析

OpenBMB的模型技术报告新鲜出炉,为我们展示了一条兼顾——,以及——系统性地解决了MLLM在架构、数据和训练方法上的效率难题。另外一个思考是,MiniCPM-V 4.5这个8B参数的“小”模型,是如何在性能上超越GPT-4o-latest和Qwen2.5-VL 72B等巨头的。

2025-09-24 23:13:51 945

原创 【读代码】多模态语音大模型VoxCPM原理、训练与工程实践

VoxCPM是由 OpenBMB 团队推出的开源多模态语音大模型,聚焦于语音理解、语音生成、语音问答、语音指令跟随等多种任务。VoxCPM 采用主流的编码-融合-解码架构,结合大规模语音-文本数据预训练和多任务微调,具备强大的多语言、多模态泛化能力,适合学术研究、工业应用、AI Agent、语音助手等场景。支持语音转文本(ASR)、语音问答、语音指令跟随、语音内容生成等多任务多模态输入(语音+文本),多语言适配基于Transformer/LLM架构,具备强泛化能力。

2025-09-21 22:41:13 1334

原创 新一代基于MLLM的数字人技术:Kling-Avatar

数字人技术正以前所未有的速度模糊着虚拟与现实的边界。从虚拟主播到AI数字员工,我们对数字人的期望已不再是简单的“对口型”,而是希望它们能像真人一样,理解复杂的指令,展现丰富的,做出自然的,并保持长久的。然而,现有的音频驱动(audio-driven)视频生成技术,往往陷入一个“只见树木,不见森林”的困境:它们擅长追踪音频的低级声学特征来实现精准的口型同步,却难以理解多模态指令背后的。在此背景下,最近快手可灵团队推出的,为我们展示了一条通往数字人生成的革命性路径。

2025-09-21 22:15:30 279

原创 【读论文】面向工业的ASR语音大模型

以及与。这股浪潮催生了如Whisper、Seed-ASR等一系列强大的模型,它们在公开基准测试上屡创佳绩。然而,一个严峻的现实是:在标准测试集上取得高分,不等于能在真实工业应用中稳定发挥。背景噪声、口音、中英文夹杂(Code-switching)、领域特定术语(热词)等挑战,常常让那些在基准上表现优异的模型“原形毕露”。阿里巴巴通义实验室最近推出的,据传不仅是一个追逐SOTA(State-of-the-Art)的LLM-based ASR模型,更是一个**“从生产中来,到生产中去”

2025-09-20 23:56:26 156

原创 【Agent博客分享】从多Agent问题到新的上下文工程方法

在构建大型语言模型(LLM)智能体的浪潮中,一个极具诱惑力的架构设计————正变得越来越流行。像AutoGen和这样的框架,都在积极推广一种理念:将一个复杂的任务分解,交给多个专门的、并行的“子智能体”去处理,最后再将结果汇总。这种模仿人类团队协作的模式,在理论上似乎能带来更高的效率和模块化。然而,来自。

2025-09-18 23:06:10 107

原创 字节M3-Agent:如何实现一个支持多模态长期记忆与推理的Agent

来自ByteDance Seed实验室的这篇开创性论文,提出了一个新颖的、配备了的。M3-Agent旨在模仿人类认知系统,能够处理实时视频和音频流,构建并更新一个来完成复杂任务。本文将作为一份深度技术剖析指南,带您庖丁解牛M3-Agent,从其独特的**“记忆化(Memorization)”“控制(Control)情景记忆(Episodic Memory)语义记忆(Semantic Memory)多轮迭代推理**策略,全方位揭示这个能够“看见、听见、记住、推理”的先进智能体是如何工作的。

2025-09-14 23:16:59 183

原创 【技术博客分享】LLM推理过程中的不确定问题

博客原文: https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/

2025-09-13 23:08:47 640

原创 WenetSpeech-Yue数据集及其诞生之路

粤语的语言特性——复杂的九声六调、文白异读、与英语的频繁语码转换(Code-switching)——都对AI模型的建模能力提出了极高的要求。分为十大类:故事(45.7%), 娱乐(13.8%), 戏剧(13.0%), 文化, Vlog, 评论, 教育, 播客, 新闻等。这是一个集成了六大核心模块的、端到端的数据处理与标注流水线,旨在从“野外”的原始音频中“炼”出高质量的结构化数据。WenetSpeech-Yue的诞生,正是为了解决这一根本性的“资源之渴”。的数据处理流水线,构建了一个。

2025-09-10 22:43:49 748

原创 从群体偏好到解构对齐:大模型强化学习从GRPO到DAPO的“认知”进化

DPO的出现,通过一个巧妙的数学变换,将复杂的在线RL过程简化为一个等效的、离线的、类似SFT的微调任务,极大地提升了LLM对齐的稳定性和易用性。但DPO的核心是基于**成对偏好(pairwise preference)**的,即“在回答A和B中,人类更喜欢A”。虽然DAPO对数据和实现提出了更高的要求,但它所揭示的“可控、可解释、可权衡”的对齐思想,无疑可以带来更好的安全性和可靠性。从GRPO到DAPO的演进,标志着LLM的强化学习对齐,正在从一个“黑盒”的、基于整体感觉的**“偏好拟合”

2025-09-04 23:11:52 992

原创 【读论文】美团开源MOE大模型LongCat-Flash

同时,MoE的专家池中包含了N个标准的FFN专家和一个包含Z个零计算专家的池子。MoE(混合专家)架构通过在每个Transformer层中设置多个“专家”(通常是FFN块),并让每个token只被路由到少数几个专家进行计算,实现了在保持巨大总参数量的同时,大幅降低单个token前向传播的计算成本。在预训练和后训练之间,增加一个“中期训练”阶段,使用高质量的相关数据,进一步强化模型的推理和编码能力,为后续的智能体训练打下坚实基础。训练一个560B的MoE模型,对稳定性的要求极高。

2025-09-02 22:30:10 141

原创 Deep Think with Confidence:llm如何进行高效率COT推理优化

DeepConf以其简洁的思路和卓越的效果,为我们揭示了测试时(test-time)推理优化的巨大潜力。局部信号优于全局: 在评估推理质量时,局部的、最低的置信度远比全局平均值更具指示性。在线剪枝是降本关键: 实时监控置信度并提前终止无效路径,是实现高效并行思考的核心。无需额外训练: DeepConf是一个即插即用的、与模型无关的测试时方法,具有极强的通用性。

2025-08-31 21:14:43 226

原创 【RAG Agent实战】告别“单线程”RAG:用查询理解与LangGraph构建能处理复杂意图的高级代理

我们需要一个更丰富的状态来承载QU模块的输出和后续的并行处理结果。"""高级RAG Agent的状态定义"""query: str # 用户的原始问题chat_history: List[str] # 聊天历史# QU模块的输出# RAG流程的数据# 使用字典来存储每个子查询的文档,键是子查询,值是文档列表# 最终结果LangGraph最强大的地方在于条件边(Conditional Edges),它允许我们根据状态动态地决定下一步走向。

2025-08-29 23:03:23 119

原创 MiniCPM-V 4.5 vs MiniCPM-V 2.6 深度对比分析

今天我们一起看下新出的多模态大模型*MiniCPM-V 4.5**,MiniCPM-V 定位于高效端侧多模态大模型(MLLM),支持图像、视频、文本等多模态输入,具备强大的视觉-语言理解与推理能力。4.5 版本为最新旗舰,2.6 版本为前一代主力。:8B 参数,基于 Qwen3-8B + SigLIP2-400M,主打高密度视频理解、可控快/深思考、强大 OCR 与文档解析、端侧高效推理。

2025-08-28 23:43:10 343

原创 Ovis2.5技术解密:原生分辨率与“反思模式”如何铸就新一代MLLM王者

视觉分词器(VT,由NaViT实现)将图像块转换为“视觉词汇”的概率分布,然后通过视觉嵌入表(VET)加权求和,得到与文本嵌入结构对齐的视觉嵌入,最终送入Qwen3 LLM进行多模态理解。Ovis系列的基础架构本身就颇具创新性,它旨在解决传统MLLM中视觉特征(连续)与文本特征(离散)的“结构性错位(structural mismatch)”问题。Ovis2.5不仅仅是一个性能强大的开源模型,它更像是一个精心设计的“艺术品”,巧妙地融合了先进的视觉架构、深度推理范式和系统化的训练策略。

2025-08-28 23:31:22 110

原创 微软研究院最新tts模型VIBEVOICE解析

通过这种解耦设计,LLM在接收输入时,可以同时获得关于“说什么”(语义特征)和“怎么说”(声学特征)的清晰信息,而不需要在一个混合的表示中艰难地解耦它们。VIBEVOICE以其“大道至简”的架构设计和卓越的性能表现,不仅为长篇多人对话合成设立了新的SOTA,更为我们探索更通用、更强大的多模态生成模型,展示了一个清晰而令人兴奋的方案。这个“LLM预测状态 -> 扩散头生成Token”的流程,在每个时间步上循环,从而以流式(streaming)的方式,逐个token地生成代表整段对话的声学特征序列。

2025-08-27 23:14:02 165

原创 书生大模型InternLM2:从2.6T数据到200K上下文的开源模型王者

InternLM2雄辩地证明了,通过精心的系统设计、海量的高质量数据工程以及创新的对齐策略,开源模型完全有能力追赶甚至在某些方面超越顶尖的闭源模型。在预训练的最后阶段(约24B tokens),团队引入了一个精心策划的、包含高质量指令或专业数据的增强数据集,旨在“拔高”模型在。对齐的目标是让预训练好的基础模型(Base Model)能够理解并遵循人类的指令,同时符合人类的价值观(如有用、诚实、无害)。(COOL RLHF的条件奖励模型架构,通过不同的系统提示,让单个奖励模型能够输出针对不同偏好维度的分数。

2025-08-26 22:59:39 873

原创 Mistral AI音频大模型Voxtral解读

(Voxtral的整体架构:语音输入被Whisper编码器分块处理,输出的音频嵌入序列经过Adapter层下采样,与文本嵌入一起送入Mistral语言解码器,最终自回归地生成文本答案。传统的语音处理系统(如OpenAI的Whisper)在ASR任务上取得了巨大成功,能将语音高精度地转换为文本。的音频对话模型,能够直接接收语音或文本输入,并生成文本回答,其32K的上下文窗口使其能处理长达40分钟的音频文件。Voxtral的训练过程被精心设计为三个阶段,逐步地、有层次地为模型注入不同的能力。

2025-08-25 22:06:07 135

原创 【读论文】“小”尺寸,“大”模型:深度解密NVIDIA Nemotron Nano 2

Nemotron-Nano-12B-v2-Base(9B版本的前身)在高达**20万亿(trillion)**个token上进行了预训练。在三阶段预训练之后,模型进入了一个专门的**长上下文持续预训练(CPT)**阶段,以使其具备128k的上下文处理能力。为了兼得二者,他们采用了**模型融合(Checkpoint Interpolation)**技术。在SFT之后,模型进入了更精细的、基于偏好和奖励的**强化学习(RL)**阶段。知识蒸馏(Knowledge Distillation)**相结合的策略。

2025-08-24 15:49:33 92

原创 【读论文】Qwen-Image技术报告解读

Qwen-Image在多个基准测试上强大的跨领域表现,核心亮点是卓越的文本渲染能力、高度一致的图像编辑性能,这两个点也正是眼下市面上文生图大模型主要的困境。Qwen-Image的训练不仅限于文生图(T2I),而是无缝地在一个共享的潜在空间中整合了**T2I, I2I(图生图), TI2I(文本+图 -> 图)**三种任务。(Qwen-Image的整体架构图。这种设计使得模型在编辑时,既能理解高级的编辑指令(来自语义特征),又能保留非编辑区域的精确视觉细节(来自重建特征),从而达到二者的完美平衡。

2025-08-23 21:54:00 423

原创 【读代码】SQLBot:开源自然语言转SQL智能助手原理与实践

SQLBot是 DataEase 团队开源的自然语言转 SQL 智能助手,致力于让非技术用户也能通过自然语言与数据库对话,自动生成 SQL 查询,实现自助数据分析、智能BI问答、报表生成等场景。SQLBot 结合了大语言模型(LLM)、数据库元数据解析、SQL解析与执行等多项技术,具备强大的多数据库适配能力和灵活的扩展性。降低数据分析门槛,让业务人员无需掌握SQL即可获取数据洞察支持多种数据库类型,适应企业多样化数据环境提供可扩展的API和插件机制,便于集成到各类BI、数据平台和业务系统。

2025-08-23 16:03:47 433

如何构建一个具备多轮追问、子任务失败回溯、恶意指令防护及API限流处理能力的DeepResearch Agent?

如何构建一个具备多轮追问、子任务失败回溯、恶意指令防护及API限流处理能力的DeepResearch Agent?

2025-11-18

客服中心+RAG对话+大模型agent

客服对话RAG的完整实践方案

2025-10-02

专栏附带练习题与参考答案-零基础上手Python数据分析

专栏见https://blog.youkuaiyun.com/kakazhui/category_12913949.html,帮助数据分析初学者迅速入门并上手

2025-05-12

谷歌大模型prompt编写指南

内容概要:本文详细介绍了提示工程的核心概念和技术,旨在帮助读者理解和掌握如何编写高质量的提示以引导大型语言模型(LLM)生成准确、有用的输出。文章首先解释了提示工程的基础知识,包括LLM的工作原理、输出配置(如温度、top-K、top-P)以及如何选择合适的模型配置。接着,文章深入探讨了多种提示技巧,如零样本提示、少量样本提示、系统提示、情境提示、角色提示、后退提示、思路链(CoT)、自洽性提示和思路之树(ToT)。此外,还介绍了如何通过ReAct方法结合推理和行动来解决复杂任务。最后,文章讨论了自动提示工程的应用,并分享了提示工程的最佳实践,如记录提示尝试、使用变量、控制输出格式等。 适合人群:对大型语言模型有一定了解并希望深入学习如何编写高效提示的开发者、研究人员和工程师。 使用场景及目标:①帮助用户理解提示工程的基础知识和核心技术;②指导用户根据具体应用场景选择合适的提示技巧;③提高用户编写高质量提示的能力,从而优化LLM的输出质量。 其他说明:本文提供了大量的实例和代码片段,便于读者实践和理解。同时,文章强调了提示工程的迭代性质,鼓励读者不断尝试和优化提示,以适应不同的任务需求和模型版本。此外,文中还提及了多个参考资料和工具,如Google Cloud的Vertex AI Studio,以支持读者进一步探索和应用提示工程技术。

2025-05-07

基于python从0到1实现一个plan-execute方案的Agent(快速学习原理和实现)

基于python从0到1实现一个plan-execute方案的Agent(快速学习原理和实现)

2025-04-25

基于python从0到1实现reAct Agent

基于python从0到1实现reAct Agent

2025-04-25

算法面试2025中国移动算法面试编程题目及参考答案:1)服务器集群通信统计,2)整数1出现次数计算

内容概要:本文档提供了两道编程题目及其要求。第一题是关于服务器集群通信问题,第二题是计算从1到n的所有整数中数字1出现的总次数。

2025-04-16

pyhton脚本如何轻松实现html转换pdf,轻松生成分析报告

pyhton脚本如何轻松实现html转换pdf,轻松生成分析报告

2025-04-13

如何基于大模型(DeepSeek)实现一个多智能体的对话系统的,python脚本

如何基于大模型(DeepSeek)实现一个多智能体的对话系统的,python脚本

2025-02-24

python脚本:利用openai接口模拟相声对话,AI郭老师和于老师已上线(DeepSeek接口也通用)

AI郭: 哎呀,说起看电影啊,我可太有发言权了!前两天我去电影院,那叫一个热闹!你知道我买票的时候发生啥事儿了吗?那售票员问我:“先生,您要买什么票?”我说:“我要看《流浪地球》。”结果您猜怎么着?那售票员一脸懵,说:“先生,我们这儿只有《流浪月球》。”我一听,乐了,说:“哟,这地球都流浪到月球去了?” AI于: 啊?还有这事儿?《流浪月球》?那地球去哪儿了? AI郭: 可不是嘛!我琢磨着,这地球是不是嫌月球太孤单,干脆陪它一起流浪去了?结果您猜怎么着?那售票员一脸严肃地说:“先生,您误会了,这是《流浪月球》,讲的是月球离家出走的故事。”我一听,差点儿笑喷了,说:“哎哟,这月球也学会叛逆了?地球它妈知道吗?” AI于: 哎呦喂!这月球还学会离家出走了?那地球不得急死啊! AI郭: 可不是嘛!我寻思着,这地球要是知道了,不得满宇宙找孩子去?结果您猜怎么着?那售票员还一本正经地跟我解释:“先生,您别担心,月球离家出走是因为地球太唠叨了,整天念叨‘你咋还不转呢?’‘你咋还不亮呢?’月球受不了了,干脆一走了之。”我一听,乐得直拍大腿,说:“哎哟,这地球还是个碎嘴子呢!”

2025-02-20

RAG优化:向量模型(以BGE模型为例)蒸馏,量化,到处onnx模型

RAG优化:向量模型(以BGE模型为例)蒸馏,量化,到处onnx模型

2025-02-18

python语言入门项目案例(包含代码),学生成绩统计,帮助小白入门

python语言入门项目案例(包含代码),学生成绩统计,帮助小白入门

2025-02-17

本资源是学生成绩统计案例,涵盖了C语言入门阶段的核心知识点 通过代码实现、详细分析和教学扩展,可以帮助初学者逐步掌握C语言编程的基础

本资源是学生成绩统计案例,涵盖了C语言入门阶段的核心知识点 通过代码实现、详细分析和教学扩展,可以帮助初学者逐步掌握C语言编程的基础

2025-02-17

DeepSeek模型本地部署指南:Windows与macOS环境下DeepSeek R1模型的快速安装与使用

内容概要:本文档详细介绍了DeepSeek模型在不同操作系统下的本地安装与配置方法

2025-02-11

包含DeepSeekR1的论文以及清华版的入门进阶文档

适合各种技术小白,快速学会并使用 手下DeepSeek文档,你可以快速学会使用技巧 阅读DeepSeek R1的论文,你可以迅速理解为啥R1能大火特火,看看他们的核心技术

2025-02-11

python脚本利用deepseek一键创作抖音文案(结合实时更新的百度热搜)

pyhton脚本一键制作抖音文案,逻辑为抓取百度热搜--->大模型过滤出娱乐健康类热搜--->生成抖音短视频文案,适合想利用抖音和deepseek起号轻松打工的各位家人

2025-02-10

印尼语文本预料,维基百科,文本30k

印尼语文本预料,维基百科,文本30k

2024-10-23

微软平台的openai接口使用指南

微软平台的openai接口使用指南

2024-10-19

如何成为一个语音识别算法工程师

如何成为一个语音识别算法工程师

2024-10-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除