- 博客(107)
- 收藏
- 关注
原创 解码 Llama 3 SFT:Templates、Special Tokens 及其在微调中的作用
对话模板 (Chat Templates)和特殊标记 (Special Tokens)。它们是指导模型如何理解和生成结构化对话的关键“语法规则”。没有正确理解和使用它们,你的微调效果可能会大打折扣,甚至模型会“胡言乱语”。本文将以 Llama 3 为例,深入探讨 Template 和 Special Token 的定义、它们在 SFT 训练过程中的具体应用,以及这样设计背后的目的。
2025-04-02 18:46:53
170
原创 LLM 分词器Tokenizer 如何从 0 到 1 训练出来
大型语言模型(LLM)处理的是人类的自然语言,但计算机本质上只能理解数字。Tokenizer(分词器)就是架在自然语言和计算机数字表示之间的一座至关重要的桥梁。它负责将我们输入的文本字符串分解成模型能够理解的最小单元——Token,并将这些 Token 转换成对应的数字 ID,反之亦然(将 ID 转换回文本)。那么, LLM Tokenizer如何训练、评估呢?
2025-04-02 18:40:22
123
原创 【实战】如何基于 Python Flask 快速开发一个支持 OpenAI 流式接口的 LLM Server
本文介绍一步步使用轻量级的 Python Web 框架,快速开发一个后端服务,它不仅能调用你的 LLM,还能模拟 OpenAI 的流式接口,让你的前端应用或客户端可以无缝对接。
2025-04-01 18:49:11
198
原创 【实战】LLaMA-Factory 如何做 LLM 的多轮对话微调
LLaMA-Factory 作为一个广受欢迎、易于使用的 LLM 微调框架,为开发者提供了便捷的途径来针对特定任务(包括多轮对话)优化模型。本文将深入探讨 LLaMA-Factory 如何支持多轮对话微调,涵盖其基本概念、数据准备、核心机制、评估方法等。简单来说,多轮对话是指包含两个或更多轮次(Turn)的交互过程,其中每一轮通常包含用户的一个输入和模型的一个输出。后续轮次的回应通常依赖于前面轮次的对话内容。模型需要理解并记忆对话历史。
2025-04-01 18:38:36
191
原创 RAG 优化:高效解析并接入图文、表格密集型文档
检索增强生成 (Retrieval-Augmented Generation, RAG) 已成为构建智能问答、文档摘要、内容创作等应用的利器。然而,标准的 RAG 流程往往假设输入是纯文本。当我们面对现实世界中更常见的文档——那些充斥着大量图片、图表和表格的报告、手册、论文或网页时,传统的 RAG 方法就会显得力不从心。这些非文本元素往往蕴含着关键信息,忽略它们将导致 RAG 系统理解片面、回答不准确。你想问一个产品手册中某个零件的安装步骤,而关键信息在一张流程图里。
2025-03-31 21:18:46
205
原创 VITA 模型解读,实时交互式多模态大模型的 pioneering 之作
今天回顾一下多模态模型VITA,当时的背景是OpenAI 的 GPT-4o 惊艳亮相,然而,当我们将目光投向开源社区时,却发现能与之匹敌的模型寥寥无几。模态支持不全:大多聚焦于文本和图像,对音频、视频的支持有限。交互体验割裂:难以实现真正的实时、低延迟、可打断的自然语音交互。端到端能力不足:往往依赖于多个独立模型的级联(如 ASR-LLM-TTS),存在错误累积和优化困难的问题。在这样的背景下,应运而生。由腾讯优图实验室等机构联合推出的 VITA,被誉为。
2025-03-30 23:32:02
113
原创 零基础上手Python数据分析 (10):DataFrame 数据索引与选取
回顾一下,上篇博客我们学习了 Pandas DataFrame 的数据读取与写入,掌握了数据导入导出的基本技能。现在,我们已经能够将数据加载到 DataFrame 中了。接下来,我们需要学习如何灵活高效地访问和操作 DataFrame 中的数据,才能真正发挥 Pandas 的强大威力。DataFrame 数据操作的核心:索引与选取DataFrame 是一个二维表格数据结构,要对 DataFrame 中的数据进行分析和处理,首先需要能够精准地定位到想要操作的数据。
2025-03-30 22:10:01
86
原创 基于 DeepSeek API,为你写一个专属的旅游攻略 Agent
本文将带你一步步深入,探讨如何利用强大的 DeepSeek API,设计并实现一个专属的 AI 旅游攻略 Agent。
2025-03-28 22:35:29
142
原创 GenBI 中如何引入 LLM 做意图路由,区分查数据还是闲聊
用户的输入并非总是明确的数据查询请求。在 GenBI 系统中引入基于 LLM 的意图路由,实现方法灵活多样,从简单高效的 Zero-Shot/Few-Shot Prompting 到可能性能更优但开发周期更长的 Fine-tuning。在实践中,Few-Shot Prompting 结合精心设计的 Prompt 和对模糊性的处理策略,通常能取得良好的效果。近年来,大型语言模型(LLM)凭借其强大的自然语言理解能力,为实现高效、准确的意图路由提供了新的可能性。
2025-03-28 22:19:35
118
原创 Qwen2-Audio Qwen2.5-VL Qwen2.5_Omni傻傻分不清
Whisper 类音频编码器 + LLM。Qwen2.5-VL:ViT 类视觉编码器 + Qwen2.5 LLM。流式音频/视觉编码器Talker (双轨 AR Transformer)流式语音 Codec 解码器 (DiT + BigVGAN)TMRoPE (音视频时序对齐)Thinker-Talker (文本语音并发生成)特性Qwen2.5-VL核心目标音频理解视觉理解统一多模态理解与生成 (文本+语音)主要输入音频, 文本图像, 视频, 文本。
2025-03-27 18:00:21
197
原创 【Qwen开源新鲜出炉】Qwen2.5-Omni:极致多模态交互
*多模态大模型(MLLM)**应运而生。它们试图打破模态之间的壁垒,让 AI 不仅能“读懂”文字,还能“看见”图像、“听见”声音、“理解”视频。近年来,我们见证了 MLLM 的飞速发展,从理解图文到处理视频,再到实现语音对话,其能力边界不断拓展。然而,构建一个真正统一、智能、且能实时交互多模态信息的融合:如何有效地融合来自不同模态(文本、图像、音频、视频)的信息,实现跨模态的理解和推理?时序同步:如何处理视频中音频和视觉信号的时间同步问题?并发生成。
2025-03-27 12:01:31
456
原创 【RAG升级】RAG+联网搜索行不行?
将联网搜索整合进 RAG 并非简单地将两者叠加,需要深思熟虑的策略来确保效率、准确性和相关性。因此,需要一个“决策者”来判断何时触发联网搜索。将联网搜索整合到 RAG 系统中,是克服传统 RAG 静态知识限制、拥抱实时动态世界的关键一步。通过结合联网搜索,RAG 系统可以从“封闭世界的专家”转变为“连接世界的博学顾问”。现在我们可能同时拥有来自内部知识库和联网搜索的结果。最后,将融合排序后的信息有效地提供给 LLM 进行答案生成。触发联网搜索并生成查询后,下一步是实际执行搜索并处理结果。
2025-03-26 18:14:57
265
原创 LLM 的 Function Calling 是怎么练成的
Function Calling 指的是 LLM 在处理用户请求时,能够理解请求中隐含的调用外部工具或函数的需求,生成符合预定义格式的函数调用参数,并在获取外部工具执行结果后,结合该结果生成最终回复的能力。核心流程分解:用户用自然语言提出包含特定任务或信息需求的请求。“给张三发邮件,告诉他会议改到明天下午 3 点了。LLM 分析用户请求,识别出需要调用外部函数来完成任务,并从一系列预定义的可用函数中选择最合适的那个。LLM 识别出需要调用send_email函数。
2025-03-26 18:13:59
165
原创 零基础上手Python数据分析 (9):DataFrame 数据读取与写入 - 让数据自由穿梭
回顾一下,上篇博客我们学习了 Pandas 的核心数据结构 Series 和 DataFrame。DataFrame 作为 Pandas 的 “王牌” 数据结构,是进行数据分析的基石。但 DataFrame 的强大功能,还需要建立在和的基础上。数据从哪里来?分析结果又如何保存?就是解决这些问题的关键环节。在实际数据分析工作中,数据通常存储在各种我们需要将这些,才能利用 Pandas 强大的数据分析功能进行后续处理和分析。同样,数据分析的结果也需要,以便生成报告、共享数据或进行持久化存储。
2025-03-25 20:23:42
60
原创 基于 SGLang 部署 Qwen2.5 7B 模型
LLM 推理通常需要较长的计算时间,导致响应延迟高。由于计算资源有限,LLM 服务难以同时处理大量请求。编写高效的 LLM 服务程序通常需要深入了解底层系统和并行计算。**RadixAttention:**一种新的注意力机制, 通过将key和value张量组织成树状结构(基数树)来实现更有效的内存访问. 从而减少内存占用和计算时间。传统批处理需要等待一批请求都完成后才能开始处理,SGLang 的连续批处理允许新的请求随时加入正在处理的批次中,从而减少等待时间,提高吞吐量。
2025-03-25 20:20:03
201
原创 如何理解LLM推理时的参数Temperature和Top_k
在深入理解和top_k之前,我们需要先简单了解一下LLM生成文本的基本过程。LLM本质上是一个概率模型。给定一个输入文本序列(prompt),LLM会计算下一个词的概率分布。例如,给定输入 “The cat sat on the”,模型可能会预测下一个词是 “mat” 的概率为 0.6,“sofa” 的概率为 0.2,“chair” 的概率为 0.1,等等。然后,模型会根据这个概率分布进行采样,选择一个词作为输出。这个采样过程就是和top_k发挥作用的地方。
2025-03-24 18:36:02
647
原创 零基础上手Python数据分析 (8):Pandas 核心数据结构 Series 和 DataFrame
我们已经完成了 Python 编程基础的入门,掌握了 Python 语法、数据类型、数据结构、文件操作和异常处理等核心知识。从今天开始,我们将正式踏入,学习库!是 Python 数据分析领域的库,没有之一!它提供了高性能、易于使用的数据结构和数据分析工具,使得 Python 成为数据分析的强大武器。Pandas 的地位,就如同 Excel 在电子表格软件中的地位,但 Pandas 的功能远比 Excel 强大和灵活。Pandas 最核心的数据结构就是和。
2025-03-23 16:21:52
143
原创 深入浅出理解LLM PPO:基于verl框架的实现解析之一
DeepSeek R1的经验说明RL可极大增强模型推理能力,我们如何借助verl框架入门RL中的PPO算法呢?
2025-03-21 23:17:23
235
原创 零基础上手Python数据分析 (6):Python 异常处理,告别程序崩溃的烦恼!
异常 (Exception)是指在程序运行期间发生的非正常情况或意外事件,例如文件找不到、网络连接失败、数据类型错误、除数为零等。当 Python 解释器遇到异常时,会中断当前的程序执行流程,并抛出一个异常对象,表示发生了某种错误。不进行异常处理的后果:程序崩溃如果不进行异常处理,当程序抛出异常时,程序会立即终止运行,并打印错误堆栈信息 (Traceback)到控制台。错误堆栈信息会详细显示错误类型、错误发生的行数、函数调用链等信息,帮助开发者定位错误原因。但对于用户来说,看到错误堆栈信息往往是不友好的。
2025-03-19 22:41:35
262
原创 Qwen2-Audio:通义千问音频大模型技术解读
Qwen2-Audio 的这些改进,使得它在多项任务上都取得了 SOTA(State-of-the-Art)的性能,尤其是在音频相关的指令跟随任务上,表现尤为出色。它不仅能够准确地将一种语言的语音翻译成另一种语言的文本,还能在多语种混合的场景下,保持较高的翻译质量。通过这三个步骤的训练,Qwen2-Audio 不仅掌握了丰富的音频和语言知识,还具备了强大的指令跟随能力和生成高质量文本的能力。Qwen2-Audio 的成功,并非源于复杂的模型架构或繁琐的训练流程,而是源于对问题的深刻理解和对技术的巧妙运用。
2025-03-18 23:51:58
676
原创 Logic-RL:小参数qwen模型复现DeepSeek R1 zero
最近很多参照DeepSeek模型训练推理模型的工作,本文将深入 “Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning” 的论文,该论文提出了一种新颖的规则驱动强化学习(Rule-Based Reinforcement Learning, Logic-RL)框架,旨在提升 LLM 的逻辑推理能力。
2025-03-18 18:24:35
178
原创 NL2SQL 优化之 Schema 编写标准
在自然语言转 SQL(NL2SQL,或 Text-to-SQL)任务中,数据库 Schema 的质量和表示方式对模型的性能有着至关重要的影响。本文将深入探讨 NL2SQL 任务中 Schema 的编写标准,详细介绍如何为 NL2SQL 模型提供高质量的 Schema 信息,并通过对比实验展示好 Schema 和坏 Schema 对模型性能的影响。将 Schema 表示为图结构,其中节点表示表或列,边表示表之间的关系或表与列之间的关系。使用 JSON 格式来表示 Schema 信息,结构清晰,易于解析。
2025-03-17 22:00:00
262
原创 零基础上手Python数据分析 (5):Python文件操作 - 轻松读写,数据导入导出不再是难题
回顾一下,前几篇博客我们学习了 Python 的基本语法、数据类型和常用数据结构。现在,我们已经具备了 Python 编程的基础能力,可以开始学习如何与外部世界进行数据交互了。而文件操作,就是数据交互的重要桥梁。在数据分析工作中,数据通常不会直接在程序中生成,而是存储在各种文件中,例如 CSV 文件、文本文件、Excel 文件、数据库文件等。我们需要从文件中读取数据,才能进行后续的分析和处理。同样,分析的结果也需要保存到文件中,以便生成报告、共享数据或进行持久化存储。
2025-03-15 23:05:37
564
原创 零基础上手Python数据分析 (4):Python数据结构精讲 - 列表、元组、字典、集合
回顾一下,在之前的博客中,我们学习了 Python 的基本数据类型(数值、字符串、布尔值)和核心语法(运算符、变量、流程控制、函数、模块)。现在,我们已经掌握了 Python 编程的基础知识。接下来,我们将进入数据分析的关键环节:数据组织。在数据分析中,数据往往不是孤立存在的,而是以结构化的方式组织起来的。例如,一份销售数据报表,包含多个字段(日期、商品名称、销售额、地区等),这些字段之间相互关联,共同描述了销售情况。高效地组织和管理这些数据,对于后续的数据分析至关重要。
2025-03-15 22:57:07
83
原创 零基础上手Python数据分析 (3):Python核心语法快速入门 (下) - 程序流程控制、函数与模块
还记得上周我们学习的 Python 基本数据类型、运算符和变量吗?掌握了这些基础知识,我们已经能够进行一些简单的数据操作了。但是,在实际的数据分析工作中,仅仅掌握基本语法是远远不够的。我们需要让程序能够根据条件做出判断重复执行某些操作组织和复用代码,才能处理更复杂的数据分析任务。再看一个典型的数据分析工作场景:场景:客户分群分析你需要根据客户的消费数据(消费金额、消费频次、最后一次消费时间等)将客户划分为不同的群体,例如“高价值客户”、“潜力客户”、“流失风险客户”等,以便制定针对性的营销策略。
2025-03-15 22:35:33
85
原创 零基础上手Python数据分析 (2):Python核心语法快速入门
场景:每周销售数据报表整理你需要每周从多个Excel文件中汇总销售数据,计算各项指标(销售额、订单量、客单价等),并生成周报。Excel操作痛点:文件太多,手动打开复制粘贴,效率低下,容易出错。多个Excel文件,每个都要打开、筛选、复制数据,重复劳动,耗时费力。公式复杂,容易出错,维护困难。为了计算各种指标,Excel公式写得又长又复杂,一旦数据格式变动,公式就容易出错,排查和维护非常麻烦。数据量稍大,Excel卡顿,操作缓慢。
2025-03-15 22:30:37
248
原创 GraphRAG 融合 RAG:双剑合璧,精度更上一层楼
检索增强生成 (Retrieval-Augmented Generation, RAG) 已成为构建知识密集型 NLP 应用的标准范式。RAG 通过结合大型语言模型 (LLM) 的生成能力和外部知识库的检索能力,显著提升了生成结果的质量。然而,在某些场景下,仅依靠传统的 RAG 或 GraphRAG 可能无法达到最佳效果。本文将探讨一种融合 GraphRAG 和普通 RAG 的策略,通过优势互补,进一步提升 RAG 系统的精度。
2025-03-13 22:14:45
246
原创 GraphRAG:知识图谱+RAG
GraphRAG 是一种将知识图谱与 RAG 相结合的技术。它利用知识图谱中的实体和关系来增强检索过程,并为 LLM 提供更丰富的上下文信息,从而提高生成答案的质量。与传统 RAG 的对比:传统 RAG知识库:扁平的文档集合(例如文本文件、网页)。检索:基于关键词或语义相似度进行文档检索。缺点:忽略了知识之间的结构化关系,难以处理需要推理的复杂查询。GraphRAG知识库:知识图谱(包含实体、关系、属性)。检索:基于知识图谱的结构和语义信息进行实体和关系检索。优点。
2025-03-12 21:50:15
124
原创 【实践】Manus如何从0到1复现
Manus在Level 1、Level 2、Level 3三个难度级别上均取得了SOTA结果,特别是在复杂任务(Level 3)上的表现优于其他AI助手。在GAIA基准测试中,Manus的复杂任务完成率高达78%,平均调用5.3个专业工具,综合表现超越OpenAI同类产品。用户请求 → 规划代理拆解 → 文件读取 → 数据提取 → 薪资验证 → 报告生成 → 结果验证 → 最终输出。“请分析resumes.zip中的3份简历,按技术匹配度排序并生成包含薪资建议的PDF报告”
2025-03-12 17:00:37
196
原创 Ultravox:融合whisper+llama实现audio2text交互
Ultravox是由Fixie AI开发的一种创新型多模态大语言模型,专为实时语音交互设计。与传统的语音交互系统不同,Ultravox无需单独的语音识别(ASR)阶段,可以直接理解文本和人类语音,实现更快速、更自然的交互体验。Ultravox v0.5在语音理解基准测试中超越了OpenAI的GPT-4o Realtime和Google的Gemini 1.5 Flash。本文将对Ultravox的模型架构、训练方法、推理性能等方面进行全面分析,以帮助读者深入了解这一前沿技术。
2025-03-10 22:58:47
153
原创 零基础上手Python数据分析 (1):Windows环境配置与开发工具,开启数据科学之旅!
在数据科学领域,Python 已经成为事实上的标准语言,这并非偶然。总而言之,Python 凭借其易用性、强大的功能和活跃的社区,成为了数据分析的最佳选择之一。选择 Python,你将站在巨人的肩膀上,更高效地进行数据分析工作。
2025-03-09 22:16:07
117
原创 高效数据分析实战指南:Python零基础入门
大家好,我是kakaZhui,从事数据、人工智能算法多年,精通Python数据分析、挖掘以及各种深度学习算法。一直以来,我都发现身边有很多在传统行业从事数据相关工作的朋友,都不同程度受到数据处理效率、数据分析技能不够用的问题的困扰,所以很早之前我就希望出一个实战课程希望对这些朋友的工作效率提升有所裨益。各行业从业者,无论其专业背景,均日益面临数据处理、分析与解读的需求。传统工具如Excel,在面对海量、复杂数据时,效率瓶颈日益凸显。掌握高效的数据分析工具和方法,已成为提升个人及组织竞争力的关键要素。
2025-03-09 22:03:16
628
原创 【AI教师】老师如何使用DeepSeek大模型提升工作效率和教学效果
大型语言模型(LLM)的兴起,如DeepSeek,为各行各业带来了前所未有的机遇,尤其是教育行业,以教师为例,借助DeepSeek可以显著提升工作效率、优化教学设计、并最终提升学生的学习效果。然而,如何有效地将这些强大的AI工具融入日常教学工作,仍然是个未知数(调研了下身边的教师朋友,都摊手表示不懂不会)。
2025-03-07 22:06:59
262
原创 【NL2SQL(text2sql) 到底准不准】智能BI中生成sql模块的评测数据构造 + 评测办法
自然语言转 SQL (NL2SQL, 或 Text-to-SQL) 技术旨在将用户的自然语言问题自动转换为可在数据库上执行的 SQL 查询语句。本文将深入探讨 NL2SQL 评测数据的构造方法 (包括收集、预处理) 以及常用的评测指标和计算方法,并提供丰富的代码示例,帮助读者全面了解 NL2SQL 模型的评估过程。生成的 SQL 查询的逻辑形式与标准答案完全一致的比例(不考虑具体的表名、列名等,只关注查询的结构和语义)。生成的 SQL 查询在数据库上执行后,得到的结果与标准答案完全一致的比例。
2025-03-06 18:27:21
317
原创 【实战项目】Python 手撕一个基于最新端到端大模型的语音聊天系统
近年来,随着深度学习技术的飞速发展,语音交互技术取得了显著的进步。从智能音箱到虚拟助手,语音交互已经渗透到我们生活的方方面面。错误累积:每个模块的错误都会传递到下一个模块,导致最终结果的偏差。高延迟:多个模块串行处理,增加了系统的响应时间。难以优化:各个模块独立训练,难以进行端到端的联合优化。为了解决这些问题,**端到端(End-to-End)**语音交互系统应运而生。端到端模型将语音输入直接映射到语音输出,省去了中间的文本转换环节,从而简化了系统架构,降低了延迟,提高了性能。
2025-03-05 16:11:42
112
原创 【RAG实战优化】增加BGE-Reranker 如何提升检索精度
BGE-Reranker (BAAI General Embedding - Reranker) 提升RAG系统精度
2025-03-03 20:28:35
424
原创 【GenBI 动手实战】大模型 微调LoRA SFT 实现 Text2SQL 更好的效果
Text-to-SQL(文本转 SQL)作为 GenBI(生成式商业智能)的核心技术,旨在将自然语言查询自动转换为可执行的 SQL 语句,从而降低数据分析门槛,赋能非技术用户。尽管预训练大语言模型(LLM)在 Text-to-SQL 任务上已展现出强大能力,但为了在特定领域或数据集上取得更优效果,往往需要进行微调(Fine-tuning)。LoRA 的核心思想是:在预训练模型的权重矩阵上添加低秩分解矩阵,只训练这些低秩矩阵,而冻结预训练模型的权重。假设预训练模型的权重矩阵为。在推理时,只需计算 (
2025-03-02 09:15:07
365
python脚本:利用openai接口模拟相声对话,AI郭老师和于老师已上线(DeepSeek接口也通用)
2025-02-20
本资源是学生成绩统计案例,涵盖了C语言入门阶段的核心知识点 通过代码实现、详细分析和教学扩展,可以帮助初学者逐步掌握C语言编程的基础
2025-02-17
DeepSeek模型本地部署指南:Windows与macOS环境下DeepSeek R1模型的快速安装与使用
2025-02-11
包含DeepSeekR1的论文以及清华版的入门进阶文档
2025-02-11
python脚本利用deepseek一键创作抖音文案(结合实时更新的百度热搜)
2025-02-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人