guohuang-优快云博客

原创 RAG 系统里，为何要向量化和重排？

本文介绍了RAG（检索增强生成）系统的核心组件：向量化和重排。向量化通过将文本映射为稠密向量，实现高效语义检索；重排则利用交叉注意力机制对候选结果进行精准排序。文章通过代码实例展示了如何使用Bi-Encoder进行初步检索，再用Cross-Encoder进行重排优化，并提供了一个可直接复用的优化管道类。最后指出向量化解决检索速度问题，重排解决结果精度问题，二者结合使小模型也能处理大规模知识库。文中所有代码支持Python≥3.9运行。

2025-08-19 18:00:00 1422

原创构建你的第一个简单AI助手 - 入门实践

在AI技术迅速发展的背景下，本文介绍了如何利用大语言模型（LLM）API构建一个名为“DevHelper”的AI编程助手，旨在帮助程序员解决日常工作中的问题，如代码解释、优化建议、样板代码生成等。文章详细阐述了从技术准备到核心功能实现的步骤，包括设置Python环境、安装依赖、设计基础架构以及实现与AI助手的对话功能。此外，还介绍了如何增强助手的上下文记忆和工具使用能力，如查询日期和搜索Python文档。最后，文章提出了进一步的优化方向，如工具框架升级、持久化存储、UI界面开发等，鼓励读者通过构建AI助手来

2025-05-13 18:22:54 1088

原创 MCP vs LangChain：标准化协议与开发框架的优劣对比

MCP（Model Context Protocol）是由Anthropic提出的一种标准化协议，旨在统一大模型API的调用方式，简化开发流程，提高互操作性。MCP和LangChain代表了大模型应用开发中的两种不同思路：一种是追求标准化和灵活性，另一种是追求功能完整和开发效率。对于技术入门者来说，理解这两种技术的区别和适用场景，有助于在实际项目中做出更明智的技术选择。无论选择哪种技术路线，都建议先从简单应用开始，熟悉大模型的基本调用方式和响应特点，再逐步探索更复杂的功能和应用场景。

2025-04-08 19:44:20 1786

原创 LoRA技术全解析：如何用4%参数量实现大模型高效微调

LoRA不仅是一种微调技术，更代表了一种新的参数高效学习范式。它体现了通过最小化参数变化来实现模型快速适配的科学思想。

2025-03-30 18:30:00 634

原创 QwQ-32B vs DeepSeek-R1：程序员视角的模型选型指南

在AI技术飞速发展的当下，程序员的工作方式正经历着深刻变革。AI工具，尤其是大语言模型，已经深入渗透到软件开发的各个环节，从代码生成、调试，到文档撰写、架构设计，都能看到它们的身影。对于初级程序员而言，理解不同模型的特点与适用场景，不仅能够显著提升开发效率，还能在项目选型时做出更明智的决策。

2025-03-27 18:30:00 960

原创警惕AI“黑箱”：当我们依赖大模型决策时，究竟放弃了什么？

AI“黑箱”是指那些内部机制对用户或开发者而言不可见或难以理解的人工智能系统或模型。对于这些黑箱模型，我们能够观察到的是输入的数据和输出的结果，但模型内部是如何处理这些输入并得出输出的过程却是复杂且不透明的。就像一个封闭的盒子，我们知道数据进去，结果出来，却无法直接看到里面的运作细节。以深度神经网络为例，它由成千上万甚至上亿个参数构成，这些参数通过多层网络结构相互作用。如此复杂的结构使得很难逐层追踪和解释模型的决策过程。而且，深度学习模型的非线性层次叠加，进一步加剧了模型的不可解释性。

2025-03-21 18:30:00 2084

原创如何用 DeepSpeed 满足百亿参数大模型的微调？

利用 DeepSpeed 在 8*A100（40GB）环境下实测可支持 130B 参数模型微调，训练吞吐量达到 3200 tokens/sec，相比原生 PyTorch 方案显存效率提升 5.8 倍。如果您想系统的学习大模型微调的实战技巧，可以加入课程《大模型微调实战》，掌握大模型微调的核心技能，提升在AI领域的竞争力。针对百亿参数大模型的微调需求，DeepSpeed 框架可通过以下核心技术方案实现显存优化与训练加速.

2025-03-05 18:29:01 532

原创大模型蒸馏实战：让小模型获得大模型的知识

本文为初学者提供了一份大模型蒸馏实战指南，通过情感分析任务演示如何将 BERT 的知识迁移到轻量级 TextCNN。文章结合原理图解与 PyTorch 代码，详解软标签生成、温度调节和双损失设计等核心概念，并对比蒸馏前后的性能差异（准确率提升 4.6%，推理速度达 1200 句 / 秒）。内含可直接运行的代码片段、训练技巧及常见问题解答，助力开发者快速掌握模型压缩核心技术，实现工业级部署效率。适合 NLP 入门者学习实践。

2025-03-02 13:22:42 1136

原创论文翻译学习：《DeepSeek-R1: 通过强化学习激励大型语言模型的推理能力》

近年来，大型语言模型（LLMs）经历了快速的迭代和演变，逐渐缩小了与人工通用智能（AGI）之间的差距。最近，后训练已成为完整训练流程中的一个重要组成部分。它已被证明可以在推理任务上提高准确性、与社会价值观保持一致并适应用户偏好，同时相比预训练所需的计算资源相对较少。在推理能力方面，OpenAI 的 o1 系列模型首次引入了通过增加链式推理过程的长度来实现推理时的扩展。这种方法在数学、编程和科学推理等各种推理任务上取得了显著的改进。然而，有效的测试时扩展仍然是研究社区的一个未解之决的问题。

2025-02-07 20:22:56 1256

原创大模型瘦身三剑客：蒸馏、量化、剪枝，如何让AI更轻快？—— 给初学者的极简指南

老师不直接给答案（如“猫”），而是说“80%像猫，15%像豹，5%像狗”——传递知识细节。：TinyBERT = 蒸馏（知识传递） + 剪枝（移除冗余层） + 量化（INT8压缩）。：让“小学生”模型（Student）模仿“大学教授”模型（Teacher）的智慧。：模型体积↓50%，速度↑2倍，精度损失<1%（如DistilBERT）。：将模型参数从“高清图”（FP32）压缩为“表情包”（INT8）。：保持性能，让模型更小（省内存）、更快（低延迟）、更省电。：直接压缩训练好的模型（快，但可能掉精度）。

2025-02-06 18:27:20 725

原创实战LLM微调：大语言模型和微调入门

本文对大模型的发展和现状做了个回顾，并重点介绍了下什么是微调以及如何在大模型上做微调，之后展示了对微调后的模型做评估和量化的技术。

2024-05-18 17:14:40 2195 1

原创如何用YOLOv8实现图像分割

首先，我们将使用 YOLOv8 官方的预训练模型进行图像分割，然后介绍如何训练自己的分割模型。最后，我们替换掉官方库，用更底层的方式来处理图像分割的输入和输出。

2024-03-10 16:16:22 8375

原创如何使用 Python、Node.js 和 Go 创建基于 YOLOv8 的对象检测 Web 服务

在本文中，展示了如何在不需要PyTorch和官方API的情况下使用 YOLOv8 模型，需要将模型部署在不同的端上，让模型使用的资源减少十倍，并且使用了如何在 Node.js、和 Go 上创建由 YOLOv8 的 Web 服务。

2024-01-05 18:30:00 3359

原创综合优化 MySQL 性能

本文介绍了MySQL的综合性能优化策略，包括系统级优化和应用级优化。没有一个万能的性能优化方案，我们需要对每MySQL设置，无论业务能力和场景，以及硬件资源不断做调整优化，从而获得最佳的性能。

2023-12-27 18:00:00 1714

原创如何使用 YOLOv8 做对象检测

在本文中，学习到了创建YOLOv8支持的 Web 应用程序的过程。我们介绍了创建模型、使用预训练模型、准备数据来训练自定义模型等步骤，最后创建了一个具有前端和后端的 Web 应用程序。

2023-12-25 17:50:36 1877

原创 4种常见的数据库索引

本文介绍了数据库常见的4种索引和其原理，包括B-Tree索引，哈希索引，位图索引和全文索引，每种索引都有自己的特点，在实际中请根据业务场景选择适合的索引。

2023-12-23 18:30:00 2119

原创让你的查询更快——11个数据库优化技术

本文总结了11个常用的数据库优化技巧，希望对你有所帮助。

2023-12-20 19:30:00 1729

原创系统架构设计的检查清单

系统设计很复杂，在实际中我总结了一些检查清单，帮助在系统设计的过程中快速的核对。

2023-12-19 19:00:00 814

原创如何加快 SQL 查询速度的同时保持SQL的简洁？

在本文中，我们介绍了优化 SQL 查询的一些技巧。通常，对查询速度产生最大影响的因素是正确使用索引。希望本文中的内容能帮助到你。

2023-12-18 19:30:00 1276 1

原创 7个Python优化原则：让代码运行的更快

在本文中，我们介绍了优化Python代码的7个原则，这7个原则能够充分利用 Python 的潜力，提高Python代码执行效率。

2023-12-16 10:18:07 5462

原创使用Kafka、Flink、Druid构建实时数据系统架构

Kafka、Flink和Druid一起使用时，可以创建一个实时数据架构，减少这些等待时间。在这篇文章中，我们将探讨如何利用Kafka、Flink、Druid实现广泛的实时数据系统架构。

2023-11-21 17:30:00 1608

原创 10个Kubernetes必备工具

从本质上讲，Kubernetes 虽然是一个强大且动态的平台，但为工程师编排容器化应用程序带来了一些挑战。但是，从 kubectl 到 Helm、Prometheus 到 Kubeflow 等众多工具随时可以帮助 Kubernetes 用户完善工作流程并优化资源利用率。熟练地利用这些工具并遵循使用建议将提高 Kubernetes 工程师的工作效率、减少错误并确保更有效地实现目标。

2023-11-20 11:00:00 1116

原创如何设计一个网盘系统的架构

本文讨论了如何设计一个网盘系统的架构，综合功能性需求和非功能性需求，设计了API、数据库和服务架构。但是没有讨论权限设计和数据安全的部分，也欢迎大家补充改进。

2023-11-10 16:24:54 2177 1

原创如何提高40%的Docker构建时间

通过利用远程缓存和在ADD和COPY时使用链接，能把原来的docker镜像构建时间提高40%，这是2个非常有效的技巧。

2023-11-07 15:03:12 873

原创分享8个分布式Kafka的使用场景

Kafka 最初是为海量日志处理而构建的。它保留消息直到过期，并让消费者按照自己的节奏提取消息。与它的前辈不同，Kafka 不仅仅是一个消息队列，它还是一个适用于各种情况的开源事件流平台。

2023-10-27 17:43:37 1909

原创如何设计实时聊天系统的架构

本文展示了如何做一个实时聊天系统的架构设计

2023-10-23 11:15:50 735

原创设计模式——21. 中介者模式

中介者模式（Mediator Pattern）是一种行为设计模式，它允许对象之间通过一个中介者对象进行通信，而不是直接相互引用。这种模式有助于减少对象之间的直接关联，从而提高系统的可维护性和松耦合性。

2023-10-15 19:00:00 394

原创设计模式——22. 责任链模式

责任链模式是一种行为设计模式，它允许你创建一个对象链，每个对象都包含了请求的一部分处理逻辑，并且请求按照链的顺序依次传递，直到有一个对象处理它为止。责任链模式通常用于将一个请求从发送者传递给多个接收者，直到有一个接收者处理请求为止。

2023-10-15 19:00:00 424

原创设计模式——20. 解释器模式

解释器模式（Interpreter Pattern）是一种行为型设计模式，它用于定义一门语言的语法解析，并为该语言创建解释器。该模式将一个问题或领域表达成一个语言，然后提供一个解释器来解释这种语言中的表达式，以执行特定操作。

2023-10-14 19:00:00 406

原创设计模式——19. 访问者模式

访问者模式（Visitor Pattern）是一种行为型设计模式，它允许你在不改变元素类（被访问者）的前提下，定义对元素的新操作（访问者），并将这些操作封装到独立的访问者类中。这样，你可以在不修改被访问者的类的情况下，通过不同的访问者来执行不同的操作。

2023-10-13 19:00:00 504

原创设计模式——18. 备忘录模式

备忘录模式（Memento Pattern）是一种行为设计模式，它允许在不暴露对象内部状态的情况下捕获并恢复对象之前的状态。备忘录模式涉及三个主要角色：原发器（Originator）、备忘录（Memento）和负责人（Caretaker）。

2023-10-12 11:30:00 180

原创设计模式——17. 状态模式

状态模式（State Pattern）是一种行为设计模式，它允许一个对象在其内部状态发生改变时改变其行为。状态模式将对象的状态封装成不同的状态对象，并将状态切换时的行为委托给当前状态对象。这样，对象在不同状态下具有不同的行为，而无需在对象本身中使用大量的条件语句来管理状态。

2023-10-11 19:00:00 205

原创设计模式——16. 迭代器模式

迭代器模式（Iterator Pattern）是一种行为型设计模式，它用于提供一种访问聚合对象（如列表、数组、集合等）元素的统一接口，而不需要了解底层数据结构的具体实现。迭代器模式将遍历聚合对象的操作封装在一个独立的迭代器对象中，这样可以隔离遍历算法和数据结构，使得代码更加灵活、可维护和可扩展。

2023-10-10 19:00:00 292

原创设计模式——15. 模板方法模式

模板方法模式（Template Method Pattern）是一种行为设计模式，它定义了一个算法的骨架，将算法的具体步骤延迟到子类中实现。这个模式允许子类在不改变算法结构的情况下重新定义算法的某些步骤。

2023-10-09 19:00:00 161

原创设计模式——14. 观察者模式

观察者模式（Observer Pattern）是一种行为型设计模式，用于定义对象之间的一对多依赖关系，使得当一个对象的状态发生改变时，所有依赖于它的对象都能够自动收到通知并更新自己的状态，以保持与被观察对象的同步。观察者模式也被称为发布-订阅模式。

2023-10-08 10:48:58 480

原创设计模式——13. 命令模式

命令模式（Command Pattern）是一种行为型设计模式，它将请求或操作封装成一个对象，从而允许您将客户端和接收者对象解耦。这种模式的主要目的是将请求发送者与接收者解耦，从而允许多种不同的请求来操作接收者对象，同时支持命令的撤销和重做。

2023-10-08 10:48:36 202

原创设计模式——12. 策略模式

策略模式（Strategy Pattern）是一种行为型设计模式，它允许你定义一系列算法，将每个算法封装成一个独立的类，并使它们可以互相替换，使得客户端代码可以根据需要在不修改原有代码的情况下选择不同的算法来执行某个任务。策略模式将算法的选择和使用与算法的实现分离开来，提高了代码的可维护性和扩展性。

2023-10-07 19:00:00 334 1

原创设计模式——11. 享元模式

享元模式（Flyweight Pattern）是一种结构型设计模式，它旨在减少系统中相似对象的内存占用或计算开销，通过共享相同的对象来达到节省资源的目的。

2023-10-06 19:00:00 339 1

原创设计模式——10. 组合模式

组合模式是一种结构型设计模式，用于将对象组合成树状结构以表示“部分-整体”的层次结构。它允许客户端以一致的方式处理单个对象和组合对象（包含多个对象的容器），使得客户端无需关心它们之间的差异。

2023-10-05 19:00:00 932

原创设计模式——9. 桥接模式

桥接模式（Bridge Pattern）是一种结构型设计模式，它用于将抽象部分和具体实现部分分离，以便它们可以独立地变化而不互相影响。桥接模式通过将抽象和实现分离来解决类的多层次继承结构问题，使得系统更加灵活。

2023-10-03 11:00:00 261 2

道路交通灯和标志数据集(YOLOv8版）

供YOLOv8训练的道路交通灯和标志数据集。 21种对象分类，包括：公交车站, 禁止进入，禁停, 禁止左转, 禁止右转, 禁止掉头, 进入左侧车道, 绿灯, 左右车道, 禁止停车, 停车位, 人行过道, 斑马线, 铁道路口, 红灯, 停止, T字形交叉口, 交通灯, 掉头, 警告, 黄灯。数据包括 1. 训练集：共1376张图片，53.3MB。 2. 验证集：共488张图片，21MB。 3. 测试集：共229张图片，8.4MB。总共2093张图片，82.7MB。

2023-12-20