讲文明的喜羊羊拒绝pua-优快云博客

原创 AIGC学习笔记（12）——AI大模型开发工程师

本文介绍了LangChain Agents模块的设计理念与实战应用。设计理念部分重点讲解了ReAct框架，该框架通过"推理+执行"的方式提升AI任务处理能力，包含思考链模式如React、Plan-and-execute Agent等。实战部分演示了两种Agent实现方式：Self-ask with search通过搜索工具获取实时信息；OpenAI functions则整合搜索、计算和数据库查询多种工具。文章还提供了API密钥设置方法，并针对结果不稳定问题给出解决方案：更换模型、调整提示

2025-12-10 22:47:26 87

原创 AIGC学习笔记（11）——AI大模型开发工程师

本文介绍了LangChain框架中Retrieval模块的核心功能与应用。Retrieval模块包含文档加载(Load)、转换(Transform)、嵌入(Embed)、存储(Store)和检索(Retrieve)五个关键环节，支持从100+数据源加载文档，提供25+文本嵌入模型和50+向量存储方案。文章通过代码示例展示了CSV/Text加载器、递归字符分割器、OpenAI嵌入模型和Chroma向量数据库的使用方法，并详细介绍了多条件查询检索器、上下文压缩检索器和集合检索器三种高级检索技术。这些功能使开发者

2025-12-10 22:45:48 80

原创 AIGC学习笔记（10）——AI大模型开发工程师

本文介绍了LangChain框架中的Memory模块，重点讲解了ConversationBufferMemory和ConversationBufferWindowMemory两种内存机制。Memory模块使AI对话系统能够存储和引用历史交互信息，支持读取和写入操作。ConversationBufferMemory存储所有对话记录，而ConversationBufferWindowMemory仅保留最近的K次交互，适合需要限制内存大小的场景。文章通过Python代码示例展示了两种内存的初始化、存储和加载方法，

2025-12-10 08:44:05 52

原创 AI大模型开发架构设计（26）——大模型AI编程案例应用实战

本文系统分析了AI编程代码生成模型的发展与应用。首先介绍了编程方式的演进过程，重点剖析了GitHub Copilot、Cursor、CodeWhisperer、Bito和CodeGeeX等主流AI编程工具。以CodeGeeX2为例，详细解读了其训练数据集、模型架构（基于130亿参数GPT架构）、训练过程（使用1536张昇腾处理器）和评估方法（HumanEval-X基准测试）。通过6个实际案例展示了AI编程助手在正则表达式编写、代码重构、业务逻辑实现、Bug修复、命名规范和单元测试等方面的应用价值。研究表明，

2025-12-10 08:40:29 98

原创 AI大模型开发架构设计（25）——向量数据库技术架构和应用案例实战

本文剖析了基于LLM的向量数据库技术架构及其在企业级应用中的实践。首先阐述了向量数据库在音乐推荐、电商分析等场景的应用价值，介绍了文本、图像等非结构化数据的向量化方法及主流向量数据库选型。其次详细解析了CVP+RAG架构模式，包括离线索引优化和在线检索优化技术。最后以代码知识库为例，展示了数据向量化流程、技术架构选型方案，并针对上下文丢失等问题提出了优化措施，强调高质量语料、合理参数设置对提升召回精度的重要性。全文系统性地呈现了向量数据库从技术原理到企业级落地的完整解决方案。

2025-12-09 23:07:14 279

原创 AI大模型开发架构设计（24）——人人都能学会的 LLM 大模型预训练/微调实战

本文系统介绍了LLM大模型的架构设计与预训练关键技术。首先阐述了LLM的总体架构，包括预训练目标（语言模型和去噪自编码器）和tokenizer构建方法（BPE、WordPiece等）。然后重点分析了分布式预训练的三大挑战：显存效率、计算效率和通信效率，详细讲解了数据并行、模型并行（流水线并行和张量并行）以及3D并行的实现原理与优化策略。最后通过ChatGPT3的案例展示了3D并行（数据+流水线+张量）在实际训练中的应用。文章为理解大规模语言模型的训练机制提供了全面技术视角。

2025-12-09 23:05:13 167

原创 AI大模型开发架构设计（23）——LangChain技术架构和关键技术深度剖析

本文深度剖析LangChain框架的架构与关键技术。LangChain是为构建大模型应用设计的开发框架，核心模块包括Model I/O（语言模型交互）、Prompt（指令模板）、Memory（上下文记忆）、Data Connection（数据检索）和Agents（智能代理）。文章详细解析了各模块功能：Model I/O处理模型输入输出，Memory管理对话记忆，Retrieval实现文档检索，Agents具备规划、记忆和工具调用能力。最后展示了基于LangChain构建企业级问答库的实践方案，通过组合不同组

2025-11-08 21:36:48 201

原创关系型数据库-PostgreSQL

PostgreSQL是一款功能强大的开源关系型数据库，基于C语言实现。它采用BSD开源协议，允许商业化封装。PostgreSQL社区活跃，版本迭代快，最新版本为15.x，推荐使用12.x稳定版或14.x体验新特性。相比MySQL，PostgreSQL支持更丰富的数据类型、序列概念、插件扩展和主从同步复制。安装时推荐Linux环境，通过yum安装并初始化数据库后，默认创建postgres用户进行管理。配置方面需修改pg_hba.conf和postgresql.conf以支持远程连接和日志设置。基本操作包括用户

2025-11-08 21:31:33 1495

原创 Flink实战项目——城市交通实时监控平台

本项目是与公安交通管理综合应用平台、机动车缉查布控系统等对接的，并且基于交通部门现有的数据平台上，进行的数据实时分析项目。

2025-07-15 18:16:54 683

原创 AI大模型开发架构设计（22）——LangChain的大模型架构案例实战

本文介绍了LangChain框架的架构设计及其在AI Agents开发中的关键作用。LangChain是一个整合大模型、向量数据库、交互层Prompt等组件的开发框架，用于构建LLM应用（AI Agents）。其核心功能包括Model I/O（管理输入输出）、Retrieval（数据检索增强）、Memory（多轮对话记忆）等模块。文章详细剖析了框架的组件设计原理，如数据加载/转换/向量化流程、相似度计算机制、缓存优化等，并通过问答系统等典型场景展示了应用架构设计模式。此外，还列举了企业知识库、AutoGPT

2025-07-15 18:11:46 478

原创数据湖技术之Iceberg-03 Iceberg整合Flink 实时写入与增量读取

本文介绍了Flink与Iceberg数据湖技术的整合方案。使用Flink 1.14.4和Iceberg 0.13.2版本，通过Maven配置相关依赖包。重点展示了如何通过DataStream API将Kafka数据实时写入Iceberg表：包括创建Kafka topic、设置checkpoint、读取Kafka数据、转换为RowData对象，以及配置Hadoop Catalog和Iceberg表Schema。文中提供了完整的代码示例，展示了从Kafka消费数据并写入Iceberg表的完整流程。该方案适用于需

2025-07-08 23:51:02 1170 1

原创数据湖技术之Hudi：核心原理、Spark & Hive 集成、COW 与 MOR 模式详解

摘要 Hudi是Apache开源的数据湖解决方案，支持HDFS上大规模分析数据集的更新、增量消费等操作，旨在降低数据延迟。相比传统数据仓库，数据湖能存储多源异构数据，采用"读时模式"提供更高灵活性。Hudi通过批流一体存储解决了Kappa架构的痛点（如Kafka存储限制），实现高效OLAP查询。其核心特性包括：基于时间线的数据版本管理（支持6种操作类型）、MVCC设计、文件分组优化、布隆过滤器索引等，提供upsert、原子提交、快照隔离等能力，适用于实时数仓场景。Hudi轻量级集成Spa

2025-07-07 11:49:42 1032

原创 AIGC学习笔记（9）——AI大模型开发工程师

本文介绍了LangChain框架中Chains模块的核心功能和应用。主要包括四种链式操作类型：LLMChain（基本链式调用）、SequentialChain（顺序链式调用）、RouterChain（条件路由调用）和Transformation（数据处理调用）。文章通过代码示例展示了每种链的具体实现方法，如：使用PromptTemplate与LLM组合生成公司名称、通过顺序链生成剧本简介和评论、利用转换链处理长文本摘要，以及基于问题类型路由到不同提示模板的功能实现。这些方法为构建复杂AI应用提供了模块化和灵

2025-06-03 21:30:27 528

原创 Apache Iceberg 如何实现分布式 ACID 事务：深度解析大数据时代的可靠数据管理

摘要：Iceberg的ACID事务机制解析 Apache Iceberg通过创新架构在分布式文件系统上实现真正的ACID事务能力。其核心机制包括：1）基于原子元数据更新的提交协议，确保事务原子性；2）快照隔离模型提供一致性视图；3）五层元数据结构（表元数据→快照→清单列表→清单文件→数据文件）保障持久性。关键技术包含乐观并发控制（OCC）、隐藏分区优化和自动元数据管理。与传统数据库相比，Iceberg无需中央锁管理器即可支持PB级数据的高并发写入，并提供时间旅行查询能力。

2025-06-03 21:24:13 1938

原创 AI大模型开发架构设计（21）——LLM大模型构建AI Agents案例实战

AI Agent智能体是指能够感知环境并自主执行决策的智能实体，其核心能力包括规划、记忆和工具使用。基于大语言模型（LLM）的Agent通过任务拆解（如思维链CoT）、自我反思优化决策，并扩展记忆能力（如结合向量数据库实现长期/短期记忆）。工具使用能力则让LLM调用外部工具（如代码执行或HuggingFace模型）突破自身限制。尽管LLM存在推理错误、记忆有限等问题，但通过整合这些能力，AI Agent可显著提升复杂任务的处理效能。技术实现上需平衡精度与效率（如近似最近邻搜索），并优化多工具协作流程（如Hu

2025-06-02 11:12:44 958

原创 LeetCode 付费题157. 用 Read4 读取 N 个字符解题思路

本文实现了一个read方法，通过read4 API从文件读取最多n个字符到缓冲区buf。核心思路是循环调用read4将数据分批读取到临时缓冲区，再复制到目标缓冲区，直到满足n个字符或文件结束。算法时间复杂度O(n)，空间复杂度O(1)，通过控制循环和边界条件确保正确性。示例展示了读取过程，适用于流式数据读取场景，处理了缓冲区不足和文件结束等情况。

2025-06-02 11:05:01 412

原创 leetcode付费题 353. 贪吃蛇游戏解题思路

摘要：本文介绍贪吃蛇游戏的设计与实现，重点关注游戏逻辑和碰撞处理。通过队列存储蛇身位置（队尾为蛇头），实现移动、边界检查和食物机制。核心算法包含坐标转换、碰撞检测（queue.contains()）和特殊处理蛇尾碰撞。时间复杂度为O(L)（L为蛇长），空间复杂度O(L)。文中给出3x2网格的示例演示，并建议采用HashSet优化大型网格的碰撞检测。该实现简洁高效，适合中小型游戏场景。

2025-05-31 23:53:27 1350

原创 AIGC学习笔记（8）——AI大模型开发工程师

LangChain于8月1日0.254版本更新，声称采用新的语法来创建带有组合功能的Chain，同时提供一个新的接口，支持批处理、异步和流处理，将这种语法称为LangChain Expression Language(LCEL)

2025-05-31 22:54:37 1422

原创现代数据湖架构全景解析：存储、表格式、计算引擎与元数据服务的协同生态

摘要：本文系统解析现代数据湖架构，重点探讨对象存储、三大表格式（Iceberg/Hudi/Delta Lake）、计算引擎与元数据服务的协作机制。通过对比分析各组件特性与适用场景，揭示数据湖在存储成本、实时性、灵活性等方面的优势，并提出企业选型策略：实时场景优选Hudi，分析场景采用Iceberg，Databricks生态选择Delta。架构设计实现存算分离，支持多引擎协同，成本降幅达75%，构建高效弹性的大数据平台。

2025-05-31 22:41:00 1452

原创 Java秒杀系统实战-03 服务端调优、缓存与异步优化、CAP与事务消息解决一致性、DevOps与Docker部署

本文介绍了基于Redis的服务端调优实践，重点针对下单业务进行性能优化。主要优化措施包括：1）采用"读缓存写异步"原则，将库存数据存入Redis并使用原子操作解决超卖问题；2）通过Redis缓存查询商品数据和扣减库存，显著提升TPS性能；3）引入异步队列处理订单，进一步优化系统吞吐量。同时分析了数据一致性问题，指出在分布式系统中需要权衡CAP特性，建议采用最终一致性方案解决Redis与数据库库存不一致的情况。通过上述优化，系统性能得到阶梯式提升。

2025-02-22 19:25:34 993

原创 AIGC学习笔记（7）——AI大模型开发工程师

LangChain是一个用于开发由大型语言模型（LLM）驱动的应用程序的框架。LangChain简化了LLM应用程序生命周期的每个阶段：开发：使用LangChain的开源构建块、组件和第三方集成来构建您的应用程序。使用LangGraph构建支持一流的流处理和人在环中支持的有状态代理。生产化：使用LangSmith检查、监控和评估您的链，以便您可以持续优化并有信心地部署。部署：使用LangGraph Cloud将您的LangGraph应用程序转变为生产就绪的API和助手。LangChain。

2024-11-26 09:44:41 1071

原创 AI大模型开发架构设计（20）——LLM大模型微调（Fine-tuning）实战

Byte-Pair Encoding（BPE）构建步骤。：训练数据量多，模型参数量大，计算量大，单机训练时间久。2、张量并行：因模型结构而异，实现难度大。神经网络的最基础的一个神经元计算单元。流水线并行（inter-layer）张量并行（intra-layer）1、数据并行：计算效率高，实现简单。大语言模型预训练之3D并行实例。：模型参数量太大，显存不够用。大语音模型预训练之流水线并行。3、流水线并行：通信成本最低。数据并行三个提高效率的技巧。大语音模型预训练之张量并行。LLM 大模型分词案例。

2024-11-26 09:42:40 943