- 博客(313)
- 资源 (10)
- 收藏
- 关注

原创 Flink实战项目——城市交通实时监控平台
本项目是与公安交通管理综合应用平台、机动车缉查布控系统等对接的,并且基于交通部门现有的数据平台上,进行的数据实时分析项目。
2025-07-15 18:16:54
483

原创 AI大模型开发架构设计(22)——LangChain的大模型架构案例实战
本文介绍了LangChain框架的架构设计及其在AI Agents开发中的关键作用。LangChain是一个整合大模型、向量数据库、交互层Prompt等组件的开发框架,用于构建LLM应用(AI Agents)。其核心功能包括Model I/O(管理输入输出)、Retrieval(数据检索增强)、Memory(多轮对话记忆)等模块。文章详细剖析了框架的组件设计原理,如数据加载/转换/向量化流程、相似度计算机制、缓存优化等,并通过问答系统等典型场景展示了应用架构设计模式。此外,还列举了企业知识库、AutoGPT
2025-07-15 18:11:46
361

原创 AIGC学习笔记(9)——AI大模型开发工程师
本文介绍了LangChain框架中Chains模块的核心功能和应用。主要包括四种链式操作类型:LLMChain(基本链式调用)、SequentialChain(顺序链式调用)、RouterChain(条件路由调用)和Transformation(数据处理调用)。文章通过代码示例展示了每种链的具体实现方法,如:使用PromptTemplate与LLM组合生成公司名称、通过顺序链生成剧本简介和评论、利用转换链处理长文本摘要,以及基于问题类型路由到不同提示模板的功能实现。这些方法为构建复杂AI应用提供了模块化和灵
2025-06-03 21:30:27
482
原创 数据湖技术之Iceberg-03 Iceberg整合Flink 实时写入与增量读取
本文介绍了Flink与Iceberg数据湖技术的整合方案。使用Flink 1.14.4和Iceberg 0.13.2版本,通过Maven配置相关依赖包。重点展示了如何通过DataStream API将Kafka数据实时写入Iceberg表:包括创建Kafka topic、设置checkpoint、读取Kafka数据、转换为RowData对象,以及配置Hadoop Catalog和Iceberg表Schema。文中提供了完整的代码示例,展示了从Kafka消费数据并写入Iceberg表的完整流程。该方案适用于需
2025-07-08 23:51:02
1002
1
原创 数据湖技术之Hudi:核心原理、Spark & Hive 集成、COW 与 MOR 模式详解
摘要 Hudi是Apache开源的数据湖解决方案,支持HDFS上大规模分析数据集的更新、增量消费等操作,旨在降低数据延迟。相比传统数据仓库,数据湖能存储多源异构数据,采用"读时模式"提供更高灵活性。Hudi通过批流一体存储解决了Kappa架构的痛点(如Kafka存储限制),实现高效OLAP查询。其核心特性包括:基于时间线的数据版本管理(支持6种操作类型)、MVCC设计、文件分组优化、布隆过滤器索引等,提供upsert、原子提交、快照隔离等能力,适用于实时数仓场景。Hudi轻量级集成Spa
2025-07-07 11:49:42
804
原创 Apache Iceberg 如何实现分布式 ACID 事务:深度解析大数据时代的可靠数据管理
摘要:Iceberg的ACID事务机制解析 Apache Iceberg通过创新架构在分布式文件系统上实现真正的ACID事务能力。其核心机制包括:1)基于原子元数据更新的提交协议,确保事务原子性;2)快照隔离模型提供一致性视图;3)五层元数据结构(表元数据→快照→清单列表→清单文件→数据文件)保障持久性。关键技术包含乐观并发控制(OCC)、隐藏分区优化和自动元数据管理。与传统数据库相比,Iceberg无需中央锁管理器即可支持PB级数据的高并发写入,并提供时间旅行查询能力。
2025-06-03 21:24:13
1799
原创 AI大模型开发架构设计(21)——LLM大模型构建AI Agents案例实战
AI Agent智能体是指能够感知环境并自主执行决策的智能实体,其核心能力包括规划、记忆和工具使用。基于大语言模型(LLM)的Agent通过任务拆解(如思维链CoT)、自我反思优化决策,并扩展记忆能力(如结合向量数据库实现长期/短期记忆)。工具使用能力则让LLM调用外部工具(如代码执行或HuggingFace模型)突破自身限制。尽管LLM存在推理错误、记忆有限等问题,但通过整合这些能力,AI Agent可显著提升复杂任务的处理效能。技术实现上需平衡精度与效率(如近似最近邻搜索),并优化多工具协作流程(如Hu
2025-06-02 11:12:44
895
原创 LeetCode 付费题157. 用 Read4 读取 N 个字符解题思路
本文实现了一个read方法,通过read4 API从文件读取最多n个字符到缓冲区buf。核心思路是循环调用read4将数据分批读取到临时缓冲区,再复制到目标缓冲区,直到满足n个字符或文件结束。算法时间复杂度O(n),空间复杂度O(1),通过控制循环和边界条件确保正确性。示例展示了读取过程,适用于流式数据读取场景,处理了缓冲区不足和文件结束等情况。
2025-06-02 11:05:01
374
原创 leetcode付费题 353. 贪吃蛇游戏解题思路
摘要:本文介绍贪吃蛇游戏的设计与实现,重点关注游戏逻辑和碰撞处理。通过队列存储蛇身位置(队尾为蛇头),实现移动、边界检查和食物机制。核心算法包含坐标转换、碰撞检测(queue.contains())和特殊处理蛇尾碰撞。时间复杂度为O(L)(L为蛇长),空间复杂度O(L)。文中给出3x2网格的示例演示,并建议采用HashSet优化大型网格的碰撞检测。该实现简洁高效,适合中小型游戏场景。
2025-05-31 23:53:27
1230
原创 AIGC学习笔记(8)——AI大模型开发工程师
LangChain于8月1日0.254版本更新,声称采用新的语法来创建带有组合功能的Chain,同时提供一个新的接口,支持批处理、异步和流处理,将这种语法称为LangChain Expression Language(LCEL)
2025-05-31 22:54:37
1356
原创 现代数据湖架构全景解析:存储、表格式、计算引擎与元数据服务的协同生态
摘要:本文系统解析现代数据湖架构,重点探讨对象存储、三大表格式(Iceberg/Hudi/Delta Lake)、计算引擎与元数据服务的协作机制。通过对比分析各组件特性与适用场景,揭示数据湖在存储成本、实时性、灵活性等方面的优势,并提出企业选型策略:实时场景优选Hudi,分析场景采用Iceberg,Databricks生态选择Delta。架构设计实现存算分离,支持多引擎协同,成本降幅达75%,构建高效弹性的大数据平台。
2025-05-31 22:41:00
1330
原创 Java秒杀系统实战-03 服务端调优、缓存与异步优化、CAP与事务消息解决一致性、DevOps与Docker部署
本文介绍了基于Redis的服务端调优实践,重点针对下单业务进行性能优化。主要优化措施包括:1)采用"读缓存写异步"原则,将库存数据存入Redis并使用原子操作解决超卖问题;2)通过Redis缓存查询商品数据和扣减库存,显著提升TPS性能;3)引入异步队列处理订单,进一步优化系统吞吐量。同时分析了数据一致性问题,指出在分布式系统中需要权衡CAP特性,建议采用最终一致性方案解决Redis与数据库库存不一致的情况。通过上述优化,系统性能得到阶梯式提升。
2025-02-22 19:25:34
896
原创 AIGC学习笔记(7)——AI大模型开发工程师
LangChain是一个用于开发由大型语言模型(LLM)驱动的应用程序的框架。LangChain简化了LLM应用程序生命周期的每个阶段:开发:使用LangChain的开源构建块、组件和第三方集成来构建您的应用程序。使用LangGraph构建支持一流的流处理和人在环中支持的有状态代理。生产化:使用LangSmith检查、监控和评估您的链,以便您可以持续优化并有信心地部署。部署:使用LangGraph Cloud将您的LangGraph应用程序转变为生产就绪的API和助手。LangChain。
2024-11-26 09:44:41
1009
原创 AI大模型开发架构设计(20)——LLM大模型微调(Fine-tuning)实战
Byte-Pair Encoding(BPE)构建步骤。:训练数据量多,模型参数量大,计算量大,单机训练时间久。2、张量并行:因模型结构而异,实现难度大。神经网络的最基础的一个神经元计算单元。流水线并行(inter-layer)张量并行(intra-layer)1、数据并行:计算效率高,实现简单。大语言模型预训练之3D并行实例。:模型参数量太大,显存不够用。大语音模型预训练之流水线并行。3、流水线并行:通信成本最低。数据并行三个提高效率的技巧。大语音模型预训练之张量并行。LLM 大模型分词案例。
2024-11-26 09:42:40
906
原创 AIGC学习笔记(6)——AI大模型开发工程师
PDF文档操作读取文档表格操作github开源代码实现:项目地址:https://github.com/shouwangyw/AIGC/tree/main/Code/005/ai-translator-helper
2024-11-23 21:40:11
783
1
原创 AI大模型开发架构设计(19)——大模型向量数据库企业级应用实践
关系型数据库:MySQL结构化数据精确匹配非关系型数据库:NoSQL非结构化数据精确匹配那么,什么是向量数据库?——非结构化数据模糊匹配向量数据库是一种以向量嵌入(高维向量)方式存储和管理费结构化数据的数据库。数据如何向量化表达?
2024-11-23 21:35:13
1676
原创 AIGC学习笔记(5)——AI大模型开发工程师
创建包含JSON对象的列表# 指定保存文件的路径# 将JSON数据写入本地文件file_path = 'result.json' # 创建包含JSON对象的列表 json_data = [ {
2024-11-13 21:39:34
1491
原创 AI大模型开发架构设计(18)——基于大模型构建企业知识库案例实战
高质量的知识语料清晰且语义化的数据结构合理的 Embedding Model 选型以及参数 chunkSize, chunkOverlap 合理设置大小使用工程技术优化上下文问题优化用户输入,提升召回精度。
2024-11-13 21:33:13
1133
原创 AIGC学习笔记(4)——AI大模型开发工程师
1、Completion API和Chat Completion API2、Chat Completion API详细参数3、Function Calling 函数调用4、ChatGPT Plugin实践
2024-10-31 09:43:44
1219
原创 AIGC学习笔记(3)——AI大模型开发工程师
OpenAI账户注册OpenAI GPT费用计算OpenAI Key获取与配置OpenAI 大模型总览WildCard申请虚拟账户
2024-10-28 08:35:12
1166
原创 AI大模型开发架构设计(16)——ChatGPT Code Interpreter应用场景和技术原理动手实践
Code Interpreter 应用场景解析Code Interpreter 技术架构深度剖析基于 LangChain 实现一个 Code Interpreter
2024-10-26 10:38:32
1320
原创 AI大模型开发架构设计(15)——从原理到实现教你做出一个ChatGPT
GPT技术演进剖析如何训练一个ChatGPTChatGPT在线工程架构设计与实现
2024-10-26 10:34:32
799
原创 AI大模型开发架构设计(14)——基于LangChain大模型的案例架构实战
LangChain 顶层架构设计以及关键技术剖析基于 LangChain 的 LLM 应用架构揭秘
2024-10-20 13:33:32
1640
原创 AI大模型开发架构设计(13)——LLM大模型的向量数据库应用实战
大模型的局限性向量数据库使用场景以及改建大模型向量数据库应用技术架构剖析利用向量检索构建知识库案例
2024-10-20 13:28:03
1565
原创 AI大模型开发架构设计(11)——AI 大模型与提示词工程助力职场典型案例场景实战
AI大模型全局架构实战剖析Prompt Engineering 整体应用场景剖析提示词工程不能淘汰程序员的7个原因
2024-10-13 20:36:20
936
原创 AI大模型开发架构设计(8)——从 AI 编程助手到 AI Agent 应用实战
Python 是不是构建 AI Agents 的最好语言?Code Review Bot 无状态设计 & 运行部署。设计 Lightweight AI Agents。当人类询问是否会下雨时?降低 LLM 幻觉的方法。
2024-02-02 08:10:00
1297
原创 AI大模型开发架构设计(6)——AIGC时代,如何求职、转型与选择?
AIGC 新时代,已有的工作机会会不会减少?AIGC新时代,我们到底要学什么?AIGC新时代,我们怎么应对?
2024-01-27 18:02:11
653
原创 AI大模型开发架构设计(5)——人人能学会的Llama-2大模型微调
Meta联合微软在 2023年7月19日,共同宣布开源了 Llama-2 大模型亚马逊 Azure、Huggingface 等都宣布提供 Llama-2 云服务器阿里云、腾讯云、百度云等也都提供了 Llama-2 云服务Llama-2不但免费,还可以商业化使用有机会打破 ChatGPT 的垄断地位,进一步降低开发者的使用成本。
2024-01-27 17:59:45
1580
原创 AI大模型开发架构设计(4)——人人需要掌握的大模型微调
- Prompt Engineer(提示词工程)- LangChain(一个框架的名字)- Fine-tuning(微调)
2024-01-21 23:09:40
2620
原创 AI大模型开发架构设计(2)——AI绘画技术架构&应用实践
Diffusion Model(扩散模型)→Image Information Creator。Decode Model(扩散模型)→放大 Diffusion Model 的输出到完整图像。Language Model(语言模型)→Text Encoder(文本编码)训练Encoder模型。
2024-01-20 11:11:39
1649
1
原创 AI大模型开发架构设计(1)——LLM大模型Agent剖析和应用案例实战
LLM Agent 可以理解为一个以 LLM 为大脑的智能体(类比人),集成了规划、记忆、工具使用等能力。当“记忆”非常多时,如何在大量“记忆”力快速找到最相关的那些“记忆”?Auto-GPT 的效果很大程度上归功于它复杂的。工具使用能力-function calling。工具使用能力-HuggingGPT。Auto-GPT 的主要框架设计。CoT任务拆解的缺陷是什么?LLM和传统规划方式结合。Auto-GPT 的输出。LLM + 向量数据库。LLM的记忆是什么?
2024-01-20 10:14:40
5120
1
原创 AIGC学习笔记(1)——AI大模型提示词工程师
1、Prompt工程之原理2、Prompt工程之原则3、Prompt工程之迭代4、Prompt工程之应用
2024-01-06 17:35:59
3006
5
原创 数据结构与算法(六)
1、四边形不等式技巧2、状态压缩的动态规划3、DC3生成后缀数组4、后缀数组解决面试题5、动态规划猜法中和外部信息简化的相关问题6、哈夫曼树7、最大网络流算法之Dinic算法
2024-01-05 09:14:14
452
azkaban-4.0.0编译安装包.zip
2022-01-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人