自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(321)
  • 资源 (10)
  • 收藏
  • 关注

原创 AIGC学习笔记(12)——AI大模型开发工程师

本文介绍了LangChain Agents模块的设计理念与实战应用。设计理念部分重点讲解了ReAct框架,该框架通过"推理+执行"的方式提升AI任务处理能力,包含思考链模式如React、Plan-and-execute Agent等。实战部分演示了两种Agent实现方式:Self-ask with search通过搜索工具获取实时信息;OpenAI functions则整合搜索、计算和数据库查询多种工具。文章还提供了API密钥设置方法,并针对结果不稳定问题给出解决方案:更换模型、调整提示

2025-12-10 22:47:26 87

原创 AIGC学习笔记(11)——AI大模型开发工程师

本文介绍了LangChain框架中Retrieval模块的核心功能与应用。Retrieval模块包含文档加载(Load)、转换(Transform)、嵌入(Embed)、存储(Store)和检索(Retrieve)五个关键环节,支持从100+数据源加载文档,提供25+文本嵌入模型和50+向量存储方案。文章通过代码示例展示了CSV/Text加载器、递归字符分割器、OpenAI嵌入模型和Chroma向量数据库的使用方法,并详细介绍了多条件查询检索器、上下文压缩检索器和集合检索器三种高级检索技术。这些功能使开发者

2025-12-10 22:45:48 80

原创 AIGC学习笔记(10)——AI大模型开发工程师

本文介绍了LangChain框架中的Memory模块,重点讲解了ConversationBufferMemory和ConversationBufferWindowMemory两种内存机制。Memory模块使AI对话系统能够存储和引用历史交互信息,支持读取和写入操作。ConversationBufferMemory存储所有对话记录,而ConversationBufferWindowMemory仅保留最近的K次交互,适合需要限制内存大小的场景。文章通过Python代码示例展示了两种内存的初始化、存储和加载方法,

2025-12-10 08:44:05 52

原创 AI大模型开发架构设计(26)——大模型AI编程案例应用实战

本文系统分析了AI编程代码生成模型的发展与应用。首先介绍了编程方式的演进过程,重点剖析了GitHub Copilot、Cursor、CodeWhisperer、Bito和CodeGeeX等主流AI编程工具。以CodeGeeX2为例,详细解读了其训练数据集、模型架构(基于130亿参数GPT架构)、训练过程(使用1536张昇腾处理器)和评估方法(HumanEval-X基准测试)。通过6个实际案例展示了AI编程助手在正则表达式编写、代码重构、业务逻辑实现、Bug修复、命名规范和单元测试等方面的应用价值。研究表明,

2025-12-10 08:40:29 98

原创 AI大模型开发架构设计(25)——向量数据库技术架构和应用案例实战

本文剖析了基于LLM的向量数据库技术架构及其在企业级应用中的实践。首先阐述了向量数据库在音乐推荐、电商分析等场景的应用价值,介绍了文本、图像等非结构化数据的向量化方法及主流向量数据库选型。其次详细解析了CVP+RAG架构模式,包括离线索引优化和在线检索优化技术。最后以代码知识库为例,展示了数据向量化流程、技术架构选型方案,并针对上下文丢失等问题提出了优化措施,强调高质量语料、合理参数设置对提升召回精度的重要性。全文系统性地呈现了向量数据库从技术原理到企业级落地的完整解决方案。

2025-12-09 23:07:14 279

原创 AI大模型开发架构设计(24)——人人都能学会的 LLM 大模型预训练/微调实战

本文系统介绍了LLM大模型的架构设计与预训练关键技术。首先阐述了LLM的总体架构,包括预训练目标(语言模型和去噪自编码器)和tokenizer构建方法(BPE、WordPiece等)。然后重点分析了分布式预训练的三大挑战:显存效率、计算效率和通信效率,详细讲解了数据并行、模型并行(流水线并行和张量并行)以及3D并行的实现原理与优化策略。最后通过ChatGPT3的案例展示了3D并行(数据+流水线+张量)在实际训练中的应用。文章为理解大规模语言模型的训练机制提供了全面技术视角。

2025-12-09 23:05:13 167

原创 AI大模型开发架构设计(23)——LangChain技术架构和关键技术深度剖析

本文深度剖析LangChain框架的架构与关键技术。LangChain是为构建大模型应用设计的开发框架,核心模块包括Model I/O(语言模型交互)、Prompt(指令模板)、Memory(上下文记忆)、Data Connection(数据检索)和Agents(智能代理)。文章详细解析了各模块功能:Model I/O处理模型输入输出,Memory管理对话记忆,Retrieval实现文档检索,Agents具备规划、记忆和工具调用能力。最后展示了基于LangChain构建企业级问答库的实践方案,通过组合不同组

2025-11-08 21:36:48 201

原创 关系型数据库-PostgreSQL

PostgreSQL是一款功能强大的开源关系型数据库,基于C语言实现。它采用BSD开源协议,允许商业化封装。PostgreSQL社区活跃,版本迭代快,最新版本为15.x,推荐使用12.x稳定版或14.x体验新特性。相比MySQL,PostgreSQL支持更丰富的数据类型、序列概念、插件扩展和主从同步复制。安装时推荐Linux环境,通过yum安装并初始化数据库后,默认创建postgres用户进行管理。配置方面需修改pg_hba.conf和postgresql.conf以支持远程连接和日志设置。基本操作包括用户

2025-11-08 21:31:33 1495

原创 Flink实战项目——城市交通实时监控平台

本项目是与公安交通管理综合应用平台、机动车缉查布控系统等对接的,并且基于交通部门现有的数据平台上,进行的数据实时分析项目。

2025-07-15 18:16:54 683

原创 AI大模型开发架构设计(22)——LangChain的大模型架构案例实战

本文介绍了LangChain框架的架构设计及其在AI Agents开发中的关键作用。LangChain是一个整合大模型、向量数据库、交互层Prompt等组件的开发框架,用于构建LLM应用(AI Agents)。其核心功能包括Model I/O(管理输入输出)、Retrieval(数据检索增强)、Memory(多轮对话记忆)等模块。文章详细剖析了框架的组件设计原理,如数据加载/转换/向量化流程、相似度计算机制、缓存优化等,并通过问答系统等典型场景展示了应用架构设计模式。此外,还列举了企业知识库、AutoGPT

2025-07-15 18:11:46 478

原创 数据湖技术之Iceberg-03 Iceberg整合Flink 实时写入与增量读取

本文介绍了Flink与Iceberg数据湖技术的整合方案。使用Flink 1.14.4和Iceberg 0.13.2版本,通过Maven配置相关依赖包。重点展示了如何通过DataStream API将Kafka数据实时写入Iceberg表:包括创建Kafka topic、设置checkpoint、读取Kafka数据、转换为RowData对象,以及配置Hadoop Catalog和Iceberg表Schema。文中提供了完整的代码示例,展示了从Kafka消费数据并写入Iceberg表的完整流程。该方案适用于需

2025-07-08 23:51:02 1170 1

原创 数据湖技术之Hudi:核心原理、Spark & Hive 集成、COW 与 MOR 模式详解

摘要 Hudi是Apache开源的数据湖解决方案,支持HDFS上大规模分析数据集的更新、增量消费等操作,旨在降低数据延迟。相比传统数据仓库,数据湖能存储多源异构数据,采用"读时模式"提供更高灵活性。Hudi通过批流一体存储解决了Kappa架构的痛点(如Kafka存储限制),实现高效OLAP查询。其核心特性包括:基于时间线的数据版本管理(支持6种操作类型)、MVCC设计、文件分组优化、布隆过滤器索引等,提供upsert、原子提交、快照隔离等能力,适用于实时数仓场景。Hudi轻量级集成Spa

2025-07-07 11:49:42 1032

原创 AIGC学习笔记(9)——AI大模型开发工程师

本文介绍了LangChain框架中Chains模块的核心功能和应用。主要包括四种链式操作类型:LLMChain(基本链式调用)、SequentialChain(顺序链式调用)、RouterChain(条件路由调用)和Transformation(数据处理调用)。文章通过代码示例展示了每种链的具体实现方法,如:使用PromptTemplate与LLM组合生成公司名称、通过顺序链生成剧本简介和评论、利用转换链处理长文本摘要,以及基于问题类型路由到不同提示模板的功能实现。这些方法为构建复杂AI应用提供了模块化和灵

2025-06-03 21:30:27 528

原创 Apache Iceberg 如何实现分布式 ACID 事务:深度解析大数据时代的可靠数据管理

摘要:Iceberg的ACID事务机制解析 Apache Iceberg通过创新架构在分布式文件系统上实现真正的ACID事务能力。其核心机制包括:1)基于原子元数据更新的提交协议,确保事务原子性;2)快照隔离模型提供一致性视图;3)五层元数据结构(表元数据→快照→清单列表→清单文件→数据文件)保障持久性。关键技术包含乐观并发控制(OCC)、隐藏分区优化和自动元数据管理。与传统数据库相比,Iceberg无需中央锁管理器即可支持PB级数据的高并发写入,并提供时间旅行查询能力。

2025-06-03 21:24:13 1938

原创 AI大模型开发架构设计(21)——LLM大模型构建AI Agents案例实战

AI Agent智能体是指能够感知环境并自主执行决策的智能实体,其核心能力包括规划、记忆和工具使用。基于大语言模型(LLM)的Agent通过任务拆解(如思维链CoT)、自我反思优化决策,并扩展记忆能力(如结合向量数据库实现长期/短期记忆)。工具使用能力则让LLM调用外部工具(如代码执行或HuggingFace模型)突破自身限制。尽管LLM存在推理错误、记忆有限等问题,但通过整合这些能力,AI Agent可显著提升复杂任务的处理效能。技术实现上需平衡精度与效率(如近似最近邻搜索),并优化多工具协作流程(如Hu

2025-06-02 11:12:44 958

原创 LeetCode 付费题157. 用 Read4 读取 N 个字符解题思路

本文实现了一个read方法,通过read4 API从文件读取最多n个字符到缓冲区buf。核心思路是循环调用read4将数据分批读取到临时缓冲区,再复制到目标缓冲区,直到满足n个字符或文件结束。算法时间复杂度O(n),空间复杂度O(1),通过控制循环和边界条件确保正确性。示例展示了读取过程,适用于流式数据读取场景,处理了缓冲区不足和文件结束等情况。

2025-06-02 11:05:01 412

原创 leetcode付费题 353. 贪吃蛇游戏解题思路

摘要:本文介绍贪吃蛇游戏的设计与实现,重点关注游戏逻辑和碰撞处理。通过队列存储蛇身位置(队尾为蛇头),实现移动、边界检查和食物机制。核心算法包含坐标转换、碰撞检测(queue.contains())和特殊处理蛇尾碰撞。时间复杂度为O(L)(L为蛇长),空间复杂度O(L)。文中给出3x2网格的示例演示,并建议采用HashSet优化大型网格的碰撞检测。该实现简洁高效,适合中小型游戏场景。

2025-05-31 23:53:27 1350

原创 AIGC学习笔记(8)——AI大模型开发工程师

LangChain于8月1日0.254版本更新,声称采用新的语法来创建带有组合功能的Chain,同时提供一个新的接口,支持批处理、异步和流处理,将这种语法称为LangChain Expression Language(LCEL)

2025-05-31 22:54:37 1422

原创 现代数据湖架构全景解析:存储、表格式、计算引擎与元数据服务的协同生态

摘要:本文系统解析现代数据湖架构,重点探讨对象存储、三大表格式(Iceberg/Hudi/Delta Lake)、计算引擎与元数据服务的协作机制。通过对比分析各组件特性与适用场景,揭示数据湖在存储成本、实时性、灵活性等方面的优势,并提出企业选型策略:实时场景优选Hudi,分析场景采用Iceberg,Databricks生态选择Delta。架构设计实现存算分离,支持多引擎协同,成本降幅达75%,构建高效弹性的大数据平台。

2025-05-31 22:41:00 1452

原创 Java秒杀系统实战-03 服务端调优、缓存与异步优化、CAP与事务消息解决一致性、DevOps与Docker部署

本文介绍了基于Redis的服务端调优实践,重点针对下单业务进行性能优化。主要优化措施包括:1)采用"读缓存写异步"原则,将库存数据存入Redis并使用原子操作解决超卖问题;2)通过Redis缓存查询商品数据和扣减库存,显著提升TPS性能;3)引入异步队列处理订单,进一步优化系统吞吐量。同时分析了数据一致性问题,指出在分布式系统中需要权衡CAP特性,建议采用最终一致性方案解决Redis与数据库库存不一致的情况。通过上述优化,系统性能得到阶梯式提升。

2025-02-22 19:25:34 993

原创 AIGC学习笔记(7)——AI大模型开发工程师

LangChain是一个用于开发由大型语言模型(LLM)驱动的应用程序的框架。LangChain简化了LLM应用程序生命周期的每个阶段:开发:使用LangChain的开源构建块、组件和第三方集成来构建您的应用程序。使用LangGraph构建支持一流的流处理和人在环中支持的有状态代理。生产化:使用LangSmith检查、监控和评估您的链,以便您可以持续优化并有信心地部署。部署:使用LangGraph Cloud将您的LangGraph应用程序转变为生产就绪的API和助手。LangChain。

2024-11-26 09:44:41 1071

原创 AI大模型开发架构设计(20)——LLM大模型微调(Fine-tuning)实战

Byte-Pair Encoding(BPE)构建步骤。:训练数据量多,模型参数量大,计算量大,单机训练时间久。2、张量并行:因模型结构而异,实现难度大。神经网络的最基础的一个神经元计算单元。流水线并行(inter-layer)张量并行(intra-layer)1、数据并行:计算效率高,实现简单。大语言模型预训练之3D并行实例。:模型参数量太大,显存不够用。大语音模型预训练之流水线并行。3、流水线并行:通信成本最低。数据并行三个提高效率的技巧。大语音模型预训练之张量并行。LLM 大模型分词案例。

2024-11-26 09:42:40 943

原创 AIGC学习笔记(6)——AI大模型开发工程师

PDF文档操作读取文档表格操作github开源代码实现:项目地址:https://github.com/shouwangyw/AIGC/tree/main/Code/005/ai-translator-helper

2024-11-23 21:40:11 852 1

原创 AI大模型开发架构设计(19)——大模型向量数据库企业级应用实践

关系型数据库:MySQL结构化数据精确匹配非关系型数据库:NoSQL非结构化数据精确匹配那么,什么是向量数据库?——非结构化数据模糊匹配向量数据库是一种以向量嵌入(高维向量)方式存储和管理费结构化数据的数据库。数据如何向量化表达?

2024-11-23 21:35:13 1843

原创 AIGC学习笔记(5)——AI大模型开发工程师

创建包含JSON对象的列表# 指定保存文件的路径# 将JSON数据写入本地文件file_path = 'result.json' # 创建包含JSON对象的列表 json_data = [ {

2024-11-13 21:39:34 1618

原创 AI大模型开发架构设计(18)——基于大模型构建企业知识库案例实战

高质量的知识语料清晰且语义化的数据结构合理的 Embedding Model 选型以及参数 chunkSize, chunkOverlap 合理设置大小使用工程技术优化上下文问题优化用户输入,提升召回精度。

2024-11-13 21:33:13 1260

原创 AIGC学习笔记(4)——AI大模型开发工程师

1、Completion API和Chat Completion API2、Chat Completion API详细参数3、Function Calling 函数调用4、ChatGPT Plugin实践

2024-10-31 09:43:44 1257

原创 AI大模型开发架构设计(17)——程序员 LLM 大模型技能篇

用向量数据库/知识库改进大模型。构建私人智能助手整体架构设计。

2024-10-31 09:39:10 923

原创 AIGC学习笔记(3)——AI大模型开发工程师

OpenAI账户注册OpenAI GPT费用计算OpenAI Key获取与配置OpenAI 大模型总览WildCard申请虚拟账户

2024-10-28 08:35:12 1207

原创 AIGC学习笔记(2)——AI大模型开发工程师

AI大模型应用开发基础Transformer网络架构OpenAI GPT

2024-10-28 08:29:49 895

原创 AI大模型开发架构设计(16)——ChatGPT Code Interpreter应用场景和技术原理动手实践

Code Interpreter 应用场景解析Code Interpreter 技术架构深度剖析基于 LangChain 实现一个 Code Interpreter

2024-10-26 10:38:32 1414

原创 AI大模型开发架构设计(15)——从原理到实现教你做出一个ChatGPT

GPT技术演进剖析如何训练一个ChatGPTChatGPT在线工程架构设计与实现

2024-10-26 10:34:32 844

原创 AI大模型开发架构设计(14)——基于LangChain大模型的案例架构实战

LangChain 顶层架构设计以及关键技术剖析基于 LangChain 的 LLM 应用架构揭秘

2024-10-20 13:33:32 1731

原创 AI大模型开发架构设计(13)——LLM大模型的向量数据库应用实战

大模型的局限性向量数据库使用场景以及改建大模型向量数据库应用技术架构剖析利用向量检索构建知识库案例

2024-10-20 13:28:03 1644

原创 AI大模型开发架构设计(12)——以真实场景案例驱动深度剖析 AIGC 新时代 IT 人的能力模型

还可以辅助做哪些工作?

2024-10-13 20:44:43 890

原创 AI大模型开发架构设计(11)——AI 大模型与提示词工程助力职场典型案例场景实战

AI大模型全局架构实战剖析Prompt Engineering 整体应用场景剖析提示词工程不能淘汰程序员的7个原因

2024-10-13 20:36:20 985

原创 AI大模型开发架构设计(10)——AI大模型架构体系与典型应用场景

AI大模型架构体系你了解多少?大模型的典型应用场景有哪些?

2024-02-07 20:36:40 2775 3

原创 AI大模型开发架构设计(9)——AI 编程架构刨析和业务应用实战案例

从机器语言到人类语言,越来越 简单化、智能化、降本增效、提质

2024-02-07 20:32:35 2440

原创 AI大模型开发架构设计(8)——从 AI 编程助手到 AI Agent 应用实战

Python 是不是构建 AI Agents 的最好语言?Code Review Bot 无状态设计 & 运行部署。设计 Lightweight AI Agents。当人类询问是否会下雨时?降低 LLM 幻觉的方法。

2024-02-02 08:10:00 1536

原创 AI大模型开发架构设计(7)——人人都需要掌握的AI编程及应用案例实战

从机器语言到人类语言,越来越 简单化、智能化、降本增效、提质。

2024-02-02 08:07:19 2088

scala 2.13.8 安装包。。。。。。。。

scala 2.13.8 安装包。。。。。。。。

2022-07-30

当天客户端日志数据压缩包

当天客户端日志数据压缩包

2022-06-26

歌曲热度与歌手热度-数据仓库模型

歌曲热度与歌手热度-数据仓库模型

2022-06-21

azkaban-4.0.0编译安装包.zip

包含如下内容: azkaban-web-server-0.1.0-SNAPSHOT.tar.gz:Azkaban Web服务安装包 azkaban-exec-server-0.1.0-SNAPSHOT.tar.gz:Azkaban 执行服务安装包 azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz:Azkaban 单机安装包 create-all-sql-0.1.0-SNAPSHOT.sql:编译之后的sql脚本 execute-as-user.c:C程序文件脚本

2022-01-04

省市区字典表数据初始化

省市区字典表数据初始化

2022-01-26

Hive中文件存储格式对比实验测试数据

Hive中文件存储格式对比实验测试数据

2021-12-08

hive_big_table.tar.gz

hive_big_table.tar.gz

2021-12-08

big_data small_data.tar.gz

big_data small_data.tar.gz

2021-12-08

hive_have_null_id.tar.gz

hive_have_null_id.tar.gz

2021-12-08

Java坦克大战1.0版源代码

java坦克大战1.0版源代码,java坦克大战1.0版源代码,java坦克大战1.0版源代码

2014-12-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除