自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 Python中的方法解析顺序(MRO)与super()函数详解

Python的方法解析顺序(MRO)和super()函数是处理继承关系的重要机制。MRO通过C3算法确保了方法查找的顺序性和一致性,而super()函数则提供了一种协作式的方法调用方式,使得多重继承更加可控和可预测。理解这些概念对于编写健壮、可维护的面向对象Python代码至关重要。在实际开发中,应该合理设计类层次结构,避免过度复杂的继承关系,并在需要时充分利用MRO和super()的特性来实现代码的复用和扩展。

2025-11-25 20:36:33 724

原创 解锁Python的强大能力:深入理解描述符

装饰器让方法像属性一样被访问,这优雅的背后,正是描述符在默默支撑。描述符是Python高级编程中一项核心技巧,它赋予了开发者精细化控制属性访问的能力,是构建强大、灵活且安全的代码基石的利器。方法自动获取描述符在类中被赋予的属性名,这解决了上面例子中需要手动传递名字的问题。它不是一个独立的物体,而是“依附”于另一个类的属性,并控制着对这个属性的访问。占领了,那么即使你在实例中给这个属性赋值,也只会触发描述符的。在Python的世界里,你可能已经在不知不觉中使用了描述符。这保证了描述符对属性访问的绝对控制权。

2025-11-25 20:36:15 1115

原创 一次实时采集任务延迟问题的完整复盘(Flink CDC)

摘要: 本文分析了 Flink CDC 实时采集任务中出现的延迟异常、内存报错及恢复缓慢的问题。排查发现,Flink 资源空闲但延迟未快速下降,根本原因在于 MySQL 主库推送历史 Binlog 时存在协议和物理瓶颈(磁盘IO、协议封装、网络传输)。Flink CDC 作为“从库”无法加速处理,只能被动等待主库推送数据。因此,延迟恢复慢是 MySQL 协议限制的正常现象,而非 Flink 性能问题。建议优化 MySQL 磁盘性能、减少 Binlog 堆积或采用并行 CDC 提升恢复效率。最终任务在等待主库

2025-11-05 16:55:12 896

原创 深入理解 Python 闭包:从基础到高级应用

本文深入讲解了Python闭包的原理与应用。闭包是指内部函数引用外部变量并在外部函数返回后仍能访问这些变量的特性,包含嵌套函数、变量引用和返回函数三要素。文章通过示例演示了闭包的基本使用、内部机制(__closure__属性)和常见陷阱(如循环中的延迟绑定问题)。闭包广泛应用于装饰器、配置函数、数据封装和回调函数等场景。虽然闭包能实现状态持久化和代码复用,但也可能带来内存占用问题。理解闭包的关键在于掌握其保存变量引用的特性,这是Python许多高级功能的基础。

2025-11-04 17:08:50 581

原创 AI基础设施的临界点:算力、资本与政策的三重博弈

中国为推动本土 AI 芯片及基础设施发展,向大型数据中心提供“削减高达 50% 电费”的补贴。OpenAI 与 Amazon Web Services(AWS)签署十数 十 亿美元级别合作协议,后者将为前者提供成千上万的 GPU 群集,用于训练/运行高级 AI 模型。Palantir Technologies(数据分析/AI 平台公司)公布财报显示,其 AI/数据分析业务同比大幅增长,提升了全年指引。

2025-11-04 10:43:50 361

原创 Doris快速入门-查询

文章摘要:Doris高效查询解析 Apache Doris是一款高性能OLAP分析数据库,采用MPP架构实现分布式并行查询。其查询引擎通过SQL解析优化、代价优化器生成高效执行计划,结合向量化引擎和SIMD指令加速计算。Doris支持标准SQL语法,并特有Bitmap去重、Array数组和JSON处理能力,适用于复杂分析场景。性能优化核心在于合理设计数据分布(分桶键选择)、分区裁剪和索引机制,通过分片并行和负载均衡实现毫秒级响应,满足PB级数据的交互式分析需求。

2025-11-03 21:14:16 458

原创 产业深处:从 裁员潮 到 机器人升级——AI 正在重塑企业运作

但在背后,企业组织架构、运作方式、人才需求,正在经历深刻调整。“Project Eluna”是一个具备一定“代理人”能力(agentic AI)的系统,可辅助运营人员进行资源调度、瓶颈识别、调整建议。机器人/AI更多是“协作”角色,解放人类做更高价值工作。基础设施投资:不仅软件,硬件、机器人、感知系统、数据架构都在被重塑。这种现象揭示了一个趋势:企业在相信 AI 不仅能做“新业务”,也能替代传统重复性决策或协作流程。伦理与社会影响:效率提升是好,但如果忽视就业、员工福祉、工作环境变化,可能引发社会反弹。

2025-10-30 20:43:37 403

原创 当 AI 遇上新监管时代:社会、媒体与权力的博弈

随着 AI 技术的迅猛发展,监管与社会关注的声浪也在同步升级。近期,媒体行业代表组织 News/Media Alliance 公开呼吁对 AI 发展建立新的规制框架,标志着一个从“技术探索”走向“制度治理”的关键转折点。AI 从“研究实验室”的边缘技术,快速迈入日常生活和商业运营,从语言生成、图像模型、到决策支持系统,无所不在。公众需提升 AI 素养:理解 AI 生成内容的可能偏差、不确定性,养成“验证来源”的习惯。总之,AI 技术的下一个十年,可能不是“谁最快”,而是“谁跑得更稳、更值得信任”。

2025-10-30 20:42:43 259

原创 实践:使用 MCP 快速开发一个实时天气查询工具

NWS(美国国家气象局)API 请求try:# 高德天气 API 请求try:装饰器方法本体注释文档(Docstring)

2025-10-29 23:06:31 995

原创 数据Agent之——MCP:大模型的“手和脚”

MCP(Model Context Protocol)是2024年提出的标准化协议,旨在解决不同AI模型调用外部工具时的兼容性问题。它采用客户端-服务器架构,通过统一标准使AI能安全访问各类工具和数据源,避免为不同模型重复开发适配代码。开发者可使用Python等语言创建MCP服务器,将现有API或新工具标准化接入。协议包含工具声明、动态适配和按需调用三个核心流程,并得到OpenAI等主流厂商支持。社区已涌现众多开发框架和免费平台,建议从简单工具入手逐步掌握。MCP有效解决了AI生态中的"N×M&q

2025-10-29 10:58:49 542

原创 数据Agent之——Milvus向量数据库基础介绍

传统数据库存的是结构化数据(数字、字符串等),用于做「精确匹配」(比如:id=123)。向量数据库存的是高维向量(一长串浮点数),用于做「相似匹配」(比如:找“语义最相近”的内容)。你可能有一个疑问:对于文本搜索,我们不是可以通过 Elasticsearch 来实现吗?下面举个例子,可以体现二者在区分能力上的差异。假设你有一句话:“我今天心情很好。如果再输入一句话:“我很开心。这句话的向量可能非常接近上面的那一个,相当于不要求两者有相同的关键词,而是近义词即可 于是,向量数据库能帮你快速找出。

2025-10-27 21:45:42 1380

原创 ChatGPT Atlas——对传统搜索引擎的革命

OpenAI推出的ChatGPT Atlas是一款AI驱动的浏览器,将ChatGPT对话能力与浏览器功能深度融合。核心功能包括:实时侧边栏AI对话、代理模式执行网页操作、浏览历史记忆功能,以及多浏览器数据兼容导入。目前仅支持macOS平台,未来将扩展至Windows和移动端。该产品通过整合搜索、浏览与AI助手,显著提升内容创作、学习研究、购物决策等场景的效率,同时提供灵活的隐私控制设置。尽管在平台覆盖和代理模式成熟度上存在局限,Atlas仍代表了AI与浏览器融合的重要创新方向,对提升数字工作效率具有显著价值

2025-10-22 19:47:36 661

原创 实时同步中的核心组件-CDC

CDC(变更数据捕获)技术解析:MongoDB与MySQL实现对比 摘要:本文对比分析了MongoDB CDC和MySQL CDC两种实时数据同步技术。MongoDB CDC基于Change Streams机制,以文档为单位实现毫秒级同步;MySQL CDC则通过解析binlog实现行级精度变更捕获。两者均具备全量+增量同步能力,支持实时数据变更捕获,但对历史数据、删除操作的处理方式存在差异。文章通过配置示例和典型应用场景,展示了CDC技术在电商商品同步、订单业务等场景中的核心价值,并解答了关于性能影响、断

2025-10-18 16:49:39 894

原创 Transformer基础架构

本文全面解析了Transformer模型架构,从输入处理到预测输出的完整流程。文章详细介绍了位置编码的多种方法(包括Sinusoidal、可学习Embedding、Transformer-XL等)、Encoder和Decoder的计算机制、Attention原理及其优化技术(如多头注意力、线性注意力等)。同时分析了不同注意力变体的计算复杂度与特性,并总结了Transformer各核心模块的功能。通过系统性的架构拆解,帮助读者深入理解Transformer的工作原理及其在自然语言处理中的关键作用。

2025-10-18 16:22:30 754

原创 人工智能扫盲课-神经网络

常用的训练算法为反向传播算法。DNN 的基本原理与 ANN 相似,但由于隐藏层数增加,可对输入数据进行更深层次的特征提取与转换。训练过程中,通过损失函数(如交叉熵损失、均方误差)衡量网络输出与真实标签之间的差异,利用反向传播计算梯度,并使用梯度下降法更新权重,以逐步降低损失。ANN 的基本单元是神经元,每个神经元接收多个输入信号,进行加权求和,并通过激活函数将结果转换为输出。反向传播算法基于链式求导法则,其核心思想是将输出误差从输出层向输入层反向传播,以计算每个权重对总误差的贡献,进而更新权重。

2025-10-17 16:52:35 326

原创 人工智能扫盲课-名词释义

强化学习是一种机器学习范式,其灵感来源于人类和动物如何通过学习“什么行为会带来好结果”来做出决策。一个。

2025-10-16 20:17:00 343

原创 大模型推理框架 vLLM:原理、优化与演进

大模型推理与vLLM框架解析 本文系统阐述了大模型推理的基础知识、vLLM框架的核心技术及未来发展。首先介绍了大模型推理的定义、流程和Transformer架构特点,重点分析了自回归解码过程中的KV Cache复用机制。随后深入解析vLLM框架的PagedAttention技术,该技术借鉴操作系统内存管理思想,通过逻辑块地址空间和显存块映射,有效解决了显存浪费问题。最后探讨了vLLM的架构重构和社区生态发展,并推荐了相关学习资源。文章揭示了vLLM如何通过技术创新实现高效的大模型推理服务。

2025-10-16 19:56:49 1235

原创 Doris快速入门-建表

(如城市、分类)。这些枚举值通常与业务逻辑强相关,无法由系统自动预测或生成,因此在设计之初就没有提供进行自动化管理的方式。数据操作特性。

2025-10-11 14:43:36 1142

原创 Doris的基础架构

当我们了解Doris时,经常看到它被描述为“基于MPP架构的高性能实时分析型数据库”。要深入理解这一描述,首先需要明确什么是MPP架构。MPP是Massively Parallel Processing的缩写,即“大规模并行处理”。那么Doris是如何实现大规模并行处理的呢?要探究这个问题,就需要从Doris的架构组成入手。Doris的核心组件包括BE(Backend)和FE(Frontend),它们共同协作实现了分布式系统的并行处理能力。

2025-10-03 18:11:41 751

原创 Doris概述

大数据部门存在的价值就是对当前海量的数据进行处理,进而反应业务发展现状,进而指导对当前的决策进行适时的制定或者调整,进而为提升用户的体验,或者为业务发展提供支持。在海量的数据处理完成之后,如何更好的提升查询和展示的效果,这个时候往往需要借助一些OLAP工具来提升查询效率,Doris就是其中之一。​ Apache Doris 的崛起,体现了大数据技术从“复杂架构堆砌”向“极简高效”演进的趋势。它通过融合多项经典技术的优势,并以开源社区为驱动,成长为支撑企业关键业务的实时分析引擎。

2025-10-03 18:10:38 134

原创 git的使用总结(二)【代码版本回退】

备注:如何查看commit的版本,可以通过git log寻找需要切换版本使用id进行指定。2、在暂存区(git add之后包含git commit操作 push操作之前)1、在工作区(没有进行git add操作)

2024-09-21 11:55:38 315

原创 Python常用标准库logging

python logging的简单使用

2024-04-23 17:26:57 755 1

原创 Spark参数调节之-GC【降低OOM概率】

修改Spark使用的GC的方式,降低OOM

2024-04-08 19:42:03 571

原创 UDF函数自定义的两种情况

UDF两种定义方式适用的情况

2024-03-19 21:42:44 660 1

原创 git的使用总结(一)

使用git进行代码管理时常用的命令

2024-03-18 19:14:56 515 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除