- 博客(40)
- 资源 (2)
- 收藏
- 关注
原创 JSON介绍
:JSON 标准不允许添加注释(这点和代码不同!:一种数据格式,不能直接执行。:可以包含函数、变量等。把 JSON 想象成一个。
2025-04-04 16:10:38
669
原创 python大数据相关职位,还需要学习java哪些知识
掌握以上 Java 知识后,你不仅能深入理解大数据框架的底层逻辑,还能在性能优化和复杂系统开发中游刃有余。
2025-04-03 19:01:36
875
原创 从零掌握ETL与数据管道:Airflow、Luigi工具链与Delta Lake数据建模实践
ETL(Extract-Transform-Load)是数据处理的经典流程:示例:从MySQL数据库抽取用户订单数据,计算每个用户的总消费金额,最终加载到数据仓库的表中。 2. Luigi 核心功能:轻量级管道构建,强调依赖解析和任务原子性。 核心概念: Task:每个任务必须实现和方法。 Target:任务输出(如本地文件、数据库表)。 优势:适合小规模管道、代码简洁、依赖自动解析。 Python示例: 3. Airflow vs L
2025-04-02 17:10:30
1095
原创 零基础讲解pandas
(类似 Excel 表格)。它的名字来源于 "Panel Data"(面板数据)。类似一维数组或列表,但每个元素有一个索引(默认从0开始)。类似 Excel 表格或 SQL 表,由行和列组成。Pandas 是 Python 中一个强大的。假设有一个 CSV 文件。
2025-04-01 18:14:36
391
原创 使用numpy时对nan的处理
通过上述方法,可以高效处理NumPy中的。在NumPy中,可以通过以下方式生成。)替代循环,尤其是在处理大型数组时。值,确保数据分析和计算的准确性。大多数NumPy统计函数(如。
2025-04-01 18:00:52
418
原创 第二章:NumPy进阶与数据处理
数组合并与分割2.2 广播机制广播规则当数组形状不同时,NumPy会自动进行广播:2.3 高级索引布尔索引花式索引2.4 通用函数(ufunc)常用数学函数向量化操作2.5 数据处理技巧处理缺失值统计计算2.6 输入输出二进制文件文本文件2.7 性能优化视图 vs 拷贝向量化优于循环2.8 实际应用示例数据标准化随机漫步模拟关
2025-03-31 18:11:59
577
原创 第一章:NumPy基础入门
NumPy(Numerical Python)是Python科学计算的基础库,提供高性能的多维数组对象ndarray,以及用于数组操作的各类工具。它是Pandas、SciPy、Matplotlib等数据科学库的基础。
2025-03-31 18:09:39
629
原创 找python大数据就业,我应该学习Java哪些知识
大数据工具(如 Spark Executor、Flink TaskManager)依赖多线程和并发模型:许多大数据工具(如 Spark、Kafka)用 Scala 编写,建议掌握:掌握这些内容后,你不仅能应对大数据工具底层的 Java 需求,还能在性能优化和源码级调试中游刃有余,同时保持以 Python 为核心竞争力的路线。
2025-03-29 10:17:08
952
原创 Java/Scala是什么
Java 是工业界的“老将”,Scala 是兼具优雅与力量的“新锐”。根据项目需求和个人偏好选择,或结合两者优势构建高效系统。
2025-03-29 10:13:38
845
原创 Flink/Kafka在python中的用处
Kafka:用于可靠地传输和缓冲实时数据。Flink:用于复杂流处理(窗口、聚合、状态管理)。Python:通过和PyFlink实现轻量级集成。如果你需要处理大规模实时数据流,且希望用 Python 快速开发,Kafka + Flink 是一个强大的组合!
2025-03-28 18:18:02
904
原创 Spark 在 Python 大数据中的作用
Spark是一个 快速处理海量数据的工具,用 Python 写代码就能轻松分析 TB 级的数据(比如日志、用户行为、交易记录等),比传统单机工具(如 Excel、Pandas)快几十倍甚至几百倍!Spark 适合:数据量太大(GB 到 PB 级)、需要快速处理、实时分析、机器学习。Python(PySpark)优势:语法简单,生态丰富,适合数据分析师入门大数据。下一步行动:装好 PySpark,用一个小数据集(如 CSV)试试groupBy()和filter()!
2025-03-27 16:45:36
1187
原创 Hadoop/Spark 生态
Hadoop/Spark 生态是,专为解决海量数据的存储、计算和分析问题而设计。以下从底层原理到核心组件详细讲解,帮助你快速建立知识框架!
2025-03-26 18:32:23
852
原创 Git 是什么
假设你在电脑上写一篇作文,反复修改了好几次。突然发现 想回到之前的某版,但你已经覆盖保存了。⬇️:帮你 (比如每次保存作文),之后可以随时“穿越”回任意版本!
2025-03-25 18:33:03
846
原创 NumPy 全面详解:Python 科学计算的基石
(Numerical Python)是 Python 最核心的科学计算库,专为处理多维数组设计。魔法命令比较不同方法的性能差异,加深对NumPy优势的理解。建议结合Jupyter Notebook进行实践,通过。
2025-03-24 18:38:01
687
原创 python中的字符串
基础重点:掌握索引/切片、常用方法、三种格式化方式进阶技巧使用f-string进行复杂格式化正则表达式处理复杂文本模式用join()代替+进行大量拼接注意点字符串不可变性(每次操作生成新对象)处理中文时注意编码问题了解字符串驻留机制(小字符串自动复用)从文本中提取所有电话号码格式化输出表格数据清洗包含特殊字符的文本数据。
2025-03-20 17:44:11
264
原创 在python里顺序表和单链表实现栈
两种实现均能正确表现栈的 LIFO 特性,可根据实际需求选择具体实现。:使用动态数组实现,尾部操作时间复杂度 O(1):使用链表节点,头插法保证 O(1) 时间复杂度。:每个节点需要额外指针空间,访问非栈顶元素效率低。:列表动态扩容时会有短暂性能开销。:实现简单,内存连续访问效率高。:无需处理动态扩容,内存灵活。
2025-03-19 18:13:04
282
原创 Python零基础入门:手把手教你用顺序表实现栈结构
栈(Stack)是一种后进先出(LIFO)的线性数据结构,就像餐厅里叠放的盘子,最后放上去的盘子总是被最先拿走。入栈(Push):将元素添加到栈顶出栈(Pop):移除并返回栈顶元素栈的后进先出特性顺序栈的时间复杂度优势Python列表的天然适配性。
2025-03-18 19:10:14
93
原创 适合零基础学习python单链表
比喻:每个车厢有自己的座位号(数据),但不知道下一节车厢在哪里(指针初始为None)比喻:新乘客上车时,从火车头开始找最后一节车厢,然后坐进去。比喻:链表类就像火车调度员,负责管理所有车厢的连接关系。比喻:乘客上车后,删除了香蕉,最后打印出剩余的乘客名单。比喻:新乘客上车时,直接坐到火车头后面。:存储数据和指向下一个节点的指针。:管理所有节点,处理增删改查操作。:在最后一节车厢后面加一节。:在火车头后面加一节车厢。
2025-03-17 16:52:05
509
原创 Pygame从入门到精通:游戏开发实战指南
跨平台支持(Windows/macOS/Linux)2D图形渲染与动画支持键盘/鼠标/游戏手柄输入处理音频播放与混音功能碰撞检测与物理模拟基础。
2025-03-17 09:09:17
334
原创 零基础Python网络爬虫入门教程(含实例代码)
复制文中代码到PyCharm/VSCode运行(需替换实际URL),建议从豆瓣等对爬虫友好的网站开始练习。后续可尝试抓取商品价格、天气数据等实用场景。
2025-03-16 11:19:44
655
原创 Python pygame零基础教程:30行代码实现经典贪吃蛇小游戏
A: 调整WIDTH和HEIGHT常量值,建议保持CELL_SIZE的整数倍。A: 添加空格键事件处理,设置pause标志控制游戏更新。的参数设置,数值越小速度越慢。Q: 为什么蛇会突然加速?Q: 如何修改窗口大小?Q: 如何实现暂停功能?
2025-03-16 10:43:02
752
原创 Python常用的库讲解(易懂版)
每个库都有独特的功能和用途,可根据需要选择合适的库来完成相应的任务。:用于科学计算的基础库,提供多维数组对象、各种派生对象和对数组执行操作的工具。:机器学习库,提供了多种机器学习算法和工具,用于训练和预测数据模型。:用于复杂网络分析的库,提供了创建、操作和研究复杂网络结构的工具。:用于解析HTML和XML文档的库,可用于网页内容提取。:用于发送HTTP请求的库,可用于与Web服务进行交互。:Web应用框架,提供了完整的Web开发框架和工具。:深度学习库,提供了灵活的深度学习工具和计算图框架。
2025-03-16 10:27:18
607
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人