创作者mateo-优快云博客

原创 python进阶之文件处理

本文全面介绍了Python文件操作与路径处理的进阶技巧。在文件操作方面，深入讲解了上下文管理器的高级用法、大文件处理策略（逐行读取/分块处理/生成器）以及文件权限管理。在路径处理方面，对比分析了传统os.path模块与现代pathlib库的使用方法，涵盖路径拼接、拆解、判断和转换等核心功能。文章通过大量代码示例展示了如何高效安全地处理各类文件操作场景，特别针对跨平台开发和大文件处理提供了实用解决方案，帮助开发者掌握Python文件系统操作的关键技能。

2025-12-22 17:08:34 582

原创 python基础之Python类和对象

Python面向对象编程核心摘要 Python支持面向对象编程，通过类和对象组织代码。类作为模板定义属性和方法，对象是类的具体实例。封装通过私有属性(前缀)和公开方法保护数据安全。继承实现代码复用，子类可继承父类特性并扩展新功能，支持单继承和多继承。关键概念包括：类与对象关系、self参数、构造方法__init、类/实例属性、getter/setter方法、super()调用父类等。面向对象三大特性（封装、继承、多态）提高了代码的可维护性和扩展性。

2025-12-19 11:08:08 690

原创 python基础之python模块和包

Python中的模块，本质上是一个以.py为后缀的Python文件（也包含一些内置的C扩展模块或其他语言实现的模块）。这个文件中可以包含Python的变量、函数、类、以及可执行代码等。模块的核心作用是代码复用：当我们编写了一段通用功能（比如数据处理、日志打印），可以将其封装成一个模块，在其他项目或脚本中直接导入使用，无需重复编写。同时，模块也能让代码结构更清晰，便于管理和维护。创建自定义模块非常简单，只需新建一个.py文件，在文件中编写相关的代码即可。

2025-12-19 09:13:04 612

原创 python进阶之numpy学习

NumPy数组创建与操作摘要：数组创建：使用np.array()从列表/元组创建ndarray对象，支持0-D标量到3-D多维数组维度操作：通过ndim属性获取维度数，reshape()改变数组形状索引访问：支持正负索引，多维数组使用逗号分隔访问（如arr[0,1]）数据类型：dtype属性查看类型，创建时可指定类型（如'i4'表示4字节整数）副本与视图：copy()创建独立副本，view()创建关联视图特殊数组：zeros()/ones()创建全0/1数组，eye()创建单位矩阵，random

2025-12-18 08:02:59 1077

原创 python基础学习之Python 循环及函数

python循环和函数讲解

2025-12-17 11:00:22 428

原创 python基础学习之Python 集合（数组）

python变量和Python 集合（数组）整理

2025-12-16 16:37:04 998

原创机器学习--处理数值型数据（二）

摘要本文介绍了异常值的识别与处理方法。异常值是指显著偏离数据分布的极端值，可能是噪声或真实极端情况。常见识别方法包括：3σ原则（正态分布）、箱线图法（不依赖分布）、聚类法和孤立森林（高维数据）。处理方式需结合异常值成因和占比，包括删除、修正、替换（如中位数）、标记或分箱。案例演示了电商用户消费数据的异常值分析，使用3σ原则、箱线图法和椭圆包络法识别异常，并区分噪声异常值（删除）和真实极端值（标记为VIP并用中位数替换）。强调异常值处理需平衡信息保留与模型鲁棒性，没有绝对准则，需根据具体情况判断。

2025-12-01 17:27:25 784

原创机器学习--处理数值型数据（一）

摘要本文系统介绍了机器学习中数值型数据预处理的关键方法，包括特征缩放、标准化、归一化、多项式特征生成和特征转换。特征缩放通过Min-Max归一化等方法消除量纲差异；标准化使特征符合正态分布；归一化处理样本内部特征关系；多项式特征增强模型非线性拟合能力；特征转换则通过对数变换等方法优化数据分布。这些预处理步骤能显著提升模型训练效果，需根据数据类型、分布特点和算法需求选择合适方法。文中还提供了Python代码示例，展示了scikit-learn库中相关函数的实际应用。

2025-11-27 16:29:57 797

原创 mapreduce简单案例----求共同关注的粉丝

目的：第一阶段的目的是统计每个用户的关注列表，并整合为键值对。第二阶段的目的是计算每两位用户之间的共同关注好友，并整合为键值对。数据类型变化：在第一阶段，键值对的变化是从用户和关注列表到好友和拥有该好友的用户列表字符串。在第二阶段，键值对的变化是从好友和拥有该好友的用户列表字符串到用户组合和共同关注好友列表。这样的设计和变化使得整个 MapReduce 过程在不同阶段能够有效地处理数据，从而实现了共同好友查找系统的功能。数据集：张三:谢霆锋,陈奕迅,邓昊天,风清扬,伊森,奥布莱恩。

2024-01-11 14:44:59 1290 1

原创 Spark MLlib ----- ALS算法

在谈ALS（Alternating Least Squares）之前首先来谈谈LS，即最小二乘法。LS算法是ALS的基础，是一种数优化技术，也是一种常用的机器学习算法，他通过最小化误差平方和寻找数据的最佳匹配，利用最小二乘法寻找最优的未知数据，保证求的数据与已知的数据误差最小。LS也被用于拟合曲线，比如所熟悉的线性模型。下面以简单的线性一元线性回归模型说明最小二乘法。假设我们有一组数据{(x1,y1),(x2,y2),(x3,y3)…}其符合线性回归，假设其符合的函数为如下：y = w+ wx。

2024-01-08 17:49:57 2774

原创我的创作纪念日

提示：你过去写得最好的一段代码是什么？提示：当前创作和你的工作、学习是什么样的关系。提示：职业规划、创作规划等。

2023-11-28 15:55:34 343 1

原创 spark学习一-------------------Spark算子最详细介绍

简介map算子：map算子是将rdd中的数据一条一条传递给后面的函数，将函数的返回值构建成一个新的rdd。map算子是不会生成shuffle。后面的分区数等于map算子的分区数。//saprk代码的入口/*** 构建rdd的方法* 1.读取文件* 2.基于scala的集合构建rdd ---- 用于测试*//*** map算子* 将rdd中的数据一条一条传递给后面的函数，将函数的返回值构建成一个新的rdd* map 不会产生shuffle，map之后的分区数等于map之前rdd的分区数。

2023-11-28 09:48:55 726

原创线性回归模型（7大模型）

先从一个简单的问题开始：如何用一个线性函数来拟合一个二维数据集？假设我们有一个二维数据集，其中每个样本都由一个x和一个y组成。我们可以用一个线性函数 y = ax + b 来拟合这个数据集，其中a和b是待定的系数。我们的目标是找到最佳的a和b，使得这个线性函数能够尽可能地拟合这个数据集。这就是线性回归的基本思想：通过拟合一个线性函数来预测一个连续型的输出变量。这是一个非常简单的案例。

2023-04-26 11:12:38 21369

原创 sqoop的安装使用

sqoop安装教程

2023-02-22 22:42:37 320

原创使用OGG实现Oracle到kafka数据同步（详细版本）

使用OGG实现Oracle到kafka数据同步

2023-01-04 14:38:31 2834 3

原创国网云（华为组件）使用

华为云大数据组件的基本使用介绍，很详细

2022-11-25 16:15:22 3090 3

原创华为云各项指标介绍

大数据开发--华为云产品的基本介绍

2022-11-16 09:31:19 1274

原创 Python 基础教学（九）-----函数有这个就够了

函数介绍

2022-10-19 16:35:29 234

原创 python基础（五）----时间模块

详细介绍时间模块，这个用途蛮大的

2022-10-19 14:32:46 800

原创 Python基础（四）----字典与集合

python的字典和集合的介绍

2022-10-12 15:39:34 570

原创 python基础（三）-----序列、列表与元组

序列、列表与元组的介绍

2022-10-10 16:24:22 696

原创 python基础（二）--数字和字符串

介绍了数值型数据类型以及简单计算、字符型数据类型

2022-10-09 10:39:10 1441 3

原创 python基础知识一

这里介绍一些python的基础知识，比如标识符、基本语句等

2022-10-09 09:28:24 2650 1

原创 Maven安装

如上图，点击Installations，在右侧点击add添加Maven_home替换掉eclipse自身的，同时点击User Settings添加maven的配置文件settings.xml。这个时候重启eclipse，然后点击windows-->Preferences-->Maven这个时候就说明安装成功。如果你采用2这种方式的话，一定要写“\\”，不然eclipse无法正确识别你填写的路径，推荐使用1。在系统环境变量中配置MAVEN_HOME,同时将%MAVEN_HOME%\bin加入的path中。

2022-09-08 15:05:42 323 1

原创 5个python小游戏，python学习放松

做几个小游戏来放松写代码的枯燥

2022-09-08 10:03:32 7100 1

原创 Python实现【实时】显示处理进度的6种形式

python进度条实现

2022-09-08 09:59:15 2405

原创大数据运维工作（Linux，OGG，链路监控，Hadoop运维等）

大数据运维工作，主要介绍：Linux运维，Hadoop运维，ogg运维，链路监控运维等

2022-09-06 16:30:18 1911

原创 OGG基本框架、安装、运维、报错处理、监控命令

● Extract● Data pump● Trails● Collector● Replicat● Manager利用抽取进程(Extract Process)在源端数据库中读取Online Redo Log或者Archive Log，然后进行解析，只提取其中数据的变化信息，比如DML操作——增、删、改操作，将抽取的信息转换为GoldenGate自定义的中间格式存放在队列文件(trail file)中。再利用传输进程将队列文件(trail file)通过TCP/IP传送到目标系统。目标端有一个

2022-07-06 10:40:38 1998 2

原创 ogg的安装以及mysql到mysql的同步处理

这里根据官方文档进行安装。这里不做讲解。有两种方式安装ogg：选择自己对应的系统，因为我这里是linux系统，所以我选择下载第一个。这里直接给出下载地址点击即可下载环境介绍，为了节省资源OGG我选择和原库安装在了同一台服务器安装之前，介绍一下ogg的目录用途说明：介绍完成以后，我们首先来配置源库和目标库OGG19C可以使用基于日志的DDL复制，要求添binlog_row_metadata为full模式才可以实现目标库配置主备数据库创建同步用户并附权1.3 OGG配置在19C的OGG中ogg可

2022-07-04 08:37:40 1833 1

原创 Oracle GoldenGate（OGG）到入土

Oracle GoldenGate（ogg）的基本介绍、安装与使用

2022-06-26 11:00:28 604

原创 Flume的安装及使用

Flume的安装及使用文章目录Flume的安装及使用Flume的安装1、上传至虚拟机，并解压2、重命名目录，并配置环境变量3、查看flume版本4、测试flume5、flume的使用Flume的安装1、上传至虚拟机，并解压tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /usr/local/soft/在环境变量中增加如下命令，可以使用 soft 快速切换到 /usr/local/softalias soft=‘cd /usr/local/soft/’

2022-04-10 10:47:21 428 1

原创 DataX的安装及使用

datax的安装以及使用

2022-04-09 09:37:10 342

原创 scala方法

scala方法学习

2022-03-26 14:34:53 618

原创 scala基础

scala基础结束

2022-03-26 14:32:47 1564

原创 spark学习-----Spark 算子

学习之前先介绍一下什么是sparkSpark 是基于内存计算的大数据并行计算框架，因为它基于内存计算，所以提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark 部署在大量廉价硬件之上，形成集群。RDD介绍RDD概念RDD(Resilient Distributed Dataset) 弹性分布式数据集，是 Spark 中最基本的数据对象，它代表一个不可变，可区，里面的元素可并行计算的集合。这里虽然是集合但是里面却没有数据。特点自动容错性.

2022-03-25 10:04:37 2314

原创 Kafka第二天笔记

Kafka中的分区副本机制、消费组Consumer Group Rebalance机制、消费者的分区分配策略、副本的ACK机制kafka的原理：leader和follower

2022-03-25 09:57:41 288

原创 Kafka第一天笔记

kafka的基本介绍

2022-03-25 09:53:43 255

原创 flink学习

flink的历史介绍，flink安装以及算子介绍

2022-03-21 19:54:06 2485

原创 spark学习----SparkContext理解、资源调度及源码分析

SparkContext详细理解

2022-03-16 15:07:45 828

原创 HBase学习-----javaAPI详细教程

HBase的javaAPI详细教学，步骤讲解特别清晰

2022-03-02 20:51:02 3470

留守儿童数据集，可视化分析，hive离线分析

留守儿童数据集，python可视化分析，hive离线分析。 hadoop+hive+mapreduce+spark分析

2024-01-08

基于spark的咖啡数据分析

基于spark的咖啡数据分析，使用sparkrdd对销售咖啡数据分析，并对其进行可视化处理。框架：idea+hadoop+spark+python 包括源码和文档，学习的利器

2024-01-08

区块链论文以及研究成果

面向空间数据的区块链存储机制设计与实现_付炬面向空间数据的区块链存储机制设计与实现：空间数据存储结构：空间数据可能涉及地理坐标等信息，因此需要设计合适的存储结构。可以考虑使用多维索引或区域树等数据结构来组织空间数据。智能合约：利用智能合约实现空间数据的验证和访问控制。确保只有授权用户可以访问特定的空间数据，同时通过智能合约实现数据的不可篡改性。去中心化存储：考虑使用去中心化存储技术，将空间数据分散存储在网络中的多个节点上，提高数据的可用性和抗攻击性。数据加密：对敏感的空间数据进行加密处理，确保数据的安全性。只有授权用户能够解密和访问相关的空间信息。分布式共识算法：选择适当的共识算法，确保网络中的节点对于空间数据的修改达成一致，保障数据的一致性和可信度。毕业论文_基于区块链的电子病历系统设计与实现v7 基于区块链的电子病历系统设计与实现：数据隐私和安全：通过区块链的去中心化和加密特性来确保电子病历的隐私和安全。使用权限控制和智能合约来管理数据的访问。不可篡改性：利用区块链的不可篡改性确保病历数据的真实性。一旦数据被记录到区块链上，就不可修改，防止

2024-01-08

新闻、健身实时数据基于spark+kafka+flume+echarts可视化+hadoop

新闻、健身实时数据,基于spark+kafka+flume+echarts可视化+hadoop的项目。有文档有教程。

2024-01-08

旅游自助系统。分为Android APP和Web管理系统JAVA旅游自助系统，是一套开源的项目，系统具有完整的源代码和数据库，

旅游自助系统系统拟实现主要包含前台和后台两个模块 * 前台功能拟实现(安卓应用)： * 管理员后台拟实现(WEB应用) 1、开发环境为MyEclipse 10，数据库为MYSQL，使用java语言开发 2、启动时候需要先启动app服务端，然后才能调到数据，App可以用Eclipse或者AS运行

2022-08-29

博客系统：web前端+管理后台+java源码

Mblog 开源Java博客系统, 支持多用户, 支持切换主题配置：src/main/resources/application-mysql.yml (数据库账号密码)、新建db_mblog的数据库运行：src/main/java/com/mtons/mblog/BootApplication 访问：http://localhost:8080/ 后台：http://localhost:8080/admin 账号：默认管理员账号为 admin/12345 TIPS: 如遇到启动失败/切换环境变量后启动失败的,请先maven clean后再尝试启动 IDE得装lombok插件

2022-08-29

TA关注的人

留守儿童数据集，可视化分析，hive离线分析

基于spark的咖啡数据分析

区块链论文以及研究成果

新闻、健身实时数据 基于spark+kafka+flume+echarts可视化+hadoop

旅游自助系统。分为Android APP和Web管理系统JAVA旅游自助系统， 是一套开源的项目，系统具有完整的源代码和数据库，

博客系统：web前端+管理后台+java源码

java数据结构课程设计报告.zip

hive的函数大全.rar

python实现各种小game.zip

各类html模版，网站模板.zip

pyton爬虫各种学习代码.zip

人工智能项目，肯定有你想要的.zip

ogg数据不同步的问题

新闻、健身实时数据基于spark+kafka+flume+echarts可视化+hadoop

旅游自助系统。分为Android APP和Web管理系统JAVA旅游自助系统，是一套开源的项目，系统具有完整的源代码和数据库，