- 博客(137)
- 资源 (6)
- 收藏
- 关注
原创 python进阶之文件处理
本文全面介绍了Python文件操作与路径处理的进阶技巧。在文件操作方面,深入讲解了上下文管理器的高级用法、大文件处理策略(逐行读取/分块处理/生成器)以及文件权限管理。在路径处理方面,对比分析了传统os.path模块与现代pathlib库的使用方法,涵盖路径拼接、拆解、判断和转换等核心功能。文章通过大量代码示例展示了如何高效安全地处理各类文件操作场景,特别针对跨平台开发和大文件处理提供了实用解决方案,帮助开发者掌握Python文件系统操作的关键技能。
2025-12-22 17:08:34
582
原创 python基础之Python类和对象
Python面向对象编程核心摘要 Python支持面向对象编程,通过类和对象组织代码。类作为模板定义属性和方法,对象是类的具体实例。封装通过私有属性(前缀)和公开方法保护数据安全。继承实现代码复用,子类可继承父类特性并扩展新功能,支持单继承和多继承。关键概念包括:类与对象关系、self参数、构造方法__init、类/实例属性、getter/setter方法、super()调用父类等。面向对象三大特性(封装、继承、多态)提高了代码的可维护性和扩展性。
2025-12-19 11:08:08
690
原创 python基础之python模块和包
Python中的模块,本质上是一个以.py为后缀的Python文件(也包含一些内置的C扩展模块或其他语言实现的模块)。这个文件中可以包含Python的变量、函数、类、以及可执行代码等。模块的核心作用是代码复用:当我们编写了一段通用功能(比如数据处理、日志打印),可以将其封装成一个模块,在其他项目或脚本中直接导入使用,无需重复编写。同时,模块也能让代码结构更清晰,便于管理和维护。创建自定义模块非常简单,只需新建一个.py文件,在文件中编写相关的代码即可。
2025-12-19 09:13:04
612
原创 python进阶之numpy学习
NumPy数组创建与操作摘要: 数组创建:使用np.array()从列表/元组创建ndarray对象,支持0-D标量到3-D多维数组 维度操作:通过ndim属性获取维度数,reshape()改变数组形状 索引访问:支持正负索引,多维数组使用逗号分隔访问(如arr[0,1]) 数据类型:dtype属性查看类型,创建时可指定类型(如'i4'表示4字节整数) 副本与视图:copy()创建独立副本,view()创建关联视图 特殊数组:zeros()/ones()创建全0/1数组,eye()创建单位矩阵,random
2025-12-18 08:02:59
1077
原创 机器学习--处理数值型数据(二)
摘要 本文介绍了异常值的识别与处理方法。异常值是指显著偏离数据分布的极端值,可能是噪声或真实极端情况。常见识别方法包括:3σ原则(正态分布)、箱线图法(不依赖分布)、聚类法和孤立森林(高维数据)。处理方式需结合异常值成因和占比,包括删除、修正、替换(如中位数)、标记或分箱。案例演示了电商用户消费数据的异常值分析,使用3σ原则、箱线图法和椭圆包络法识别异常,并区分噪声异常值(删除)和真实极端值(标记为VIP并用中位数替换)。强调异常值处理需平衡信息保留与模型鲁棒性,没有绝对准则,需根据具体情况判断。
2025-12-01 17:27:25
784
原创 机器学习--处理数值型数据(一)
摘要 本文系统介绍了机器学习中数值型数据预处理的关键方法,包括特征缩放、标准化、归一化、多项式特征生成和特征转换。特征缩放通过Min-Max归一化等方法消除量纲差异;标准化使特征符合正态分布;归一化处理样本内部特征关系;多项式特征增强模型非线性拟合能力;特征转换则通过对数变换等方法优化数据分布。这些预处理步骤能显著提升模型训练效果,需根据数据类型、分布特点和算法需求选择合适方法。文中还提供了Python代码示例,展示了scikit-learn库中相关函数的实际应用。
2025-11-27 16:29:57
797
原创 mapreduce简单案例----求共同关注的粉丝
目的:第一阶段的目的是统计每个用户的关注列表,并整合为键值对。第二阶段的目的是计算每两位用户之间的共同关注好友,并整合为键值对。数据类型变化:在第一阶段,键值对的变化是从用户和关注列表到好友和拥有该好友的用户列表字符串。在第二阶段,键值对的变化是从好友和拥有该好友的用户列表字符串到用户组合和共同关注好友列表。这样的设计和变化使得整个 MapReduce 过程在不同阶段能够有效地处理数据,从而实现了共同好友查找系统的功能。数据集:张三:谢霆锋,陈奕迅,邓昊天,风清扬,伊森,奥布莱恩。
2024-01-11 14:44:59
1290
1
原创 Spark MLlib ----- ALS算法
在谈ALS(Alternating Least Squares)之前首先来谈谈LS,即最小二乘法。LS算法是ALS的基础,是一种数优化技术,也是一种常用的机器学习算法,他通过最小化误差平方和寻找数据的最佳匹配,利用最小二乘法寻找最优的未知数据,保证求的数据与已知的数据误差最小。LS也被用于拟合曲线,比如所熟悉的线性模型。下面以简单的线性一元线性回归模型说明最小二乘法。假设我们有一组数据{(x1,y1),(x2,y2),(x3,y3)…}其符合线性回归,假设其符合的函数为如下:y = w+ wx。
2024-01-08 17:49:57
2774
原创 spark学习一-------------------Spark算子最详细介绍
简介map算子:map算子是将rdd中的数据一条一条传递给后面的函数,将函数的返回值构建成一个新的rdd。map算子是不会生成shuffle。后面的分区数等于map算子的分区数。//saprk代码的入口/*** 构建rdd的方法* 1.读取文件* 2.基于scala的集合构建rdd ---- 用于测试*//*** map算子* 将rdd中的数据一条一条传递给后面的函数,将函数的返回值构建成一个新的rdd* map 不会产生shuffle,map之后的分区数等于map之前rdd的分区数。
2023-11-28 09:48:55
726
原创 线性回归模型(7大模型)
先从一个简单的问题开始:如何用一个线性函数来拟合一个二维数据集? 假设我们有一个二维数据集,其中每个样本都由一个x和一个y组成。我们可以用一个线性函数 y = ax + b 来拟合这个数据集,其中a和b是待定的系数。我们的目标是找到最佳的a和b,使得这个线性函数能够尽可能地拟合这个数据集。 这就是线性回归的基本思想:通过拟合一个线性函数来预测一个连续型的输出变量。这是一个非常简单的案例。
2023-04-26 11:12:38
21369
原创 Maven安装
如上图,点击Installations,在右侧点击add添加Maven_home替换掉eclipse自身的,同时点击User Settings添加maven的配置文件settings.xml。这个时候重启eclipse,然后点击windows-->Preferences-->Maven这个时候就说明安装成功。如果你采用2这种方式的话,一定要写“\\”,不然eclipse无法正确识别你填写的路径,推荐使用1。在系统环境变量中配置MAVEN_HOME,同时将%MAVEN_HOME%\bin加入的path中。
2022-09-08 15:05:42
323
1
原创 大数据运维工作(Linux,OGG,链路监控,Hadoop运维等)
大数据运维工作,主要介绍:Linux运维,Hadoop运维,ogg运维,链路监控运维等
2022-09-06 16:30:18
1911
原创 OGG基本框架、安装、运维、报错处理、监控命令
● Extract● Data pump● Trails● Collector● Replicat● Manager利用抽取进程(Extract Process)在源端数据库中读取Online Redo Log或者Archive Log,然后进行解析,只提取其中数据的变化信息,比如DML操作——增、删、改操作,将抽取的信息转换为GoldenGate自定义的中间格式存放在队列文件(trail file)中。再利用传输进程将队列文件(trail file)通过TCP/IP传送到目标系统。目标端有一个
2022-07-06 10:40:38
1998
2
原创 ogg的安装以及mysql到mysql的同步处理
这里根据官方文档进行安装。这里不做讲解。有两种方式安装ogg:选择自己对应的系统,因为我这里是linux系统,所以我选择下载第一个。这里直接给出下载地址点击即可下载环境介绍,为了节省资源OGG我选择和原库安装在了同一台服务器安装之前,介绍一下ogg的目录用途说明:介绍完成以后,我们首先来配置源库和目标库OGG19C可以使用基于日志的DDL复制,要求添binlog_row_metadata为full模式才可以实现目标库配置主备数据库创建同步用户并附权1.3 OGG配置在19C的OGG中ogg可
2022-07-04 08:37:40
1833
1
原创 Flume的安装及使用
Flume的安装及使用文章目录Flume的安装及使用Flume的安装1、上传至虚拟机,并解压2、重命名目录,并配置环境变量3、查看flume版本4、测试flume5、flume的使用Flume的安装1、上传至虚拟机,并解压tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /usr/local/soft/在环境变量中增加如下命令,可以使用 soft 快速切换到 /usr/local/softalias soft=‘cd /usr/local/soft/’
2022-04-10 10:47:21
428
1
原创 spark学习-----Spark 算子
学习之前先介绍一下什么是sparkSpark 是基于内存计算的大数据并行计算框架,因为它基于内存计算,所以提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark 部署在大量廉价硬件之上,形成集群。RDD介绍RDD概念RDD(Resilient Distributed Dataset) 弹性分布式数据集 , 是 Spark 中最基本的数据对象,它代表一个不可变,可区,里面的元素可并行计算的集合。这里虽然是集合但是里面却没有数据。特点自动容错性.
2022-03-25 10:04:37
2314
原创 Kafka第二天笔记
Kafka中的分区副本机制、消费组Consumer Group Rebalance机制、消费者的分区分配策略、副本的ACK机制kafka的原理:leader和follower
2022-03-25 09:57:41
288
基于spark的咖啡数据分析
2024-01-08
区块链论文以及研究成果
2024-01-08
新闻、健身实时数据 基于spark+kafka+flume+echarts可视化+hadoop
2024-01-08
旅游自助系统。分为Android APP和Web管理系统JAVA旅游自助系统, 是一套开源的项目,系统具有完整的源代码和数据库,
2022-08-29
博客系统:web前端+管理后台+java源码
2022-08-29
ogg数据不同步的问题
2022-08-31
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅