自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 HDFS用于维护、监控和操作的命令python实现

【代码】HDFS用于维护、监控和操作的命令python实现。

2024-11-17 22:36:39 152

原创 python编写一个自动清理三个月以前的邮件脚本

以下是一个使用 Python 编写的自动清理三个月以前的邮件的脚本。这个脚本适用于连接支持 IMAP 协议的邮箱服务,例如 Gmail。请注意,在执行此操作时,您需要提供电子邮件账号和应用程序专用密码(建议不要使用普通密码,并且小心保护密码)。此脚本会登录到邮箱并自动删除三个月以前的邮件。你需要开启邮箱的 IMAP 访问,并确保 IMAP 权限已授予你的账号。

2024-11-17 21:52:12 606 1

原创 python脚本来完成对HDFS的基础操作

首先设置日志记录功能,方便记录操作信息和错误信息。

2024-11-17 15:27:54 181

原创 列表、元组、集合、字典和 pandas 数据框(DataFrame)之间的数据转换

Python 中的列表、元组、集合、字典和数据框之间可以通过内置的函数和方法方便地相互转换。在实际应用中,不同的数据结构有不同的使用场景,灵活转换可以使得数据处理更加简便。通过pandas数据框可以实现与表格型数据的互操作,而通过列表、元组和集合可以实现不同的数据存储和操作方式。

2024-10-23 23:03:30 1041 1

原创 各种数据类型的定义与常规计算

算术运算:支持加减乘除、幂运算、整除、取余等基本运算。比较运算:可以比较两个浮点数的大小。类型转换:可以通过int()float()等函数进行类型转换。**精度控制**:可以使用round()函数或format()f-字符串进行格式化输出。数学函数math模块提供了许多常用的数学运算函数。特殊值float类型支持正无穷大、负无穷大和NaN。浮点数在 Python 中可以进行广泛的运算和操作,但需要注意浮点数的精度问题。在某些情况下,可以使用decimal模块处理高精度计算。

2024-10-23 22:57:08 1143

原创 文件处理库的基本功能

通过这些函数示例,您可以执行各种高级文件操作,包括文件和目录的复制、移动、删除、创建压缩包和解压缩等。详细的参数和更多用法可以参考官方文档。确保在适当的测试环境中运行这些脚本,并根据需要调整路径和权限。复制和移动文件、递归复制目录、删除目录树、创建归档文件等多种文件和目录操作。复制文件的状态信息,包括权限、最后访问时间和最后修改时间。复制文件的权限,但不包括内容、所有者和组。,但会复制文件的元数据(如时间戳)。返回可用的解压缩格式列表。返回可用的归档格式列表。定位可执行文件的路径。注册一个新的归档格式。

2024-08-04 22:23:28 633 1

原创 梯度提升树(Gradient Boosting Trees)

梯度提升树(Gradient Boosting Trees, GBT)是一种提升方法,将多个弱学习器(通常是决策树)组合成一个强学习器。其基本思想是通过迭代地添加新树来逐步减少预测误差。

2024-07-22 08:12:53 575

原创 多类别支持向量机(Multi-class SVM)

通过调整多类别SVM的参数(如 C和),可以显著提升模型的分类性能。优化后的模型在测试集上的表现优于未优化模型,分类边界更加清晰,分类效果更好。

2024-07-19 00:30:56 956

原创 稀疏支持向量机(Sparse Support Vector Machine, Sparse SVM)

稀疏支持向量机是一种在支持向量机的基础上,通过引入稀疏性约束,使得模型参数更加稀疏,从而提高模型的可解释性和计算效率的方法。以下是稀疏支持向量机的详细数学模型理论知识推导、实施步骤与参数解读,以及两个多维数据实例(一个未优化模型,一个优化后的模型)的完整分析。为了处理非线性可分的数据,我们可以使用核函数将数据映射到高维空间,同时引入稀疏性约束。

2024-07-19 00:22:17 719

原创 核函数支持向量机(Kernel SVM)

核函数支持向量机(Kernel SVM)是一种非常强大的分类器,能够在非线性数据集上实现良好的分类效果。以下是关于核函数支持向量机的详细数学模型理论知识推导、实施步骤与参数解读,以及两个多维数据实例(一个未优化模型,一个优化后的模型)的完整分析。

2024-07-19 00:12:38 706

原创 随机森林回归(Random Forest Regression)

随机森林回归是一种集成学习方法,通过构建多个决策树,并将各个树的预测结果进行平均来进行回归。其核心思想是“集成多个弱学习器构建强学习器”。以下是随机森林回归的数学模型和推导过程。

2024-07-19 00:05:45 1310

原创 非线性支持向量机(SVM)

支持向量机(SVM)是一种用于分类和回归分析的监督学习模型。在处理非线性数据时,线性SVM可能无法很好地分离数据。为了解决这个问题,我们使用核函数将低维空间的非线性数据映射到高维空间,使得在高维空间中可以线性分离。目标是找到最优分离超平面,使得分类间隔最大。

2024-07-19 00:03:18 535

原创 支持向量机(SVM)

支持向量机(Support Vector Machine, SVM)是一种用于分类和回归分析的监督学习模型。其主要目的是找到一个能够分离不同类别的超平面。

2024-07-18 23:59:01 674

原创 决策树回归(Decision Tree Regression)

决策树回归是一种非参数监督学习方法,用于回归问题。它通过将数据集划分成较小的子集来建立模型,并在这些子集上构建简单的预测模型(通常是恒定值)。

2024-07-18 23:36:20 755

原创 K最近邻(K-Nearest Neighbors, KNN)

KNN算法是一个简单且直观的分类和回归方法,其基本思想是:给定一个样本点,找到训练集中与其最近的K个样本点,根据这些样本点的类别(分类问题)或值(回归问题)来预测该样本点的类别或值。

2024-07-17 08:10:50 958

原创 逻辑回归(Logistic Regression)

逻辑回归(Logistic Regression)是一种广泛用于二分类问题的线性模型。它的目标是找到一个函数,将输入特征映射到(0, 1)之间的概率值,以预测目标变量的分类。

2024-07-17 00:46:41 1321

原创 弹性网络回归(Elastic Net Regression)

弹性网络回归结合了岭回归(Ridge Regression)和Lasso回归(Lasso Regression)的优点,通过引入两个正则化参数来实现特征选择和模型稳定性。它解决了Lasso在处理高相关特征时的缺陷,并且在处理高维数据时表现优异。

2024-07-17 00:26:41 1783

原创 Lasso回归(Lasso Regression)

(Least Absolute Shrinkage and Selection Operator)是一种线性回归的变种,通过对回归系数加上范数惩罚项来解决多重共线性问题,并具有变量选择功能。

2024-07-17 00:14:30 1605

原创 岭回归(Ridge Regression)

通过两个实例可以看出,未优化的岭回归模型使用默认的正则化参数,而优化后的模型通过交叉验证选择了最佳的正则化参数,从而提高了模型的预测性能。通过这种方式,可以更好地解决多重共线性问题,提高模型的泛化能力。

2024-07-16 23:47:04 517

原创 多项式回归(Polynomial Regression)

是一种回归分析方法,其中自变量的关系通过多项式方程建模,而不是线性方程。多项式回归可以用于建模非线性数据,特别是当数据呈现出弯曲或非线性趋势时。

2024-07-16 23:27:52 895

原创 线性回归(Linear Regression)

是一种基本且广泛使用的监督学习算法,用于建立自变量(特征)和因变量(目标)之间的线性关系。目标是找到一条最佳拟合线,使得数据点到该线的距离最小化。

2024-07-16 23:14:11 527

原创 各种机器学习模型

线性回归(Linear Regression)多项式回归(Polynomial Regression)岭回归(Ridge Regression)Lasso回归(Lasso Regression)弹性网络回归(Elastic Net Regression)逻辑回归(Logistic Regression)决策树回归(Decision Tree Regression)随机森林回归(Random Forest Regression)支持向量机(SVM)非线性支持向量机。

2024-07-16 22:57:59 1096

原创 口袋算法的示例

感知器学习算法通过反复调整权重,找到一个线性决策边界,使得所有样本点都被正确分类。该算法对于线性可分的数据集非常有效,但对于不可线性分的数据集可能不会收敛。

2024-07-14 22:09:26 1223 1

原创 各种聚类分析的原理与示例

K-Means聚类通过迭代优化使得每个数据点到其最近质心的距离之和最小。该算法假设簇是球形的,并且每个簇的大小大致相等。

2024-07-07 17:10:22 1480

原创 pip install sklearn 的错误定位与解决办法

主要解决办法是改用包,并在所有相关文件中更新依赖。如果仍然遇到问题,可以检查其他依赖包是否正确更新并兼容新的包名。

2024-07-06 15:28:51 2552 1

原创 pip install metrics错误解释与定位

这个错误提示是由于pip的依赖解析器未能完全解决所有已安装包之间的依赖冲突造成的。在这个例子中,metrics包要求安装一个较旧版本的Pygments(2.2.0),但已安装的rich包要求Pygments的版本在2.13.0到3.0.0之间,这两个版本需求之间存在冲突。

2024-07-06 15:19:08 1315

原创 pandas处理DataFrame的方法汇总12

基于位置索引选取数据:通过take()方法,可以基于整数位置索引从 DataFrame 或 Series 中选取数据,适用于需要按位置获取子集的场景。灵活的轴选择:可以通过axis参数选择是按行还是按列选取数据。高效数据处理:在需要高效、批量处理数据时,take()方法提供了一种基于位置索引的直接访问方式。take()方法在数据分析和处理过程中非常有用,可以方便地根据位置索引从 DataFrame 和 Series 中选取数据。通过指定位置索引和轴,可以灵活地应用于各种数据处理场景。多维数据处理。

2024-06-02 19:05:14 2118

原创 pandas处理DataFrame的方法汇总11

控制重复标签:通过方法,可以设置 DataFrame 或 Series 是否允许重复标签,这在某些数据清洗和处理场景中非常有用。灵活操作:可以指定标志的值和是否在原地修改,灵活地应用于各种场景。数据完整性:通过设置适当的标志,可以确保数据在操作过程中的完整性和一致性。方法在数据分析和处理过程中非常有用,可以方便地设置 DataFrame 和 Series 对象的标志。通过灵活的参数设置,可以应用于各种数据处理场景。索引设置:通过。

2024-06-02 17:08:30 880

原创 pandas处理DataFrame的方法汇总10

重置索引:通过方法,可以将 DataFrame 或 Series 的索引重置为默认的整数索引,便于进一步的数据处理。索引转换为列:在重置索引的同时,可以将原索引作为列添加到 DataFrame 中,便于分析和操作。丢弃索引:如果不需要原索引,可以选择丢弃索引,使数据结构更加简洁。方法在数据分析和处理过程中非常有用,可以方便地重置 DataFrame 和 Series 的索引,通过灵活的参数设置,可以应用于各种数据处理场景。数学运算。

2024-06-02 15:28:27 1343

原创 pandas处理DataFrame的方法汇总09

数据汇总:通过透视表汇总数据,可以轻松计算各类统计值(如平均值、总和、计数等)。数据分析:利用透视表按不同维度对数据进行分组和聚合,便于深入分析数据。数据展示:通过透视表生成的结构化数据,更容易进行数据展示和报告。方法在数据分析和处理过程中非常有用,可以通过灵活的参数设置,对数据进行各种形式的汇总和聚合。通过指定索引、列和值,可以创建复杂的透视表,适应各种数据分析需求。列的移除pop()方法用于从 DataFrame 中移除指定列,并返回该列的数据作为 Series。

2024-06-02 00:45:48 1017

原创 pandas处理DataFrame的方法汇总08

数据重塑:将宽格式的数据转换为长格式,以便更好地进行数据分析和可视化。数据整理:在数据预处理中,对数据进行重塑以符合分析或建模的要求。数据可视化:在可视化前,将数据转换为长格式,以便更好地使用可视化工具。melt()方法在数据重塑和整理过程中非常有用,可以将宽格式的数据转换为长格式,使得数据更加规范和易于处理。通过指定标识变量和要转换的列,可以灵活地对 DataFrame 进行重塑。内存监控:用于监控和检查 DataFrame 或 Series 中各列的内存使用情况,帮助用户优化内存占用。内存优化。

2024-06-01 22:58:23 970

原创 pandas处理DataFrame的方法汇总07

items()方法是字典操作中非常有用的工具,尤其是在需要访问字典中的键值对时。通过以上案例可以看到,items()方法不仅可以用于简单的键值对迭代,还可以与其他 Python 功能(如推导式)结合使用,实现更加复杂的数据操作。方法是 Pandas 中用于迭代 DataFrame 行的一种高效方式。通过它,您可以方便地遍历 DataFrame 的每一行,并将其作为命名元组来访问,这比iterrows()方法更快且更具可读性。适用于需要逐行处理或访问 DataFrame 内容的场景。join()

2024-06-01 20:48:31 1164

原创 pandas处理DataFrame的方法汇总06

创建一个 DataFrame})print(df)# 自定义函数:计算范围# 使用 groupby 方法按 'Category' 列分组并应用自定义函数iat是 Pandas 提供的一个方法,用于通过整数位置快速访问和修改单个数据元素。适用于 DataFrame 和 Series,对单个标量值进行高效的读取和写入操作。与iloc不同,iat仅限于单个元素的操作,适合在需要快速访问或修改单个值的场景中使用。通过上述案例,我们可以看到iat的使用方法及其在实际数据操作中的应用。

2024-05-20 23:15:32 1940

原创 pandas处理DataFrame的方法汇总05

ffill()空值替换为上一行中的值.将空值替换为上一行中的值.ffill()是 pandas 中用于向前填充缺失数据(NaN 值)的一个方法。它会用前一个非缺失值来填充缺失值,直到遇到下一个非缺失值。这在时间序列数据或需要保持数据连续性时非常有用。

2024-05-19 18:15:24 2123 1

原创 pandas处理DataFrame的方法汇总04

如果 DataFrame 为空,则返回 True,否则返回 False。empty是 Pandas 中用于检查 DataFrame 或 Series 是否为空的属性。如果 DataFrame 或 Series 中没有元素,empty属性将返回True,否则返回False。

2024-05-18 23:22:02 1045

原创 pandas处理DataFrame的方法汇总03

计算值与上一行中相同列的值之间的差值。diff()是 Pandas 中用于计算数据差异的函数,它计算当前元素与前一个元素之间的差值。这在金融和经济数据分析中特别有用,例如计算价格或成本的连续变化。

2024-05-16 23:35:03 1279

原创 pandas处理DataFrame的方法汇总02

返回 DataFrame 的行和列的标签。axes是 Pandas 中的一个属性,用于返回 DataFrame 或 Series 的行轴和列轴标签列表。它是一个只读属性,返回的是一个包含行和列标签的列表。

2024-05-14 22:52:44 861 2

原创 pandas处理Dataframe的方法汇总01

它可以应用于 DataFrame 的单行或单列,或者整个 DataFrame 的行或列集。`addsuffix()` 是 Pandas 中用于为 DataFrame 或 Series 的列标签或索引标签添加后缀的函数。在这个例子中,`addsuffix()` 函数为 DataFrame 的列标签添加了后缀 `_data`,为 Series 的索引标签添加了后缀 `_idx`。是 Pandas 中用于为 DataFrame 或 Series 中的列标签或索引标签添加前缀的函数。

2024-05-12 22:04:34 513 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除