- 博客(45)
- 收藏
- 关注
原创 基于python的图片数据集标注分类小工具
图片标注工具的设计初衷是简化神经网络数据集的标注过程。用户可以通过该工具预览、分类和删除图片,将其分别存储到不同的目录中,以便后续训练和验证模型。
2024-07-17 15:12:53
991
原创 从0开始学习pyspark--用户自定义函数(UDF)和 pandas UDF[第6节]
PySpark UDF(User Defined Function,用户自定义函数)允许用户在 Spark SQL 查询中使用自定义的 Python 函数,从而增强数据处理的灵活性和功能。UDF 使我们能够实现复杂的逻辑,处理 Spark SQL 内置函数无法覆盖的场景。pandas UDF(也称为 Vectorized UDF)是 PySpark 中的一种特殊类型的 UDF,利用了 Apache Arrow 来加速数据传输和处理。
2024-07-15 16:57:53
1266
1
原创 PySpark 中 RDD 与 DataFrame 的不同应用场景
RDD 是 Spark 的核心抽象,它代表一个不可变的分布式对象集合。RDD 提供了对分布式数据集合的容错和并行操作,允许用户对数据进行细粒度的控制。DataFrame 是一种基于 RDD 的高级抽象,它是一个分布式的行和列的数据集合,类似于关系数据库中的表。DataFrame 提供了更丰富的 API,并能利用 Spark SQL 引擎进行优化。
2024-07-09 15:47:20
1420
原创 ollama将模型永远加载在显存里
我们在使用ollma部署大语言模型的时候,如果部署的模型尺寸较大,往往在第一次加载的时候需要花费大量的时间加载模型;等加载完成后,如果长时间不调用模型,我们会发现模型已经被释放掉了,又要重新加载,导致体验感极差.因为在没被调用时,ollama默认在显存中驻留5min,然后就会自动释放,如果我们两次调用的间隔大于5min的话,那模型已经被释放了,又要重新加载;如预加载模型,并永远驻留在显存。可以根据实际情况自由设置;不过ollama预留了。
2024-07-03 16:35:33
6326
2
原创 Python Tkinter手搓俄罗斯方块
俄罗斯方块是一个经典的电子游戏,风靡全球。下面我们一步一步地使用Python和Tkinter库制作一个简易的俄罗斯方块游戏。
2024-07-03 09:00:00
718
原创 从0开始学习pyspark--Spark DataFrame数据的选取与访问[第5节]
在PySpark中,选择和访问数据是处理Spark DataFrame的基本操作。以下是一些常用的方法来选择和访问DataFrame中的数据。
2024-07-02 15:14:20
817
原创 从0开始学习pyspark--pyspark的数据读取[第4节]
在PySpark中,读取文件型数据是一个常见的操作,Spark支持多种数据格式,如CSV、JSON、Parquet、Avro等。以下是一些常用的方法来读取不同格式的文件数据。
2024-07-02 15:10:07
772
原创 从0开始学习pyspark--pyspark中的Spark DataFrame, Spark SQL, Pandas on Spark[第3节]
Apache Spark 是一个开源的分布式计算系统,旨在实现大数据处理的快速和通用。PySpark 是 Spark 的 Python API,使 Python 用户能够利用 Spark 的强大功能。本文将详细探讨 PySpark 的几个核心概念:Spark DataFrame、Spark SQL 和 Pandas on Spark,并通过代码示例进行详细讲解。
2024-07-01 17:24:40
1221
原创 从0开始学习pyspark--pyspark的数据分析方式[第2节]
PySpark是Apache Spark的Python API,能够在分布式计算环境中处理大规模数据。本文将详细介绍PySpark中不同的数据分析方式,包括它们的使用场景、操作解释以及示例代码。
2024-06-28 11:36:09
1188
1
原创 从0开始学习pyspark--pyspark的启动模式[第1节]
PySpark是Apache Spark的Python API,它能够在分布式计算环境中处理大规模数据。PySpark可以在几种不同的模式下运行,主要包括以下三种:1本地模式;2集群模式;3客户端模式;
2024-06-28 10:50:02
781
原创 从0开始学习pyspark--pyspark的核心概念[第0节]
在学习 `PySpark`时会遇到很多新的关键词,理解这些概念,对我们学习`PySpark`有极大的帮助,以下是一些`PySpark`的关键概念及其详细解释
2024-06-27 13:45:46
959
原创 pyspark从0开始的入门教程
PySpark 是 Python 中 Apache Spark 的接口。使用 PySpark,您可以编写类似 Python 和类似 SQL 的命令,以在分布式处理环境中操作和分析数据。这是一个初学者程序,将引导您使用 PySpark 操作数据、构建机器学习管道和调整模型。
2024-06-27 11:55:29
5332
1
原创 利用 Swifter 加速 Pandas 操作的详细教程
Swifter 是一个开源库,旨在自动优化和加速 Pandas 的apply操作。它会根据数据规模和复杂度选择最优的并行处理方式,大大提高数据处理速度。
2024-06-26 13:36:44
1120
原创 使用North自部署图床服务
图床服务并不需要高性能的服务器去承载,现在云服务器的价格也并不昂贵,因此搭建个人图床也许是不错的选择。github上的一个开源项目`North` 可以很方便的帮助我们自部署图床服务.
2024-06-26 10:13:22
996
原创 Matplotlib 高阶技巧:注解和不同坐标系的使用
matplotlib添加注解的方法和matplotlib在同一个图表使用不同y坐标系的方法
2024-06-25 10:24:41
616
原创 matplotlib赛博朋克绘图风格介绍(mplcyberpunk)
mplcyberpunk是一个matplotlib绘图风格的扩展包,利用这个python包,可以轻易的创建出精美的赛博朋克风格图表
2024-06-24 16:10:34
712
原创 Docker之overlay2的迁移
docker默认将文件及其容器放置在了系统盘的挂载区内,如果长期使用会发现系统挂载区被overlay2挤爆了,因此在一开始我们将其迁移在大容量外挂磁盘上,就可以避免系统盘被挤爆,放心使用.即为我们要挂载的目录,这个操作建议一般刚安装好docker就进行,避免当使用一段时间后,进行迁移还要考虑数据备份恢复等相关问题.
2024-06-21 11:10:52
659
原创 利用streamlit开发大模型API调用对话网页应用
Streamlit是一个用于构建数据应用的开源框架,其简单易用的界面使得数据科学家和开发人员能够快速创建交互式应用。而OpenAI API则提供了强大的语言模型,可以生成自然语言响应。将这两者结合起来,可以轻松创建一个与用户进行对话的应用,用于测试大模型API。
2024-06-21 10:29:10
2261
原创 python使用APScheduler进行定时任务,任务调度
APScheduler(Advanced Python Scheduler)是一个非常强大的调度库,它允许我们在特定的时间间隔、特定的时间点或特定的日期执行任务。它支持多种调度器,例如基于日期、时间间隔和Cron表达式的调度。
2024-06-20 13:05:43
1529
原创 数据库种null与‘‘(空字符串)的区别是什么?
在大多数数据库系统中,NULL 与任何其他值的比较(包括与其他 NULL 的比较)结果都是未知的(UNKNOWN),而不是 TRUE 或 FALSE。NULL 值通常可以存在于有 NOT NULL 约束的字段中,这些约束禁止字段包含 NULL 值。‘’(空字符串)可以存在于有 UNIQUE 约束的字段中,因为它是一个具体的值。‘’(空字符串):表示有一个明确的空值,即字段有一个值,但该值是一个空字符串。‘’(空字符串) 是一个有效的数据值,它占用与数据类型相关的存储空间。‘’(空字符串)通常会被计算在内。
2024-06-20 09:16:37
1023
原创 机器学习参数寻优:方法、实例与分析
机器学习模型的性能很大程度上依赖于其参数的选择。参数寻优(Hyperparameter Tuning)是提升模型表现的关键步骤之一。本文将详细介绍主流的参数寻优方法,包括网格搜索(Grid Search)、随机搜索(Random Search)、贝叶斯优化(Bayesian Optimization)、和超参数优化库(如Optuna和Hyperopt)等,并探讨它们的优缺点及适用场景。
2024-06-19 17:46:15
2143
原创 随机森林算法详解
随机森林(Random Forest)是一种集成学习方法,通过构建多个决策树并将它们的预测结果结合起来,来提高模型的准确性和稳定性。随机森林在分类和回归任务中都表现出色,广泛应用于各类机器学习问题。本文将详细介绍随机森林的原理、特点、优缺点、常见应用场景以及示例代码。
2024-06-19 15:37:05
5521
原创 对比分析:GBDT、XGBoost、CatBoost和LightGBM
通过本文的对比分析,可以看到GBDT、XGBoost、CatBoost和LightGBM各有优劣。GBDT作为基础算法,灵活性高,但速度较慢;XGBoost在效率和性能上做了大量优化,适合大规模数据;CatBoost针对类别特征进行了特别优化,表现稳定;LightGBM以速度和内存效率见长,非常适合大数据和高维特征。根据具体应用场景,选择合适的算法可以更好地解决问题。
2024-06-19 15:20:24
2294
原创 LightGBM算法详解
本文详细介绍了LightGBM算法的原理和特点,并展示了其在回归和分类任务中的应用。首先介绍了LightGBM算法的基本思想,然后展示了如何在合成数据集上使用LightGBM进行回归任务,以及如何在合成分类数据集上使用LightGBM进行分类任务。希望本文能帮助你更好地理解和应用LightGBM算法。
2024-06-19 14:51:43
1757
原创 CatBoost算法详解
本文详细介绍了CatBoost算法的原理和特点,并展示了其在回归和分类任务中的应用。首先介绍了CatBoost算法的基本思想和公式,然后展示了如何在合成数据集上使用CatBoost进行回归任务,以及如何在合成分类数据集上使用CatBoost进行分类任务。
2024-06-19 14:39:00
2105
原创 XGBoost算法详解
本文我们详细介绍了XGBoost算法的原理和特点,并展示了其在回归和分类任务中的应用。首先介绍了XGBoost算法的基本思想和公式,然后展示了如何在合成数据集上使用XGBoost进行回归任务,以及如何在合成分类数据集上使用XGBoost进行分类任务。
2024-06-19 14:08:05
1428
原创 GBDT算法详解
本文详细介绍了GBDT算法的原理和特点,并展示了其在回归和分类任务中的应用。首先介绍了GBDT算法的基本思想和公式,然后展示了如何在回归数据集使用GBDT进行回归任务,以及如何在分类数据集上使用GBDT进行文本分类任务。
2024-06-19 13:45:55
1833
1
原创 KNN算法详解
KNN算法是一种基于实例的学习方法,它假设相似的实例具有相似的标签。具体来说,对于一个待分类或待预测的样本,KNN算法将根据其在特征空间中最接近的K个邻居的标签来进行分类或回归。KNN算法作为一种简单直观的机器学习算法,具有广泛的应用前景。通过本文的介绍,你应该对KNN算法的基本概念、工作原理、优缺点及其在Python中的实现有了较为全面的了解。在实际应用中,可以根据具体问题选择合适的K值和距离度量,从而取得良好的预测效果。希望本文能帮助你更好地理解和应用KNN算法。
2024-06-19 11:40:38
1574
原创 回归算法详解
回归分析是一种统计方法,用于确定因变量(目标变量)和自变量(预测变量)之间的关系。回归分析的目标是建立一个模型,通过自变量预测因变量。回归分析是机器学习中的一类重要方法,用于预测连续变量。本文介绍了几种常见的回归算法,包括线性回归、岭回归、Lasso 回归、弹性网络回归、决策树回归和支持向量回归,并展示了它们的数学公式、特点、应用场景及其在 Python 中的实现。不同的回归算法适用于不同的应用场景,通过合理选择算法,可以在实际应用中取得良好的预测效果。希望本文能帮助你更好地理解和应用回归算法。
2024-06-19 09:58:54
3131
1
原创 支持向量机 (SVM) 算法详解
支持向量机的目标是找到一个最佳的决策边界(或称超平面)来最大限度地分隔不同类别的数据点。对于线性可分的数据,SVM 通过一个线性超平面进行分类;对于线性不可分的数据,SVM 可以通过核方法(Kernel Trick)将数据映射到高维空间,使其在高维空间中线性可分。支持向量机是一种强大的监督学习算法,适用于处理复杂的高维和非线性数据。本文详细介绍了 SVM 的原理、数学公式、应用场景以及 Python 实现。虽然 SVM 在某些方面有其局限性,但通过合理选择参数和核函数,可以在许多实际应用中取得优异的效果。
2024-06-18 18:05:08
1593
1
原创 K-Means 算法详解
K-Means 算法是一种基于原型的聚类算法,其目标是将数据集分成 ( k ) 个簇(clusters),使得同一簇内的数据点尽可能相似,不同簇之间的数据点尽可能不同。每个簇由其中心(即质心,centroid)表示。K-Means 算法是一种简单而有效的聚类算法,广泛应用于各种数据分析和机器学习任务中。本文详细介绍了 K-Means 算法的原理、步骤、公式以及 Python 实现。虽然 K-Means 算法有一些缺点,但通过合理选择参数和预处理数据,可以在许多实际应用中取得良好的效果。
2024-06-18 17:32:26
2289
原创 IPython 使用技巧整理
IPython 是一个功能强大的交互式 Python 解释器,广泛应用于数据科学、科学计算和机器学习领域。本文将整理一些常用的 IPython 使用技巧,帮助提高工作效率和编程体验。
2024-06-18 17:06:50
349
原创 使用Python发送邮件的详细指南与进阶用法
通过以上步骤,我们实现了使用Python发送邮件的基本功能,并通过定时任务扩展了其功能。定时发送邮件在许多应用场景中非常实用,比如定期报告、提醒和通知等。希望这篇博客对你有所帮助,能够在实际项目中应用这些技巧,提高工作效率。
2024-06-18 16:51:27
675
原创 pandas条件筛选:and 和 & 的用法比较
是两种不同的逻辑运算符,它们在使用方式和适用对象上存在一些关键差异。在使用pandas进行条件筛选的时候.会碰到。的报错,原因是逻辑操作符,使用有误;适用于逐元素的逻辑运算,而。在Pandas中,需要使用。适用于连接整个布尔表达式。在Python编程中,
2023-12-11 11:38:12
1489
1
原创 Conda 安装和使用:Python 包和环境管理工具
Conda 是一个流行的 Python 包和环境管理工具,它可以帮助您轻松地安装、管理和切换不同的 Python 包和环境。下面介绍如何安装 Conda 并演示其基本用法。
2023-12-07 10:36:51
820
原创 5 区域填充图,区域堆叠图,小提琴图图的绘制方法plt.fill_between(), plt.stackplot(),plt.violinplot()
是Matplotlib库中的一个函数,用于绘制堆叠区域图。堆叠区域图用于显示多个数据系列的相对贡献,并展示它们在整体中的总和变化。:可选参数,用于设置堆叠区域图的基线。:纵坐标数据,可以是一个二维数组或列表的列表,每个子列表代表一个数据系列。:可选参数,用于设置堆叠区域图的边缘颜色。:可选参数,用于设置每个数据系列的标签,可以是一个字符串列表或元组。注意:x和y的长度必须相同,且y中的每个子列表的长度也必须相同。:横坐标数据,可以是一个一维数组或列表,表示各个数据点的位置。参数设置小提琴图的位置,使用。
2023-12-05 11:30:50
3140
1
原创 进阶1 多类型柱状图plt.bar()
参数为一个序列时,序列的长度应与要绘制的柱形数量相同,序列中的每个元素将被视为柱形的 x 坐标值。这样,可以通过直接指定序列中的元素来确定每个柱形的位置。,代表每个柱子的宽度为0.2,不同种类的柱子间隔为0.2,这样设置的目的,是为了让显示更均衡,你可以自由的调整bar_width的值,来达到不同的显示效果;当种类更多时,通过调整bar_width的值,如当显示四柱时, 若将bar_width设置为0.2,示例代码中x1从0开始,柱形宽度为0.35,x2从0+bar_width开始,柱形宽度为0.35。
2023-12-04 14:58:04
1164
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人