自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 pyspark实例化GraphFrame出现Py4JJavaError: An error occurred while calling o310.loadClass.问题

下载时graphframes版本与spark对应,(我看其他博主都是这样说的,但是我自己就不是对应的也能运行,不知道为什么)。将下载好的文件,放入pyspark文件的jars里​​​​​​。网址:https://spark-packages.org/package/graphframes/graphframes。然后你需要去graphframes官网下载(下载点击图片中的jar)这通常是因为 GraphFrames 的 JAR 文件没有被正确地添加到 Spark 的类路径中。

2024-11-04 23:09:05 864

原创 基于Apriori算法的大气污染物关联性分析

Apriori算法是一种经典的关联规则挖掘算法,它通过迭代的方式找出数据中的频繁项集,并从中生成关联规则。数据来源PM2.5历史数据_空气质量指数历史数据_中国空气质量在线监测分析平台历史数据。

2024-10-24 16:32:01 552

原创 k进邻算法(KNN)

由于上述的不足,为了提高 KNN 搜索的速度,可以利用特殊的数据存储形式来减少计算距离的次数。:对新的样本,根据其k个最近邻的训练样本标签值的均值作为预测值。假设数据: D={(2,3),(5,7),(9,6),(4,5),(6,4),(7,2)}1、没有训练过程,它是‘懒惰学习‘的代表,如果数据集很大,必须使用大量的存储空间。:对新的样本,根据其k个最近邻的训练样本的类别,通过多数表决等方式进行预测。x轴2,5,9,4,6,7,中位数6,因此切线为线。的类别,即为测试对象的类比。

2024-06-05 22:49:34 731 1

原创 python列表推导式

Python列表推导式是一种简洁且强大的工具,用于通过对一个或多个可迭代对象中的元素进行操作来创建新的列表。

2024-02-20 15:54:32 397 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除