- 博客(4)
- 收藏
- 关注
原创 pyspark实例化GraphFrame出现Py4JJavaError: An error occurred while calling o310.loadClass.问题
下载时graphframes版本与spark对应,(我看其他博主都是这样说的,但是我自己就不是对应的也能运行,不知道为什么)。将下载好的文件,放入pyspark文件的jars里。网址:https://spark-packages.org/package/graphframes/graphframes。然后你需要去graphframes官网下载(下载点击图片中的jar)这通常是因为 GraphFrames 的 JAR 文件没有被正确地添加到 Spark 的类路径中。
2024-11-04 23:09:05
864
原创 基于Apriori算法的大气污染物关联性分析
Apriori算法是一种经典的关联规则挖掘算法,它通过迭代的方式找出数据中的频繁项集,并从中生成关联规则。数据来源PM2.5历史数据_空气质量指数历史数据_中国空气质量在线监测分析平台历史数据。
2024-10-24 16:32:01
552
原创 k进邻算法(KNN)
由于上述的不足,为了提高 KNN 搜索的速度,可以利用特殊的数据存储形式来减少计算距离的次数。:对新的样本,根据其k个最近邻的训练样本标签值的均值作为预测值。假设数据: D={(2,3),(5,7),(9,6),(4,5),(6,4),(7,2)}1、没有训练过程,它是‘懒惰学习‘的代表,如果数据集很大,必须使用大量的存储空间。:对新的样本,根据其k个最近邻的训练样本的类别,通过多数表决等方式进行预测。x轴2,5,9,4,6,7,中位数6,因此切线为线。的类别,即为测试对象的类比。
2024-06-05 22:49:34
731
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅