PySpark做LinearRegression遇到的问题

最新推荐文章于 2024-03-28 16:49:28 发布

李代数

最新推荐文章于 2024-03-28 16:49:28 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

文章标签： python spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/user_lib/article/details/105664292

本文解决了PySpark中常见的三个问题：无法实例化SessionHiveMetaStore，metastore_db权限问题；PySpark环境中numpy模块缺失；以及pyspark.sql.utils.AnalysisException错误。提供了详细的解决步骤，包括权限调整、derby冲突解决、numpy安装和代码检查。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题一：Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStor

此问题报错的原因有很多，一般会想到Hive安装及环境配置问题，但是我只是要搞PySpark，
仔细看了一下报错提示：“metastore_db cannot be created”
原因很简单，就是spark没有对metastore_db没有访问权限方法，解决方法就很简单了。

sudo chmod 777 /usr/local/spark

问题1.1metastore_db虽然有权限创建了，但是却 Failed to start database ‘metastore_db’ with class loader.org.apache.spark.sql.hive.client.IsolatedClientLoader$$anon$1@3f083ea9, see the next exception for details.

意思就是和derby冲突了，两种数据库在为一个进程服务时相互斗争。。。
解决方法：
借鉴别人的方法：删除dbex.lck

问题二：spark中 from pyspark.ml.linalg import Vector，出现ImportError: No module named numpy

原因已经提示，节点没有numpy，因此需要安装，安装前需要下载pip
步骤如下：
1.安装pip

wget https://bootstrap.pypa.io/get-pip.py

2.打开pip文件
python2环境： python get-pip.py
python3环境： python3 get-pip.py
3.下载并安装numpy

python -m pip install numpy

4.重新进入pyspark

问题三：pyspark.sql.utils.AnalysisException: u"cannot resolve ‘`features`’ given input columns: [feature, var_1, var_3, output, var_4, var_2, var_5];

问题很明显，features不存在，查看一下，是我敲成了feature，所有需要改回成features，这是因为内置变量就是features,不能修改变量名。所以敲代码时一定注意

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。