使用spark.read.csv ，出现NameError: name 'spark' is not defined

最新推荐文章于 2021-07-03 00:25:40 发布

原创最新推荐文章于 2021-07-03 00:25:40 发布 · 1w 阅读

2 ·

CC 4.0 BY-SA版权

pySpark 专栏收录该内容

5 篇文章

订阅专栏

本文介绍如何利用PySpark中的SparkSession从本地文件系统读取CSV文件并创建DataFrame对象。

from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
sc = SparkContext('local')
spark = SparkSession(sc)

df = spark.read.csv('aaa.csv')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

GameOverTryAgain

关注关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【spark床头书系列】DataFrameReader可以读取多少种数据？【建议收藏必看】

wang2leee的博客

11-26

912

Spark DataFrame可以读取多少种数据

Spark Dataset 的一些 api 操作

小强签名设计的博客

09-04

2015

【代码】Dataset 的一些 Java api 操作。

参与评论您还未登录，请先登录后发表或查看评论

解决pandas使用read_csv()读取文件遇到的问题

12-24

如下：数据文件：上海机场 (sh600009) 24.11 3.58 东风汽车 (sh600006) 74.25 1.74 中国国贸 (sh600007) 26.38 2.66 包钢股份 (sh600010) 61.01 2.35 武钢股份 (sh600005) 75.85 1.3 浦发银行 (sh600000) 6.65 0.96 在使用read_csv() API读取CSV文件时求取某一列数据比较大小时， df=pd.read_csv(output_file,encoding='gb2312',names=['a','b','c']) df

pyspark : NameError: name 'spark' is not defined

Solar's Blog

08-02

1万+

如题所示的报错，这是因为在Python 程序中没有默认的 pyspark.sql.session.SparkSession,因此我们只需导入相关模块，再将其转换为 SparkSession。相关代码： from pyspark.context import SparkContext from pyspark.sql.session import SparkSession sc = SparkCo...

NameError: name ‘SparkConf‘ is not defined解决

qq_46061082的博客

05-31

1996

关于在notebook中报错的一个问题的解决报错如下： NameError Traceback (most recent call last) <ipython-input-1-3f07a3d84249> in <module> 3 import pyspark 4 ----> 5 conf=SparkConf().setAppName("wordcount") 6 sc=S

python读取csv失败_python 读取文件read.csv报错 OSError: Initializing from file failed

weixin_40004212的博客

12-02

1018

小编在用python 读取文件read.csv的时候报了一个错误OSError: Initializing from file failed初始化文件失败检查了文件路径，没问题那应该是我文件名是中文的缘故，百度了一波，说是将read.csv 的参数 engine 设置为“python”，就不报错了，试了一下，果真是那么这个engine 参数究竟是设置啥呢？engine 解析数据的引擎，应该是...

sparksession

09-21

3375

package sparksql import org.apache.spark.SparkConf import org.apache.spark.sql.{Row, SparkSession} /** * Created by zengxiaosen on 16/9/20. */ case class Log01(id01: Int, content01: String) ob

from pyspark.sql import SparkSession from pyspark.sql.functions import col, avg, sum, count, when from pyspark.sql.window import Window from pyspark.sql.functions import row_number # 从 HDFS 读取数据 df = spark.read.option("header", True).option("inferSchema", True).csv("hdfs://localhost:9000/usr/local/hadoop/clean_data_final.csv") df.show(3) /usr/bin/python3.10 /home/hadoop/PycharmProjects/spack/S2.py Traceback (most recent call last): File "/home/hadoop/PycharmProjects/spack/S2.py", line 8, in <module> df = spark.read.option("header", True).option("inferSchema", True).csv("hdfs://localhost:9000/usr/local/hadoop/clean_data_final.csv") NameError: name 'spark' is not defined Process finished with exit code 1

06-12

当您在 PySpark 中尝试使用 `spark` 对象（如 `spark.read.csv`）时，出现 `NameError: name 'spark' is not defined` 错误，通常是因为 `spark` 变量未在代码中正确定义或初始化。在 PySpark 中，`spark` 是 ...

/home/mzyhadoop/anaconda3/envs/pyspark/bin/python /home/mzyhadoop/notebook/1.py log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory). log4j:WARN Please initialize the log4j system properly. log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info. ✅ SparkSession创建成功! Traceback (most recent call last): File "/home/mzyhadoop/notebook/1.py", line 24, in <module> df = spark.read.format("csv") \ File "/home/mzyhadoop/anaconda3/envs/pyspark/lib/python3.8/site-packages/pyspark/sql/session.py", line 1515, in read return DataFrameReader(self) File "/home/mzyhadoop/anaconda3/envs/pyspark/lib/python3.8/site-packages/pyspark/sql/readwriter.py", line 69, in __init__ self._jreader = spark._jsparkSession.read() File "/home/mzyhadoop/anaconda3/envs/pyspark/lib/python3.8/site-packages/py4j/java_gateway.py", line 1322, in __call__ return_value = get_return_value( File "/home/mzyhadoop/anaconda3/envs/pyspark/lib/python3.8/site-packages/pyspark/errors/exceptions/captured.py", line 175, in deco raise converted from None pyspark.errors.exceptions.captured.IllegalArgumentException: <unprintable IllegalArgumentException object> Traceback (most recent call last): File "/home/mzyhadoop/notebook/1.py", line 34, in <module> df.show(5) NameError: name 'df' is not defined

最新发布

07-08

在使用PySpark读取CSV文件时，若遇到`IllegalArgumentException`错误，并伴随`log4j:WARN No appenders could be found for logger`警告以及`name 'df' is not defined`异常，通常是由于路径格式不正确、日志配置...

File "/usr/local/spark/mycode/rdd/FileSort.py", line 22, in <module> result6.saveAsTextFile("file:///usr/local/spark/mycode/rdd/filesort/sortresult") NameError: name 'result6' is not defined

05-21

在 Spark Python 编程中遇到 `NameError: name 'result6' is not defined` 错误，通常是因为变量 `result6` 在代码中被调用之前未正确定义或初始化。这可能是由于逻辑顺序错误、作用域问题或是数据处理链路中断引起...

Spark学习笔记（三）：Spark DataFrame

01-20

系列博客是学习厦门大学林子雨老师spark编程基础课程的笔记，方便回顾系列博客： Spark学习笔记（一）：Spark概述与运行原理 Spark学习笔记（二）：RDD编程基础 Spark SQL增加了DataFrame（即带有Schema信息的RDD），使用户可以在Spark SQL中执行SQL语句，数据既可以来自RDD，也可以是Hive、HDFS、Cassandra等外部数据源，还可以是JSON格式的数据 Spark SQL目前支持Scala、Java、Python三种语言，支持SQL-92规范 •DataFrame的推出，让Spark具备了处理大规模结构化数据的能力，不仅比原有的

jupyter NameError: name ‘xxx‘ is not defined

weixin_49245651的博客

07-03

2万+

问题：关闭jupter之前，都运行成功了，再次打开就会出现'xxx'没有定义的问题解决方法：之前运行成功，说明不是没有定义的问题，问题出在jupyter上可以看到data定义了，但是定义的'data'跟调用时的函数不在同一个块此时只需点击cell里面的run all above，运行以上所有，就可以解决不在同一个块，模块未定义问题。 ...

spark 2.2:jupyter notebook NameError: name 'sc' is not defined

Learning from the mistakes

10-03

1万+

我在运行spark机器学习的python例子的时候会出现上面的错误 name 'sc' is not defined 这是因为另一个程序占用了python kernel的缘故，你重新开了一个程序运行就会报错，这个时候我们需要把原来的程序关了，然后再重新运行现在的就行了参考文献 [1].https://stackoverflow.com/questions/38515369/ju

Python 解决：NameError: name 'reload' is not defined 问题

Touch_Dream的博客

08-15

3876

Python 解决：NameError: name 'reload' is not defined 问题解决：NameError: name 'reload' is not defined 问题对于 Python 2.X： import sys reload(sys) sys.setdefaultencoding("utf-8")1 对于 Python 3.3： import

python name 'file' is not defined的解决办法

menuconfig的专栏

03-14

4万+

python版本3.11 源码： poem = '''\ Programming is fun When the work is done if you wanna make your work also fun: use Python! ''' f = file('poem.txt', 'w') # open for 'w'riting f.write(poem

Python 遇到NameError: name '_name_' is not defined这样的错误

热门推荐

skylake_的博客

02-07

14万+

今天练习写Python主函数的时候，遇到了NameError: name '_name_' is not defined 这样的错误。因为__name__是一个系统变量，包含了模块的名称。所以我尝试着输出 __name__的值，谁想出了错。怎么找都不曾发现错误，最后上google上查了一下，发现国外有个人和我犯了同样的错误。最后有人指出，name两端可是双下划线的，并不是只有一个。失败失败。大家也

NameError: name ‘__file__‘ is not defined的问题原因及解决方法

万方名的博客

07-07

8251

问题原因不能在jupyter（或者其他交互式）中这样写解决方法把代码转移到pycharm或者直接python xxx.py运行就可以了

NameError: name 'start_destination' is not defined.

11-22

`NameError: name 'start_destination' is not defined.` 这是一个常见的Python错误，它表示你试图在当前作用域内访问名为 `start_destination` 的变量或函数，但是该名称并没有被定义过。这通常发生在以下几个情况： 1. **拼写错误**：检查一下是否正确地拼写了变量名，可能是大小写不符或者少打了一个字符。 2. **变量声明位置**：如果在使用变量之前没有对其进行初始化或者在函数外部定义但在函数内部引用，可能会导致此错误。确保你在尝试使用的上下文中已经声明了变量。 3. **局部变量**：如果你在一个函数内部定义了 `start_destination`，那么在函数外部是无法直接访问的。若你需要在整个作用域中使用，可以将其改为全局变量，或者通过返回值或者参数传递。 4. **导入错误**：如果是从其他模块导入的变量，确认导入路径和命名正确。修复这个问题，你需要定位到引发错误的那一行，查看并改正错误的变量名，或者调整变量的作用域使其在预期的地方可用。例如： ```python # 假设你在函数里试图使用 start_destination，但只在函数外定义 start_destination = "初始地点" def some_function(): try: print(start_destination) # 这会抛出 NameError except NameError: print("start_destination未定义，在这里无法使用.") some_function() ``` 在上述例子中，你可以在函数内部使用`global start_destination`声明全局变量，或者将`print(start_destination)`移至函数外部。