#!/usr/bin/env python
# coding: utf-8
# In[1]:
from pyspark.sql import SparkSession
import findspark
findspark.init()
# In[3]:
# 以本地模式开始spark
# local本地模式
# [*] 最大的线程数量
# [4] 线程数量设置为4
spark = SparkSession.Builder().master("local[*]").getOrCreate()
spark
# In[8]:
# 创建spark的dataframe
df = spark.createDataFrame(
data=[
['py','analysis'],
['spakr','bigdata']
],
schema=('name','type')
)
df.show()
# 关闭sparksession
# spark.stop()
# In[9]:
# 创建pandas的dataframe
import pandas as pd
import numpy as np
# In[10]:
pd_df = pd.DataFrame(np.random.rand(100,3))
pd_df.head(10)
# In[11]:
# 从pnadas的dataframe创建的spark的Dataframe
spark_df = spark.createDataFrame(pd_df)
spark_df.show(10)
# In[12]:
# 将spark的Dataframe转换为pnadas的dataframe
pd_df = spark_df.select("*").toPandas()
pd_df.head(10)
# In[ ]: