1.实验目的
了解与掌握数据框的创建、选择、运算和聚合、增加、删除和修改、连接、变形。
2.实验内容及结果截屏
(1)Spark大数据处理
载入本章需要用到的程序包:
(2)数据框的创建
①通过键入创建
调用spark的函数createDataFrame()创建数据框:
调用数据框的函数show()查看数据集前几行,默认为前20行:
从字典的列表创建数据框,其中字典的键表示数据集的变量名即列名,字典的值表示每行每列的数据值:
从列表的RDD创建数据框:
使用数据框的属性columns和dtypes得到列名和数据类型:
②通过读入数据文件创建
调用spark的函数read()得到从外部存储系统读取数据的接口,进一步级联调用其函数csv()读取CSV文件:
读取航空公