Python大数据处理库 PySpark实战
文章平均质量分 87
jialun0116
浙江工业大学
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python大数据处理库 PySpark实战 总结四
Python大数据处理库 PySpark实战四ETL 实战实验数据来源数据加载观察资料选择、筛选与聚合机器学习实战实验数据来源数据加载统计描述清洗与变形Pipeline逻辑回归预测决策树预测ETL 实战实验数据来源https://groupllens.org/datasets/movielens/下载一个精简数据集。rating.csv 电影评分记录 :userId给电影评价的用户ID movieId 电影的ID rating 打分5分满分,timestamp时间戳数据加载from pysp原创 2021-06-19 22:10:04 · 1571 阅读 · 0 评论 -
Python大数据处理库 PySpark实战 总结三
Python大数据处理库 PySpark实战 总结三共享变量DataFrames 与 Spark SQL创建DataFramesSpark SQL基本用法编写Spark程序并提交共享变量广播变量 broadcast广播变量允许程序缓存一个只读变量在集群的每台机器上,而不是每个任务保存一个拷贝。借助广播变量,可以用一种更高效的方法来共享一些数据,比如一个全局配置文件。from pyspark.sql import SparkSessionspark = SparkSession.buil原创 2021-06-18 10:00:26 · 820 阅读 · 1 评论 -
Python大数据处理库 PySpark实战 总结二
Python大数据处理库 PySpark实战二Pyspark建立Spark RDDpyspark shellVScodeJupyter notebook动作算子变换算子Pyspark建立Spark RDD每个RDD可以分成多个分区,每个分区可以看作是一个数据集片段,可以保存到Spark集群中的不同节点上RDD自身具有容错机制,且是一种只读的数据结构,只能通过转换生成新的RDD;一个RDD通过分区可以多台机器上并行处理;可将部分数据缓存在内存中,可多次重用;当内存不足时,可把数据落到磁盘上创建RDD原创 2021-06-17 12:30:45 · 831 阅读 · 1 评论 -
Python大数据处理库 PySpark实战 总结一
Python大数据处理库 PySpark实战大数据时代分析工具Spark核心组件重要概念部署模式基本操作这是《Python大数据处理库 PySpark实战》一书的总结归纳大数据时代大数据的特点:大量、高速、多样、低价值密度、真实性谷歌三篇论文是大数据的基石:Google File System 、Google MapReduce、Google Bi 个Table,解决存储、计算、查询的问题分析工具Hadoop:HDFS存储、MapReduce计算、YARN资源调度,离线,不适合随机读写的在原创 2021-06-16 09:45:19 · 1556 阅读 · 1 评论
分享