
spark
文章平均质量分 94
爱吃鬼
收藏有货,欢迎交流
展开
-
Spark入门
Spark入门 Spark概述 专为大规模数据处理而设计的快速通用计算引擎(与hadoop的Mapreduce类似) Spark 对比 MapReduce MapReduce每一次shuffle都要写磁盘,多个MapReduce之间通过磁盘进行数据传递,Spark的shuffle结果可以保存在内存中的 MapReduce在每一个mapper和reducer之间都要经历一次shuffle,sp...原创 2021-03-25 11:05:59 · 79 阅读 · 0 评论 -
Spark Streaming实现WordCount
利用Spark Streaming实现WordCount 需求:监听某个端口上的网络数据,实时统计出现的不同单词个数。 1,需要安装一个nc工具:sudo yum install -y nc 2,执行指令:nc -lk 9999 -v import os #### 配置spark driver和pyspark运行时,所使用的python解释器路径 PYSPARK_PYTHON = " " #...原创 2020-02-20 19:46:45 · 445 阅读 · 1 评论 -
pyspark指定schema
通过StructType对象指定DataFrame的Schema 没有嵌套结构的json jsonString = [ """{ "id" : "01001", "city" : "AGAWAM", "pop" : 15338, "state" : "MA" }""", """{ "id" : "01002", "city" : "CUSHMAN", "pop" : 36963, "stat...原创 2020-02-20 19:03:00 · 4641 阅读 · 0 评论