- 博客(3)
- 收藏
- 关注
原创 Spark Streaming单词统计操作
解决方法:①在slave1 8888端口上(nc -l 8888)输入数据,运行就不会报错,要是没有安装nc要使用命令 yum install -y nc安装在进行操作。②端口号没有写对Spark默认的HDFS端口与Hadoop中core.site.xml配置一样的端口号都是9000,所以启动连接到master节点HDFS中端口号为9000。
2023-04-23 14:38:41
920
1
原创 Speak-RDD基本操作
2.将数据转换成(ID,score)的键值对,通过reduceByKey的方法统计总成绩并输出结果。2.通过filter操作过滤出成绩为100分的学生数据,并且通过map操作提取学生ID。(二)RDD转换找出单科成绩为100的学生ID,最终的结果需要集合到一个RDD中。(三)RDD转换输出每位学生的总成绩,要求将两个成绩表中学生ID相同的成绩相加。5.通过sortBy对元组中的成绩列降序排序,排序位置是每个元组的第3位的成绩。6.通过take操作取出每个RDD的前5个值就是成绩排在前5的学生。
2023-03-31 18:39:23
893
原创 搭建Spark伪分布式
基于MapReduce的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错。出于任务管道承接的考虑,当一些查询翻译到MapReduce任务时,往往会产生多个Stage,而这些串联的Stage又依赖于底层文件系统(如HDFS)来存储每一个Stage的输出结果。Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。
2023-03-29 13:10:49
1209
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人