夕蝶梦-优快云博客

原创 Spark Streaming单词统计操作

解决方法：①在slave1 8888端口上（nc -l 8888）输入数据，运行就不会报错，要是没有安装nc要使用命令 yum install -y nc安装在进行操作。②端口号没有写对Spark默认的HDFS端口与Hadoop中core.site.xml配置一样的端口号都是9000，所以启动连接到master节点HDFS中端口号为9000。

2023-04-23 14:38:41 920 1

2.将数据转换成（ID，score）的键值对，通过reduceByKey的方法统计总成绩并输出结果。2.通过filter操作过滤出成绩为100分的学生数据，并且通过map操作提取学生ID。（二）RDD转换找出单科成绩为100的学生ID，最终的结果需要集合到一个RDD中。（三）RDD转换输出每位学生的总成绩，要求将两个成绩表中学生ID相同的成绩相加。5.通过sortBy对元组中的成绩列降序排序，排序位置是每个元组的第3位的成绩。6.通过take操作取出每个RDD的前5个值就是成绩排在前5的学生。

2023-03-31 18:39:23 893

原创搭建Spark伪分布式

基于MapReduce的计算引擎通常会将中间结果输出到磁盘上，进行存储和容错。出于任务管道承接的考虑，当一些查询翻译到MapReduce任务时，往往会产生多个Stage，而这些串联的Stage又依赖于底层文件系统（如HDFS）来存储每一个Stage的输出结果。Spark是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生态系统，以弥补MapReduce的不足。

2023-03-29 13:10:49 1209 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_66087662的博客

原创 Spark Streaming单词统计操作

原创 Speak-RDD基本操作

原创搭建Spark伪分布式

空空如也

空空如也

原创 Spark Streaming单词统计操作

原创 Speak-RDD基本操作

原创 搭建Spark伪分布式

空空如也

空空如也

原创搭建Spark伪分布式