- 博客(2)
- 资源 (1)
- 收藏
- 关注
原创 2021-06-10
1、需求描述 在如今的技术水平上,大数据处理技术对于日常生活是非常重要的。此次实验目的是为了让我们更加熟悉Spark的RDD基本操作及键值对操作;熟悉使用RDD编程解决实际具体问题的方法。为此设定以下需求: 1.pyspark交互式编程 提供分析数据data.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示: Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStructure,60 Jim,DataBase,90 Jim,Algorithm,60 Jim,Dat
2021-06-10 10:22:19
1824
原创 调用MapReduce对文件中各个单词出现次数进行统计
调用MapReduce对文件中各个单词出现次数进行统计 实验配置:系统:Ubuntu Kylin | 环境:Hadoop | 软件:Eclipse 要求 1.将待分析的文件(不少于10000英文单词)上传到HDFS 2.调用MapReduce对文件中各个单词出现的次数进行统计 3.将统计结果下载本地。 操作步骤:调用MapReduce执行WordCount对单词进行计数** 一: • 1. 在Eclipse中创建项目 • 2. 为项目添加需要用到的JAR包 • 3. 编写Java应用程序 • 4. 编译运行
2020-12-19 11:50:21
659
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人