大数据
文章平均质量分 88
space202020
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RDD编程初级实践
RDD编程初级实践 一、实验目的 (1)熟悉Spark的RDD基本操作及键值对操作; (2)熟悉使用RDD编程解决实际具体问题的方法。 二、实验平台 操作系统:Ubuntu16.04 Spark版本:2.4.0 Python版本:3.4.3 三、实验内容和要求 1.pyspark交互式编程 本作业提供分析数据data.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示: Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStructure,60 Jim,DataBa原创 2021-06-14 19:34:00 · 7994 阅读 · 3 评论 -
调用Mapreduce对一篇英文文章的英文单词进行统计
调用MapReduce对英文单词做统计 首先,我们需要安装hadoop才能够使用它里面的MapReduce功能来对文章进行分析统计。安装hadoop我是使用虚拟机Linux操作系统Ubuntu来作为hadoop的安装环境,当然你也可以使用本地windows来作为安装环境,这些不影响hadoop的功能使用和实现。 一.Hadoop的安装 (一)准备工作 1、创建用户 如果你安装 Ubuntu 的时候不是用的 “hadoop” 用户,那么需要增加一个名为 hadoop 的用户: sudo useradd -m原创 2020-12-10 21:33:14 · 974 阅读 · 0 评论
分享