- 博客(2)
- 收藏
- 关注
原创 RDD编程初级实践
RDD编程初级实践1、需求描述2、环境介绍3、数据来源描述4、数据上传及上传结果查看1.数据上传:2.数据读取:5、数据处理过程描述1.pyspark交互式编程2.编写独立应用程序实现数据去重3.编写独立应用程序实现求平均值问题 1、需求描述 在数据大爆炸的年代,随着数据的日益增长,数据的分析变得尤为重要。所谓数据分析就是将产品相关的数据收集整合,然后利用特定的方法去分析这些数据,从中发现规律或是得到结论。这些特定的方法可以包括专业的统计学、数学建模等,也可以从数据的维度和广度出发,数据收集或对比、总结相似
2021-06-10 19:20:05
795
原创 Ubuntu的安装与MapReduce程序的编译运行
目录一、在Windows中使用VirtualBox安装Ubuntu1.安装前的准备2. 安装Ubuntu二、Hadoop安装教程_单机/伪分布式配置1.创建hadoop用户2.更新apt3.安装SSH、配置SSH无密码登陆4.安装Java环境5.安装 Hadoop 26.Hadoop单机配置(非分布式)7.Hadoop伪分布式配置8.运行Hadoop伪分布式实例三、分布式文件系统HDFS1.利用Shell命令与HDFS进行交互1.目录操作2.文件操作2.利用Java API与HDFS进行交互3.利用Java
2020-12-19 23:57:04
2234
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人