
大数据平台技术学习记录
文章平均质量分 84
Hadooop,MapReduce
亚尔蒂兰
前途似海,来日方长
展开
-
Spark Streaming的操作实践
实验内容与要求:1. Spark Streaming基本知识总结2. Spark Streaming的操作实践:2.1 SparkStreaming的workCount案例2.2 Spark Streaming与Flume和Kafka 的整合实践1. Spark Streaming基本知识的总结Spark Streaming是Spark软件栈中一个用于流计算的组件,它将数据流沿时间轴分片,再交给Spark对分片的数据进行批处理,所以SparkStreaming并没有真正地实现流计算,但也能满原创 2022-06-16 16:06:32 · 5504 阅读 · 0 评论 -
Spark的操作实践
实验内容与要求1.Spark基本知识总结2.Spark的操作实践:2.1 Spark的安装部署2.2 Scala语言编程实践2.3 基于Spark shell的WordCount实践2.4 基于IDEA+Maven的Spark编程实践2.5 pySpark实践1. Spark基本知识的总结Spark借鉴了MapReduce计算框架的优点,解决了MapReduce存在的局限性,支持多种语言编程,支持多种部署方式,并能够很好地融入Hadoop中,完成更多的功能Spark的运行架构:D原创 2022-06-16 16:05:54 · 3850 阅读 · 0 评论 -
Hbase的安装部署实践
1.安装Hbase首先安装zookeeper将压缩包放到桌面,使用tar命令解压到/usr/local目录下,使用vim修改用户根目录的配置文件,将zookeeper的安装目录添加进去,使用source命令使修改生效,配置完存储目录和日志输出目录后,使用zkServer.sh start命令启动zookeeper,使用jps命令检查,出现QuorumPeerMain进程即为成功第二步,安装Hbase,解压压缩包文件,将Hbase安装路径添加到系统环境变量,修改hbase-env.sh和hbase-si原创 2022-04-18 21:00:59 · 3769 阅读 · 0 评论 -
MapReduce操作实践
实验内容与要求:MapReduce基本知识总结MapReduce的操作实践2.1 基于MapReduce的WordCount实践:统计每个单词出现的次数2.2 自定义Hadoop数据类型实践:自定义hadoop数据类型,在统计每个单词出现次数的过程中,同时计算每个单词的长度2.3 多mapReduce任务的串联实践:基于MapReduce统计共有多少个单词,而不是每个单词出现的次数1. MapReduce基本知识的总结MapReduce是一个运行在Hadoop上的分布式计算框架,用于处理大原创 2022-04-04 22:20:42 · 2923 阅读 · 1 评论 -
HDFS基本操作实践
实验内容:在HDFS的shell客户端和Java API客户端操作HDFS的节点,对文件进行操作实验数据记录:在HDFS的shell端操作:主要使用了 hadoop fs 的一些简单指令在HDFS的Java API端操作:打开安装好的IDEA,新建maven项目,点击右上角setting,配置maven:在pom.xml文件中添加如下内容:<dependency> <groupId>org.apache.hadoop</groupId>原创 2022-03-19 18:58:00 · 2357 阅读 · 0 评论 -
开发环境搭建与Hadoop的配置
1.虚拟机的创建1.1.Vmware的安装将Vmware软件安装包下载至电脑,解压并点击安装软件1.2.虚拟机的创建点击 创建新的虚拟机 创建虚拟机,命名为ubuntu,选择ubuntu镜像文件,设置虚拟机硬盘容量等打开虚拟机时遇到问题:解决办法:禁用hyper-v相关服务,失败,将Vmware软件升级至16.1.1版本,可正常启动虚拟机1.3.VMware tools的安装在VMware界面点击虚拟机,选择 安装VMware tools,ubuntu界面出现VMware toolsDV原创 2022-03-18 12:00:54 · 3971 阅读 · 0 评论