
Hadoop集群搭建及实例应用
文章平均质量分 62
从0开始搭建Hadoop集群并利用
EEEurekaaa!
项目源代码 +v aq34999
展开
-
Hadoop生态中各组件作用及关系
Hadoop生态各组件关系原创 2022-12-06 11:38:08 · 1303 阅读 · 0 评论 -
Hbase高可用集群的搭建
由于我们配置的hbase为高可用,而hbase本身无法识别我们设置的ns1(文件系统名)是什么,所以我们要将Hadoop的core-site和hdfs-site文件复制到hbase的conf目录下。高可用时由于zookeeper的选举机制,我们不知道每次启动时具体active的namenode因此就要求我们在配置hbase-site时不能直接指定具体的主机名。说明:此处的ns1要跟hadop高可用配置中hdfs-site.xml和core-site.xml中的一致。推荐去国内源进行安装。原创 2023-05-24 09:53:39 · 921 阅读 · 0 评论 -
HIVE的安装与配置
安装环境与前提:1.三台虚拟机,已经进行了映射关系建立(/etc/hosts目录)2.Hadoop集群已经完成安装3.虚拟机mysql数据库已经完成安装若上方工作未完成,请移步我之前的文章进行安装。ps:并不需要zookeeper和ha高可用集群,有也不影响。原创 2023-01-02 17:51:17 · 731 阅读 · 0 评论 -
Kafka安装与配置
与文中内容不同的是zookeeper中三台虚拟机名分别为hadoop1,hadoop2,hadoop3。而本文Kafka配置教程中,三台虚拟机名分别为node1,node2,node3。这本质都是一样的,只是名字不同,只需要修改名字,端口号等不需要改动。Kafka文件下的config/server.properties。需要注意的是,启动停止都需要在Kafka的bin目录下。停止: kafka-server-stop.sh。在kafka文件夹下创建logs文件夹。先在随便一台虚拟机上启动消费者。原创 2023-05-24 08:53:08 · 450 阅读 · 0 评论 -
Flume监测爬虫文件夹内容并上传到HDFS
前面文章提到的爬虫程序编写完成后,在虚拟机上使用python3 ****.py运行,程序中的文件输出路径为/export/nocv_data。这里还采取了负载均衡的策略,也就是我们规定一个组(这里三台),组内一台监测文件夹并将数据包装成事件送出,由另外两台虚拟机上传到hdfs中。另外为了防止数据过多对本地文件占用等问题,我们需要设置deletePolicy参数,将文件采集之后即删除。启动顺序是,先第二级后第一级。之后我们启动flume后,运行爬虫程序,这样就可以实现flume试试上传数据到hdfs上。原创 2022-12-23 10:45:06 · 1049 阅读 · 0 评论 -
基于Hadoop集群实现数据处理及可视化展示
后续会将文章写出来,我这个项目的主题是疫情(虽然疫情快结束了,主要是分享思路,祝大家身体健康),数据来源于百度疫情(世界和我国各城市相关疫情数据)和一个私人的疫情网站(我国近十天的历史疫情数据),页面比较简陋,因为本人前端的功底比较薄弱。在以上基础上,可设置Linux的定时程序组合命令,实现实时爬取监控。1.部署爬虫到虚拟机(先在虚拟机中配置python环境)6.上传springboot项目到服务器,在线展示。3.编写mapreduce排序,去空值,规范数据。原创 2022-12-13 23:05:16 · 1843 阅读 · 5 评论 -
HADOOP组件--FLUME、AZKABAN、SQOOP安装
先说一下FLUME的工作流程数据可通过监听收集,然后通过管道下沉到sink最终存放到hdfs上,可通过编辑conf文件来指定flume执行的任务,有些采集任务需要集群中多台机器进行工作,所以要安装到三台虚拟机当中老样子,可以在官网下载安装包,这里采用的flume的版本时1.9,同样不推荐太新的版本。上传安装包解压到servers中之后配置环境变量 vi /etc/profile下输入(这个文件的作用就是生成一个全局变量,在就是无论在任何位置都可以运行他的命令,如果没有设置就必须在路径下去运行)之原创 2022-12-08 13:20:30 · 412 阅读 · 0 评论 -
Linux虚拟机静态ip配置方法
Linux虚拟机静态ip配置方法(搭建Hadoop集群的网络) 之后重启一下网络服务测试 成功 使用ping命令进行测试,有的机器可能出现name or service not know解决方法可见本人博客:Linux系统下ping命令报错 name or service not know_EEEurekaaa!的博客-优快云博客原创 2022-12-06 12:40:13 · 392 阅读 · 0 评论 -
SecureCRT远程连接虚拟机
所有远程连接工具连接虚拟机都是通过ssh2协议进行连接的,ssh是secure shell的简称,它相对于早期的telnet和rsh的明文传输,提供了加密、校验和压缩,使得我们可以很安全的远程操作。使用该软件最好通过正规渠道购买,仅作学习用途也可以pj,教程这里不再赘述,网上有很多。说一下破解注意事项:在安装好软件之后不要立即启动,将压缩包下的keygen.exe拷贝到软件根目录下,然后用管理员身份运行keygen,一定要用管理员身份运行其他具体步骤和工具可在网络搜索在连接之前需要对虚拟机先进行一个操作:关原创 2022-12-06 12:57:30 · 2543 阅读 · 0 评论 -
配置虚拟机主机名并建立与本地主机的ip映射关系
主机间映射关系建立原创 2022-12-06 13:20:08 · 4527 阅读 · 0 评论 -
生成集群其他的虚拟机并进行相关准备
目录1.集群架构2.目录准备3.生成hadoop2和hadoop3本次实例共使用三台虚拟机,搭建基于zookeeper的Hadoop高可用集群虚拟机的任务分配如下:以下各进程的功能在后续安装时会有详细介绍NameNode(HDFS)DataNode(HDFS)ResourceMannger(Yarn)NodeMannger(Yarn)QuorumPeerMain(Zookeeper)JournalManager(Zookeeper)ZKFailoverController(Zookeeper)首先在hado原创 2022-12-06 14:48:32 · 457 阅读 · 0 评论 -
虚拟机上MySQL的安装及远程连接
使用wget命令下载mysql的yum源在此之前要先安装wget命令之后执行 使用上面的命令就直接下载了安装用的Yum Repository然后用下面的命令更新升级GPG(可选) 之后安装yum源即可然后再安装MySQL服务器(有可能会耗时比较长,耐心等待,或者去官网直接下载再拷贝)安装完毕之后启动mysql服务器即可启动成功! 然后我们去修改mysql的密码先获取临时密码这里我们拿着临时密码去登录mysql并修改密码mysql -uroot -p 之后我们原创 2022-12-07 13:53:55 · 1760 阅读 · 0 评论 -
虚拟机JDK的安装
JDK是java的开发工具包,hadoop是用java开发的,所以需要安装jdk直接去网上下载一个Linux用的jdk包就可以,这里使用的是1.8版本的jdk通过lrzsz命令上传包,没有此命令需要安装解压此包到servers下tar -xzvf jdk-8u161-linux-x64.tar.gz -C ../servers之后配置环境变量vi /etc/profile在文件的最下方添加如下内容具体要看自己的jdk在那个位置之后使环境变量生效source /etc/profile测试发现 安装成功之原创 2022-12-07 14:39:44 · 1259 阅读 · 0 评论 -
集群上Zookeeper服务的搭建
安装包可以直接去官网下载,尽量不要选择太新的版本这里选择的是3.6.3要先在虚拟机上安装lrzsz命令以便于我们将文件从本地上传到虚拟机yum install lrzsz之后把安装包上传到集群当中然后把zookeeper解压到servers中 tar -xzvf apache-zookeeper-3.6.3-bin.tar.gz -C ../servers之后我们为Zookeeper配置环境变量在文件末尾添加如下内容之后我们配置zookeeper复制一份然后去修改 cp zoo_sample.cfg原创 2022-12-07 15:15:48 · 150 阅读 · 0 评论 -
Hadoop高可用集群HA的安装
我们依照之前规划的集群进行搭建。不明白可以去的集群架构中查看生成集群其他的虚拟机并进行相关准备_EEEurekaaa!的博客-优快云博客这里采用的Hadoop版本是3.1.4,不要选择太新的版本安装包可以直接去官网下载首先要安装Hadoop先把安装包放入software文件夹中把该文件包解压到servers路径下 tar -xvzf hadoop-3.1.4.tar.gz -C ../servers/我们需要对这6个文件进行修改这个文件主要是规定服务器中jdk的位置以及hdf和yarn的操作用户代码如下:原创 2022-12-07 16:55:51 · 717 阅读 · 0 评论