在下不上天-优快云博客

原创 Sqoop的安装和配置，Sqoop的数据导入导出，MySQL对hdfs数据的操作

sqoop的安装基础是hive和mysql，没有安装好的同学建议去看一看博主的这一篇文章好的那么接下来我们开始表演，由于hive是当时在hadoop03上安装的，所以本次的操作，只要没有特别提出就是在hadoop03执行的。接下来给大家准备好了压缩包，当然也可以自己去官网下载。通过网盘分享的文件：sqoop.zip链接: https://pan.baidu.com/s/1sJInaXbUgUS8alHt_gwqGQ 提取码: d58v--来自百度网盘超级会员v4的分享。

2024-11-28 14:15:11 1271

原创 Azkaban部署

首先我们需要现在相关的组件，在这里已经给大家准备好了相关的安装包，有需要的可以自行下载。如果没有特别说明，这些操作都是在hadoop03上进行这里放一个下载连接！！！通过网盘分享的文件：ak.zip链接: https://pan.baidu.com/s/1E4J9k8LClPj7XuYZWSdNJA 提取码: 4bfp--来自百度网盘超级会员v4的分享首先我们创建一个文件夹创建完成之后，我们切换到software目录下。输入rz上传我们之前上传过的那几个安装包。

2024-11-24 12:13:59 979

原创 flume-将日志采集到hdfs

那么我们挑选一个hadoop02和hadoop03的窗口输入下面的命令查看一下日志的写入情况，那么接下来，让我们切换到hadoop01.选择成功之后，我们再次切换到熟悉的conf目录。在虚拟机hadoop02和hadoop03上的conf目录下配置相同的日志采集方案，‘上面的操作完成之后，我们各自克隆3个hadoop02和hadoop03窗口。复制完成之后我们切换到flume的lib目录下，把之前的guava删除掉。，没有启动的回到文章的第一行，启动集群，再回来。那么好，上面的弄完了，我们接下来切换到。

2024-11-22 20:38:33 1247

原创 Flume日志采集系统的部署,实现flume负载均衡，flume故障恢复

大家根究自己的实际情况来进行修改哈，污垢不知道自己的java环境变量是什么的话，可以冒号weq保存退出之后，在命令行输入·分发完hadoop02和hadoop03环境变量，接下来我们需要分别在hadop02，和hadoop03上输入。看到这里首先不要着急的去复制。配置完成之后，我们在hadoop02上执行下面的命令，来启动agent。都干完之后，我们来到hadop01的flume的conf目录。ok，fine，一切完成之后，让我们差点道conf目录。来都来了，我们顺手配置一下flume的环境变量。

2024-11-22 18:53:34 1263

原创 Hive操作数据库，表等操作

外部表是指表的数据实际存储在Hive Metastore之外的位置（如HDFS、HBase、Amazon S3等），Hive仅维护表的元数据（如表结构、分区信息等），而不管理数据本身。小小小提示，这句删除hive_db数据库里面所有的表和数据，如果数据库不为空，你没有删除成功的话，可以加上CASCADE关键字来进行一个强制的删除。发现叫全面之后，我们切换到hadoop03的虚拟机，输入下面的命令启动hadoop03上面，启动一下我们配置的MetaStore服务。

2024-11-02 13:24:10 1274

原创 Hive的部署，远程模式搭建，centos换源，linux上下载mysql。

已经给大家准备好了，这个文件里包含了应该有的hive的压缩包，mysql的jar包驱动，还有hadoop02和03的hive-site文件。删除当前目录下版本比较低的guava，如果不是下载的4.0版本的，可能自己的guava不是22版本，大家根据自己的实际情况进行修改哈。删除当前目录下版本比较低的guava，如果不是下载的4.0版本的，可能自己的guava不是22版本，大家根据自己的实际情况进行修改哈。一比较发现，hadoop的版本比较高，那我们就把hadoop目录下版本高的文件cp到hive下面，

2024-11-01 18:47:55 1046

原创 Hadoop高可用集群搭建，NameNode启动不成功问题,DFSZKFailoverController启动不成问题

有一个完整并且搭建成功，可以启动的zookeeper集群！没搭建好zookeeper的去博主的上一篇文章搭建一下。

2024-10-25 13:35:22 2433

原创 ZooKeeper的Java API操作，pom依赖未生效问题

接下来我们再写一个方法，读取一下ZNode里面的内容，使用getData方法,第四行代码用于后去数据，并且注册watcher监听了创建节点的变化。创建方法完成后，我们再到main里，进行方法的调用，将之前创建节点时候写入的fruit改写成fruit_new。创建完成后，依旧是老规矩，将之前在main中的方法都注释掉，然后，在main中添加下列代码。创建完成后，我们可以使用exists()方法，来判断一下，这个ZNode是否存在。代码运行成功后，会将获取通知里的事件类型，通知状态，和节点路径，输出到控制台。

2024-10-19 12:29:02 846

原创 ZooKeeper的Shell操作

表示 ZNode数据内容的版本号,数据内容每修改一次,版本号就会加1. aclVersion: 表示 ZNode 权限的版本号,权限每修改一次,版本号就会加1。create命令是在ZooKeeper中创建一个ZNode,并且为ZNode输入一个指定的内容，通过create命令默认创建的ZNode是一持久节点。:表示临时节点和临时顺序节点的会话ID,如果 ZNode 的类型为持久节点或持久顺序节点,那么该属性的值为 0x0。表示 ZNode 子节点的版本号,子节点每修改一次,版本号就会加1。

2024-10-18 10:25:01 915

原创基于完全分布模式部署ZooKeeper集群

之后在hadoop01,hadoop02,hadoop03中都创建目录,请注意，这个地方的目录和上面配置文件设置持久化目录的时候，文件地址需要一样。上传完成后，对文件进行解压，意思是将这个文件解压到刚刚创建的/export/servers目录。输入下面的内容，请注意，其中的hadoop01主机名的地方，需要和自己实际的主机名配合起来。分别在hadoop01，hadoop02 ，hadoop03上输入下面的命令，以启动集群。--------------这里放一张运行成功的照片。

2024-10-17 11:12:54 2352 3

原创 MapReduce经典案例-倒排索引

Combine阶段的实现，对每个单词进行词频统计，大致思路是，创建一个四有对象，来基本上确定键值对的格式，然后重写reduce放大没见过键值对的格式设置为单词，将键值对的格式改为：文档名称：单词次数。大概思路是，先生成一个对象用于储存单词还有文档的名称，然后重写map方法，将单词和文件名以键值对的方法进行输出，方便下一阶段Combine的实现。如果不顺利，出现了类似于下面这种信息的报错，可能是大家之前的虚拟机出现了问题，大家进行了一个恢复快照的操作。那么解决的方法是，大家回到hadoop01的终端，输入。

2024-10-12 11:19:00 1347 2

原创 MapReduce经典案例TopN

在配置完pom.xml文件之后，需要打开idea，首先新建一个txt，编辑完内容之后再重命名，就可以，不配置log4j文件，运行的时候可能会报错。这里给新建项目需要配置文件的同学看的，如果是在原来的项目新建ok了，依赖等等都破诶之完毕，可以忽略下面的信息，直接跳转到。对算法内容进行简单定，在reduce方法中，判断treemap存放的数据，并且判断最大数据，遍历输出最大的5个数据。在下面的代码里，记得在那里修改一下自己版本，作者的是3.3.1版本，如果是别的版本要记得修改。

2024-10-10 12:00:04 695 1

原创 Reduce经典案例-数据去重

再开始之前，需要大家在d盘根目录下，创建Dedup，再在Dedup下创建input文件，在input文件里再创建下面两个文件。这一行代码的意思是，在cn.itcast中，新建了一个dedup包，如果大家在新的地方新建了，可以不用复制第一行代码。以确定上传和保存的路径，一定不要自己创建output目录啊，不然会报错的，在这一阶段，可以读取数据文件，将解析的行偏移量以及内解析成键值对的形式。利用Shuffle的工作原理，将相同的地方进行合并，以实现去重的目的。并且打开idea，以并且配置好了依赖文件。

2024-10-10 11:33:37 629 2

原创 Python-BeautifulSoup爬取网络小说

如果出现了其他的东西，就去找个别的文章，看一下自己的环境变量有没有配置好。本代码爬取了目标网站，都市小说分类的，最好看榜单的前4本小说的前2章。本文章仅仅用作教学，自用，滥用导致的问题与本文章无关。安装好python，以及编译器后，还需要下载几个包。这里请大家提前安装好python，不过多赘述。按住win+r键，打开任务资源管理器，如果需要修改，大家可以自行进行修改。目前就这些，如果有别的大家就按照。如果正确就可以进行下一步操作。安装并且配置完环境变量后。如果出现了版本就继续操作。

2024-09-27 17:30:40 359 1

原创 Hadoop使用javaAPI操作HDFS，maven配置等

详情看文章

2024-09-21 16:54:35 2875

原创关于HDFS的Shell的基础简单操作并且通过Shell脚本定时采集到HDFS

hdfs是dfs的一个具体表现形式，dfs涵盖了其他多种类的文件时分布系统。启动脚本完成后，首先教大家如何创建心仪的文件夹，自己创建的文件夹，不怕找不到目录哈。其中-f命令可以选可以不选，用于判断要下载的文件在不在本地，如果在则进行覆盖下载。在你的物理机上，创建两个文件，a.txt和b.txt,都输入内容，注意要有区别。查看置顶目录下的文件和子目录的大小，并默认将文件格式默认转化为方便观察的形式。cat命令用于显示文件内容，可以查看输出的信息是否和自己一卡式录入的一致。

2024-09-20 09:53:25 521

原创如何在hadoop上进行词频统计（完全分布）

可以通过，web UI的方式查看是否上传成功。进入到这个页面，点击右上角的，Utilities，点击第一个选项，即可查看文件是否上传成功。不要自己创建output目录，如果自己创建了output目录会导致程序运行失败，也可以改一个没有碰到过的命令。那么最后，可以去HDFS的ui查看统计结果，结果存放在wordcount/output目录中。上传完成后，需要将上传的文件再次上传到hadoop1的刚刚创建的input目录下。然后在hadoop1的虚拟机下，创建目录，只创建这一个目录就可以。

2024-09-18 15:35:37 1119 7

原创完全分布和伪分布模式部署Hadoop集群搭建，需要的同学都可以看~

在centos9版本的情况下不能直接连接，因为centos9一般不允许root用户远程登录，这里进行展示的虚拟机是centos7。打开我的电脑，来到c盘，windows-->system32-->divers-->etc==>hosts。需要注意的是，在拷贝过程中，如果需要输入yes的地方，要输入yes！如果里面是个空文件，就先退出，然后输入cd，之后再操作。首先，切换到hadoop目录下面的sbin目录下，有一个一键脚本启动。做完下面这些然后跟着6.2走。之后，输入解压缩命令，对hadoop进行解压缩。

2024-09-08 11:28:16 1299 3

原创 linux中centos7和kali的网络配置，百分百包连接，ping不通外网你打我！！！干货分享！

在使用NAT模式时，虚拟机与物理机共同处在一个网段，即同一个局域网之下。重点关注物理机的VMnet8的网卡ip地址的前三位。在虚拟机的终端中输入，回车确认重启network服务不行就总有一款重启网络的命令适合你。然后就可以ping一下百度，查看网络是否连接成功。

2024-07-05 23:02:14 753 3

qianwanfuweng的博客