Hadoop
文章平均质量分 89
Hadoop_Liang
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
openEuler24.03 LTS下安装Flink
openEuler24.03 LTS下安装Flink,详细介绍Flink的三种安装模式:Local模式、Standalone模式、YARN模式。原创 2025-04-08 23:12:24 · 1712 阅读 · 0 评论 -
openEuler24.03 LTS下安装Spark
openEuler24.03 LTS下安装Spark,详细介绍Spark的三种安装模式:Local模式、Standalone模式、YARN模式。原创 2025-04-08 22:29:30 · 1343 阅读 · 0 评论 -
openEuler24.03 LTS下安装HBase集群
openEuler24.03 LTS下安装HBase集群。原创 2025-04-02 22:05:08 · 1114 阅读 · 0 评论 -
openEuler24.03 LTS下安装Flume
openEuler24.03 LTS下安装Flume。原创 2025-04-02 21:45:46 · 946 阅读 · 0 评论 -
openEuler24.03 LTS下安装Kafka集群
openEuler24.03 LTS下Kafka集群。原创 2025-03-30 22:20:48 · 1176 阅读 · 0 评论 -
openEuler24.03 LTS下安装ZooKeeper集群
openEuler24.03 LTS下安装ZooKeeper集群。原创 2025-03-30 21:50:55 · 1200 阅读 · 0 评论 -
openEuler24.03 LTS下安装Hive3
openEuler24.03 LTS下安装Hive3。原创 2025-03-19 23:57:15 · 2728 阅读 · 0 评论 -
openEuler24.03 LTS下安装Hadoop3完全分布式
基于国产的openEuler24.03 LTS SP1安装Hadoop3完全分布式。原创 2025-03-19 23:16:20 · 3061 阅读 · 0 评论 -
单台openEuler24.03 LTS下的开源大数据环境搭建
本文介绍基于单台openEuler24.03 LTS的Linux下的开源大数据环境搭建,安装的大数据环境有:Hadoop、Hive、ZooKeeper、HBase、Kafka等,因为大数据集群通常有多台机器,开启集群时较为麻烦且占用资源多可能会造成电脑卡顿,本文搭建的单台大数据环境可作为替代大数据集群的快速的学习或测试环境。当然,如果电脑配置较好,可直接搭建多台机器的大数据集群环境。原创 2025-03-17 11:01:28 · 1471 阅读 · 0 评论 -
Linux集群实用脚本
Linux集群实用脚本原创 2023-12-17 15:21:11 · 805 阅读 · 0 评论 -
MapReduce WordCount程序实践(IDEA版)
本文介绍如何使用IDEA工具编写一个MapReduce WordCount程序。原创 2023-11-05 15:39:08 · 5030 阅读 · 0 评论 -
Hive Java API操作
hive java api 操作原创 2022-06-22 09:15:08 · 1224 阅读 · 6 评论 -
使用MapReduce处理HBase数据
前提条件IDEA2021安装好hadoop2.x安装好hbase1.x本博文使用的版本为hadoop2.7.3,hbase1.7.1需求MapReduce读取HBase的数据,使用MapReduce对读取到的数据进行词频统计处理,把计算结果输出到HBase中。数据准备启动hadoop和hbasestart-dfs.shstart-hbase.sh进入hbase shell命令行创建输入表word创建输入表wordcreate 'word',原创 2022-04-17 23:28:33 · 6257 阅读 · 0 评论 -
HBase2.x完全分布式集群安装
HBase2.x完全分布式集群安装原创 2022-04-15 16:16:44 · 6310 阅读 · 1 评论 -
CentOS7安装Hadoop3完全分布式
前提条件拥有CentOS7服务器版环境集群规划项目 服务器node2 服务器node3 服务器node4 HDFS NameNode、DataNode DataNode DataNode、SecondaryNameNode Yarn NodeManager Resourcemanager、NodeManager NodeManager 虚拟机准备通网络能ping通外网,例如:ping baidu.com如原创 2022-04-01 16:43:04 · 9117 阅读 · 0 评论 -
HDFS Java API操作(IDEA版)
目标编写Java API来操作HDFS,完成的操作有:文件上传、文件下载、新建文件夹、查看文件、删除文件。前提条件1.Windows下安装好jdk1.82.Windows下安装好maven,这里使用Maven3.6.33.Windows下安装好IDEA,这里使用IDEA20214.Linux下安装好hadoop2,这里使用hadoop2.7.3操作步骤1.新建一个Maven工程打开IDEA-->File-->New-->Project选择原创 2022-03-22 23:57:32 · 13467 阅读 · 1 评论 -
HDFS Shell命令练习
前提条件拥有hadoop2环境,可参考:CentOS7安装hadoop2.7.3伪分布式步骤hdfs常用的操作命令是dfs命令。查看hdfs dfs所有命令[hadoop@node1 ~]$ hdfs dfs Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-che原创 2022-03-21 15:58:48 · 4516 阅读 · 0 评论 -
CentOS7下安装Hadoop伪分布式
前提条件拥有CentOS7服务器版环境软件版本说明jdk1.8hadoop2.7.3虚拟机环境准备通网络能ping通外网,例如:ping baidu.com如果ping不通,可以修改如下文件:vim /etc/sysconfig/network-scripts/ifcfg-ens33将ONBOOT=no改为ONBOOT=yes重启网络或重启机器重启网络systemctl restart network重启机器reboot修原创 2022-03-21 15:42:38 · 8960 阅读 · 0 评论 -
HDFS appendToFile命令DFSClient问题
环境:Ubuntu16.04Hadoop2.7.3 伪分布式发现问题:通过API创建hdfs 的文件(/test1.txt和/test3.txt) 时,使用appendToFile会报错,报错为DFSClient相关错误,错误如下:hadoop@node1:~$ hdfs dfs -appendToFile 2.txt /test1.txtappendToFile: Failed to APPEND_FILE /test1.txt for DFSClient_NONMAPRED.原创 2020-09-30 21:02:49 · 6084 阅读 · 1 评论 -
本地测试MapReduce程序
IDE工具: eclipse设置本地(windows)调试MapReduce程序:1. 编写Mapper类、Reducer类、编写Main类可参考https://blog.youkuaiyun.com/qq_42881421/article/details/833536402.准备本地的输入文件in里面有文本文件a.txta.txt内容如下:hello worldhello hadoophello wordcount3. 设置本地参数:右键Main类-->..原创 2020-09-05 12:44:06 · 1366 阅读 · 1 评论 -
Hadoop HA的搭建
Hadoop HA为Hadoop High Available(高可用),包括 HDFS NameNode HA 和 YRAN ResourceManager HA。本博文详细介绍搭建Hadoop HA的过程。前提条件1. 四台Ubuntu服务器:node1、node2、node3、node42. 四台机器安装好jdk1.8:参考:点这里安装jdk3. ZooKeeper完全分布式集群:node1、node2、node3组成的ZooKeeper集群,参考:点这里安装zk集群集...原创 2020-01-15 00:57:00 · 1421 阅读 · 0 评论 -
Windows MapReduce应用报错:Mkdirs failed to create C:\Users\...\Temp\hadoop-unjarxxx\META-INF\license问题
问题:在Windows系统下运行Hadoop MapReduce应用报错如下:E:\EclipsePro\ssm\aa>hadoop jar target\aa-0.0.1-SNAPSHOT.jar /1.txt /out5Exception in thread "main" java.io.IOException: Mkdirs failed to create C:\User...原创 2019-10-20 23:57:31 · 2804 阅读 · 0 评论 -
Windows10环境下安装Hadoop2.7.3伪分布式
一般情况下都是在Linux环境安装Hadoop,Windows下也可以安装Hadoop,以下是Windows环境下的安装教程。1.Windows下安装jdk1.8 点这里安装jdk1.82.下载Hadoop下载hadoop2.7.3的安装包: hadoop-2.7.3.tar.gz下载地址:http://archive.apache.org/dist/hado...原创 2019-10-16 23:58:28 · 1441 阅读 · 0 评论 -
Pig安装配置
前提条件:1. 安装好hadoop2.7.3安装步骤:1. 下载pig安装文件,下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/pig/或http://archive.apache.org/dist/pig/ 下载版本:pig-0.17.0.tar.gz2. 解压tar -zxvf pig-0.17.0...原创 2018-11-21 23:26:35 · 2242 阅读 · 2 评论 -
Hive安装配置
前提条件:1. 安装好hadoop2.7.3(Linux环境);2. 安装好MySQL5.7(参考:安装MySQL) 推荐使用 或者 Xampp(Windows环境)参考Navicat通过IP连接Xampp数据库3. 通过Navicat连接到mysql数据库,新建一个名为hive的数据库安装步骤:1. 官网下载hive安装文件,下载地址:ht...原创 2018-11-21 22:38:23 · 9032 阅读 · 0 评论 -
Maven工程的MapReduce程序4---MapReduce序列化、分区实验
MapReduce序列化、分区实验有一张员工表emp.csv,内容如下:SAL:为员工工资7369,SMITH,CLERK,7902,1980/12/17,800,,207499,ALLEN,SALESMAN,7698,1981/2/20,1600,300,307521,WARD,SALESMAN,7698,1981/2/22,1250,500,307566,JONES,M...原创 2018-11-21 20:15:50 · 9808 阅读 · 3 评论 -
Maven工程的MapReduce程序3---实现统计各部门员工薪水总和功能(优化)
本文在实现统计各部门员工薪水总和功能的基础上进行,还没实现的话请参考:实现统计各部门员工薪水总和功能优化项目:1.使用序列化2.实现分区Patitioner3.Map使用Combiner使用序列化本案例是在实现统计各部门员工薪水总和功能基础上进行。序列化与反序列化:序列化是指将Java对象转换为二进制串的过程,方便网络传输;反序列化是指将二进制串转换为Ja...原创 2018-11-16 09:46:04 · 7323 阅读 · 1 评论 -
Maven工程的MapReduce程序2---实现统计各部门员工薪水总和功能
前提条件:1. 安装好jdk1.8(Windows环境下)2. 安装好Maven3.3.9(Windows环境下)3. 安装好eclipse(Windows环境下)4. 安装好hadoop(Linux环境下)输入文件:将以下内容复制到Sublime/或Notepad++等编辑器,另存为EMP.csv7369,SMITH,CLERK,7902,1980/12/1...原创 2018-11-04 11:06:55 · 10966 阅读 · 2 评论 -
如何编写MapReduce程序?有套路吗?
初步认识MapReduce编程:MapReduce是简化的并行计算的编程模型,其编程思想简单来说就是:分散任务,汇总结果!执行一个大任务—&amp;amp;amp;amp;gt;执行多个小任务(Map阶段)将多个小任务的结果汇总起来(Reduce阶段)下图为MapReduce的编程的WordCount的编程模型,从输入到输出,中间大致分为Split、Map、Shuffle、Reduce阶段,需要我们编程的只有Map阶段...原创 2018-10-30 16:19:35 · 5757 阅读 · 2 评论 -
Maven工程的MapReduce程序1---实现WordCount功能
前提条件:1. 安装好jdk1.8(Windows环境下)2. 安装好Maven3.3.9(Windows环境下)3. 安装好eclipse(Windows环境下)4. 安装好hadoop(Linux环境下)配置eclipse的Maven:(如果之前配置过,请跳过此步骤)打开eclipse-->Window-->Preferences新建...原创 2018-10-25 01:44:07 · 15793 阅读 · 3 评论 -
HDFS API编程 (Windows eclipse Java工程)
前提条件:Linux系统下安装好Hadoop2.7.3Windows系统下安装好eclipse步骤:新建java工程打开eclipse,新建一个普通java工程, File–&amp;amp;amp;amp;amp;amp;amp;gt;New–&amp;amp;amp;amp;amp;amp;amp;gt;Java Project在Project name写入项目名称, 点击Finish新建好项目,可以看到项目的目录结构如下:为项原创 2018-10-10 18:22:17 · 8229 阅读 · 1 评论 -
Hive自定义函数(UDF)的编写及使用
前提条件:1. 安装好hadoop2.7.3(LInux环境下)2. 安装好Hive2.3.3,参考:Hive的安装配置3. 安装好Maven(Windows环境下)参考:Maven安装4. 安装好eclipse(Windows环境下) Hive自定义函数(UDF),UDF是user-defined function的简写。虽然Hive内置了许多函数供使用,但有时还是满足不...原创 2018-11-24 21:08:05 · 2528 阅读 · 0 评论 -
sqoop常用功能的使用
前提条件:安装好hadoop2.7.3(Linux系统下)安装好sqoop(Linux系统下),参考:Sqoop安装配置安装好MySQL(Windows系统下或者Linux系统下)安装好Hive(Linux系统下)参考:Hive安装配置安装好Hbase(Linux系统下)题目:一.MySQL与HDFS数据互导(相互导入导出) (必做)二.MySQL与Hive数...原创 2018-12-04 21:25:03 · 5312 阅读 · 0 评论 -
Flume安装配置
前提条件:1. 安装好hadoop2.7.3(Linux系统下)安装步骤:1. 下载flume安装文件,下载地址:http://archive.apache.org/dist/flume/ 下载版本:apache-flume-1.8.0-bin.tar.gz 将下载的文件上传到Linux的~目录下2. 解压$ tar -zxvf apache-...原创 2018-12-02 19:26:09 · 3005 阅读 · 0 评论 -
HDFS API编程 (Eclipse Maven工程)
之前写过一篇HDFS API编程 (Windows eclipse Java工程),是用普通的java工程手动导入相关的jar包来完成的。这次博客改用Maven工程,通过Maven来管理相关的jar包,只需要添加相关依赖,便自动完成相关jar包的下载与导入。前提条件:Linux下安装好Hadoop2.7.3Windows下安装好Maven3.3.9Windows系统下安装好e...原创 2019-09-17 17:19:35 · 7810 阅读 · 2 评论 -
Windows下的eclipse远程连接Linux下的Hadoop2.7.3
本文介绍Windows下的eclipse远程连接Linux下的Hadoop2.7.3原创 2018-09-29 18:06:40 · 6307 阅读 · 3 评论 -
HDFS基本shell命令
HDFS有很多shell命令,其中,fs命令可以说是HDFS最常用的命令,利用该命令可以查看HDFS文件系统的目录结构、上传和下载数据、创建文件等。查看hdfsdfs帮助如下:$ hdfs dfsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] ...原创 2019-09-09 12:00:48 · 5626 阅读 · 0 评论 -
Pig-使用PigLatin操作员工表和部门表
前提条件:安装好hadoop2.7.3(Linux系统下)安装好pig(Linux系统下),参考:Pig安装配置准备源数据:1. 打开终端,新建emp.csv文件$ nano emp.csv 输入内容如下,保存退出。7369,SMITH,CLERK,7902,1980/12/17,800,,207499,ALLEN,SALESMAN,7698,1981...原创 2018-12-01 19:51:23 · 1945 阅读 · 0 评论 -
Ubuntu16.04下的Hadoop2.7.3伪分布式环境搭建
本博文是基于虚拟机(VMware)下安装的Linux(这里选择Ubuntu16.04)作为系统环境,然后在Ubuntu上安装Hadoop伪分布式。前提条件:1.安装好虚拟机VMware2.VMware上安装好Ubuntu(服务器版参考:安装Ubuntu16.04(服务器版) 桌面版参考:安装Ubuntu16.04(桌面版))安装步骤:以下安装均在普通用户(即:非roo...原创 2019-04-20 12:34:23 · 13288 阅读 · 5 评论 -
Flume的配置与使用
前提条件:安装好hadoop2.7.3(Linux系统下)安装好Flume,参考:Flume安装配置问题:AvroSource接收外部数据源,Logger作为sink,即通过AvroRPC调用,将数据缓存在channel中,然后通过Logger打印出数据。实验步骤:1.进入有权限的目录,例如~目录$ cd ~2.创建配置文件avro.conf(关键)...原创 2018-12-04 09:54:11 · 3399 阅读 · 0 评论
分享