Hadoop
Hadoop生态圈
简单不过l
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HBase基础API(创建、插入、读取、扫描及删除)
添加Maven依赖<dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> <scope>test</scope></dependency><dependency> <groupId>org.apache.hbas原创 2020-12-23 19:56:45 · 689 阅读 · 0 评论 -
HBase简介及HBase Shell操作
HBase的安装可以参照:HBase伪分布式搭建一、简介1、产生背景以前Google存储大量的网页信息,如何存储,如何计算,如何快速查询就成为了一个问题,后来在2003年Google发表了3篇论文提供了解决思路,分别是GFS、MAPREDUCE、BigTable ,但是没有讲源码开源出来,后来这几篇论文被Doung Cutting(被誉为Hadoop之父)看见了,就使用java语言实现了三篇论文,与之对应的就是:GFS— HDFS 分布式存储MAPREDUCE—MAPREDUCE 分布式计算BI原创 2020-12-22 22:11:12 · 642 阅读 · 1 评论 -
Centos7中安装配置Hadoop(伪分布式搭建)
一、安装准备系统:centos7安装包:①jdk-8u221-linux-x64.tar.gz②hadoop-2.6.0-cdh5.14.2.tar.gz③hadoop-native-64-2.6.0.tar(用作除去警告)利用moba将安装包上传到/opt下二、JDK安装及配置输入以下命令解压jdktar -zxvf jdk-8u221-linux-x64.tar.gz配置环境变量,输入下列命令vi /etc/profile找到图中位置(进入文件后直接输入55,然后回车快速定原创 2020-09-03 22:41:46 · 962 阅读 · 2 评论 -
Sqoop数据迁移
Sqoop简介Sqoop是一个用于在Hadoop和关系数据库之间传输数据的工具,可以将数据从传统关系型数据库导入到HDFS、Hive、HBase,也可以将数据从HDFS导出到关系型数据库从RDB导入数据到HDFS导入表到HDFSsqoop import--connect jdbc:mysql://localhost:3306/database--driver com.mysql.jdbc.Driver--table table_name--where "condition"--usern原创 2020-10-11 14:47:40 · 474 阅读 · 0 评论 -
Sqoop环境搭建
Sqoop安装安装前提安装 Sqoop 的前提是已经具备 Java 和 Hadoop、Hive、ZooKeeper、HBase 的环境。下载并解压安装包自取(6z6z):sqoop安装包原创 2020-09-29 17:39:41 · 207 阅读 · 0 评论 -
Hive(三)--窗口函数
窗口函数窗口函数是用于分析用的一类函数,要理解窗口函数要先从聚合函数说起。聚合函数是将某列中多行的值合并为一行,比如sum、count等。 而窗口函数则可以在本行内做运算,得到多行的结果,即每一行对应一行的值。 通用的窗口函数可以用下面的语法来概括:Function() Over (Partition By Column1,Column2,Order By Column3)窗口函数又分为以下三类: 聚合型窗口函数、分析型窗口函数、取值型窗口函数数据准备saml,2018-01-01,10ton原创 2020-09-25 17:26:47 · 403 阅读 · 0 评论 -
Hive(二)--join关联查询及数据装载、交换、排序
Hive查询select语句使用方法与mysql类似SELECT 1;SELECT [DISTINCT] column_nam_list FROM table_name;SELECT * FROM table_name;SELECT * FROM employee WHERE name!='Lucy' LIMIT 5;CTE(Common Table Expression)语法:WITH t1 AS (SELECT …) SELECT * FROM t1嵌套查询SELECT原创 2020-09-24 19:09:30 · 725 阅读 · 0 评论 -
Hive(四)--hive内置函数、自定义函数UDF
Hive函数分类:①从输入输出角度分类标准函数:一行数据中的一列或多列为输入,结果为单一值聚合函数:多行的零列到多列为输入,结果为单一值表生成函数:零个或多个输入,结果为多列或多行②从实现方式分类内置函数自定义函数内置函数Hive提供大量内置函数供开发者使用:①标准函数字符函数// 将字符串A中的符合java正则表达式B的部分替换为Cselect regexp_replace('foobar', 'oo|ar', '') from tableName; //输出fb原创 2020-09-28 16:25:17 · 698 阅读 · 0 评论 -
Hive(一)--hive基础
什么是HiveHive是基于Hadoop的数据仓局解决方案,用来进行数据提取、转化、加载可以将结构化的数据映射为一张数据库表提供类sql的查询语句HQL(Hive Query Language)底层数据是存储在 HDFS 上Hive的本质是将 SQL 语句转换为 MapReduce 任务运行为什么使用HiveHive的优点:①提供了一个简单的优化模型②HQL类SQL语法,简化MR开发③支持在不同的计算框架上运行④支持在HDFS和HBase上临时查询数据⑤支持用户自定义函数、格式原创 2020-09-22 20:15:31 · 293 阅读 · 0 评论 -
MapReduce(分布式计算框架)
什么是MapReduceMapReduce是分布式计算框架,它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务,适用于大规模数据处理场景,每个job包含Map和Reduce两部分MapReduce的设计思想分而治之:简化并行计算的编程模型构建抽象模型:Map和Reduce隐藏系统层细节:开发人员专注于业务逻辑实现MapReduce特点优点:易于编程可扩展性高容错性高吞吐量缺点:难以实时计算不适合流式计算不适合DAG(有向图)计算MapReduce实现WordC.原创 2020-09-21 23:28:30 · 6082 阅读 · 0 评论 -
HDFS分布式文件系统
HDFS分布式文件系统HDFS采用master/slave架构master:NameNodeslave:DataNodeHDFS组成及功能client:客户端,负责存储、读取namenode:元数据节点,管理文件系统的namespace元数据,一个集群只能有一个Active namenodedatanode:数据节点,数据存储节点,保存、检索Block,一个集群可以有多个数据节点secondary namenode:从元数据节点,合并namenode的editlogs到fsimage原创 2020-09-21 22:27:37 · 372 阅读 · 0 评论 -
Hadoop概述
一、hadoop介绍hadoop是一个由Apache基金会所开发的分布式系统基础架构。它可以使用户在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。hadoop的框架最核心的设计就是HDFS和MapReduce,HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。二、使用hadoop的原因高扩展性,可伸缩高可靠性低成本无共享架构灵活,可存储任意类型数据开源,社区活跃三、hadoop能干什么大数据存储:分布式存储日志处理:原创 2020-09-15 23:21:21 · 322 阅读 · 0 评论 -
Hadoop集群HA(高可用)搭建
本篇文章搭建搭建在hadoop集群和zookeeper集群基础之上,若hadoop集群没有搭建请参照:hadoop集群搭建,若zookeeper集群没有搭建,请参照:zookeeper集群搭建一、修改配置文件以下操作在主节点进行,首先进入hadoop目录:cd /opt/hadoop260修改core-site.xmlvi core-site.xml<configuration> <!-- 指定hdfs的nameservice为ns --> <proper原创 2020-09-15 17:16:39 · 260 阅读 · 0 评论 -
Hadoop伪分布式搭建Hbase和Hive
一、安装准备系统centos7:centos7安装Hadoop伪分布式的搭建请参照:伪分布式搭建mysql安装:centos7安装mysqlhbase版本:hbase-1.2.0-cdh5.14.2.tar.gzhive版本:hive-1.1.0-cdh5.14.2.tar.gz安装包需要自取(6z6z):hive、hbase安装包二、Hbase安装、配置将hbase安装上传到/opt目录下解压hbase安装包:tar -zxvf hbase-1.2.0-cdh5.14.2.tar原创 2020-09-15 16:03:44 · 611 阅读 · 0 评论 -
Hadoop集群时间同步设置及Zookeeper安装配置
Hadoop集群还没搭建的小伙伴可以参照:Hadoop集群搭建集群时间同步搭建zookeeper的首要要让集群时间同步首先确认是否安装过ntp: rpm -qa | grep ntp,若下载过则使用yum -y remove 卸载下载ntp:yum install -y ntp(3个虚拟机都要下载)修改所有节点的/etc/ntp.conf文件,命令:vi /etc/ntp.conf,添加如下内容:#当前节点IP地址restrict 192.168.233.101 nomodify not原创 2020-09-08 19:19:07 · 506 阅读 · 0 评论 -
Hadoop集群搭建
搭建Hadoop请参照Centos7中安装配置Hadoop克隆虚拟机在centos中安装并配置完成的前提下,将主节点虚拟机关机点击虚拟机–>管理–>克隆点击下一步可以选择当前状态或快照进行克隆,这里就选择当前状态,点击下一步选择完整克隆修改虚拟机名称和位置后点击完成克隆完成,点击关闭在克隆的虚拟机上选择编辑虚拟机设置分别对网络配置器和网络配置器2进行如下操作完成后,对主节点虚拟机再复制一台,操作与上述相同打开三台虚拟机对克隆的两台虚拟机输入以下命令,修改I原创 2020-09-07 22:53:36 · 232 阅读 · 0 评论 -
IDEA连接HDFS
首先新建maven项目,选择archetype选择quickstart可以参照IDEA创建Maven项目创建好的maven项目的pom.xml很冗长,只需保留如下部分即可在内添加依赖 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.6.0&l原创 2020-09-04 22:21:37 · 3473 阅读 · 1 评论
分享