
柳小葱的Hadoop之路
文章平均质量分 77
本专栏主要记录和学习hadoop的相关知识
柳小葱
北京市某高校管理科学与工程专业的学生,主要研究方向是人工智能与大数据,二进宫字节,曾担任字节跳动大数据开发实习生、滴滴出行数据研发及分析实习生,目前已获数据库系统工程师(软考中级)、阿里云大数据助理工程师(ACA)证书。欢迎大家一起学习和交流!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop大数据优化之数据倾斜
一直想写一篇关于数据倾斜的问题,面试必问,可自己又没有碰见过,一直难以下手,最近公司大佬讲述了一节关于数据倾斜的课程,对数据倾斜有了更深的理解,于是想记录一下。原创 2021-09-18 10:31:06 · 1246 阅读 · 1 评论 -
大数据之kafka简介
????已经2个星期没写博客啦,今天接上,我们今天来介绍大数据实时同步中一个非常重要的部分——消息队列kafka,在实时处理领域,kafka可谓是出名至极,在介绍它之前,我们先来介绍一些基础知识。1.分布式的用户在计算机网络中,我们都知道,每一台机器都有自己的ip地址,而IP地址也是我们找到服务器的依据,由于IP地址过于难记,我们就有了域名(www.baidu.com),将IP地址与域名一一对应,通过域名解析,即可找到合适的服务器,可是一台服务器上的服务有很多,我们到底是访问哪个服务呢,我们就需要在IP原创 2021-08-24 23:41:17 · 1437 阅读 · 3 评论 -
hadoop之MR核心shuffle
????首先祝福的大家端午节快乐!别人划龙舟,我写博客,也算是参加端午节的活动!废话不多说,今天我们来介绍一下MapReduce的核心思想!对以前内容感兴趣的小伙伴可以查看下面的内容:链接: Spark之处理布尔、数值和字符串类型的数据.链接: Spark之Dataframe基本操作.链接: Spark之处理布尔、数值和字符串类型的数据.链接: Spark之核心架构.????今天我来学习hadoop中最重要的内容——MapReduce的过程,我们将介绍Map,Reduce,shuffle等详细原创 2021-06-21 13:22:49 · 848 阅读 · 16 评论 -
Hadoop之spark浅析
????Hive之后,接下来就是Spark,Spark是由Scala语言编写,但是也提供其他语言的API供我们访问,让我们开启python学习spark的第一章????目录1.SparkSession2.DataFrame3.数据分区4.转换操作5.动作操作参考资料1.SparkSession我们真正开始编写spark应用程序时,需要一种将用户命令和数据发送给spark的方法,我们通过创建一个SparkSession来实现。或者说,SparkSession就是用来控制spark程序的驱动,每一个spa原创 2021-05-14 19:07:30 · 587 阅读 · 1 评论 -
Hadoop之压缩与存储
⛄️上一节我们了解了一下HDFS的相关结构以及一些基础命令,相信大家对HDFS有了更深的了解,感兴趣的同学可以查看下方????:第一篇: Hadoop之HDFS介绍.第二篇: Hadoop之HDFS的shell命令.????今天我们来学习hadoop的压缩和存储,这一章节与Hive的优化密切相关。1.MR支持的压缩码LZO和Snappy较为重要,但Snappy更常用。压缩格式算法文件扩展名是否可切分DEFLATEDEFLATE.deflate否GzipD原创 2021-05-07 08:30:37 · 402 阅读 · 0 评论 -
Hadoop之HDFS的shell命令
????上一节我们学习了HDFS的基本结构和文件存储的方式,感兴趣的小伙伴可以查看????:文章链接: Hadoop之HDFS介绍.????今天我们来学习一下hadoop的一些命令,这一章是HDFS的重点内容!以后服务器上文件的操作都要用到本文内容。目录1.基本语法2.常用文件操作命令2.1 命令帮助2.2 创建文件2.3上传命令2.4下载命令3.直接操作命令3.1 -ls:显示目录信息3.2 -cat:显示文件内容3.3 -chgrp、-chmod、-chown:修改文件所属权限3.4 -cp:原创 2021-05-05 14:39:33 · 556 阅读 · 0 评论 -
Hadoop之HDFS介绍
???? 昨天我们学习了Hive的函数部分,然后发现自己对HDFS的理解不是太深,于是决定恶补HDFS的架构、文件存储原理和shell,昨天的文章在这????:Hive函数: Hadoop之Hive函数.????今天我们要学习的内容是HDFS的基本原理,重点掌握HDFS文件块的大小!1.HDFS的介绍1.1HDFS的产生背景随着数据量的增大,在一个操作系统下存不下所有数据,那么就分配到更多的操作系统管理磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系原创 2021-05-05 11:55:12 · 485 阅读 · 0 评论 -
Hadoop之Hive函数
????各位小伙伴,大家好,昨天我们学习了Hive中特别重要的内容分区表和分桶表,感兴趣的的小伙伴可以查看????:分区表: Hadoop之Hive的分区表.分桶表: Hadoop之Hive分桶表.????今天我们来学习Hive的函数部分,这一部分内容较多,也很重要!这里写目录标题1.Hive函数的分类2.查询系统自带函数3.常用的内置函数3.1 NVL 空字段赋值3.2 CASE WHEN THEN ELSE END3.3 CONCAT (行转列)3.4 EXPLODE(列转行)4.窗口函数参原创 2021-05-04 17:19:13 · 2614 阅读 · 12 评论 -
Hadoop之Hive分桶表
????前一章节我们学习了hadoop的分区表,感兴趣的小伙伴可以查看下方的连接????:文章: Hadoop之Hive的分区表.????今天我们来学习Hive中的分桶表,这一章节,使用较少,但需要了解即可。1.分桶表分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区。对于一张表或者分区,Hive 可以进一步组织成桶,也就是更为细粒度的数据范围划分,将大文件拆成一个一个小文件。重点是:分区针对的是数据的存储路径;分桶针对的是数据文件。创建数据#数据集1原创 2021-05-03 15:57:33 · 795 阅读 · 0 评论 -
Hadoop之Hive的分区表
????前几天的课程我们学习了Hive数据的导入、导出、查询和排序,有兴趣的小伙伴可以查看以往的文章????:第一篇: Hadoop之Hive数据的导入与导出(DML).第二篇: Hadoop之Hive查询语句.第三篇:Hadoop之Hive的7种Join语句.第四篇: Hadoop之Hive的排序.❗️❗️❗️ 今天要介绍的内容在Hive中非常重要,即分区表分区表1.分区表1.1 分区表的建立1.2 查询分区表中数据1.3 增加分区1.4 删除分区1.5 查看分区1.6 查看分区表结构2.原创 2021-05-03 13:35:26 · 3780 阅读 · 4 评论 -
Hadoop之Hive的排序
????大家好,上章我们讲到了hive的7中Join方式,本章将来讲解Hive中的排序,以往的部分可以查看下方链接????第一篇: Hadoop之Hive数据的导入与导出(DML).第二篇: Hadoop之Hive查询语句.第三篇:Hadoop之Hive的7种Join语句.???? 今天我们来学习Order By和Sort by1.全局排序Order By:全局排序,只有一个 ReducerASC(ascend): 升序(默认)DESC(descend): 降序例:--查询员工信原创 2021-05-02 17:21:44 · 644 阅读 · 2 评论 -
Hadoop之Hive的Join语句
????昨天我们学习了数据库的DML语言,主要包括数据的导入、导出和查询,????有兴趣的小伙伴可以看看????:第一篇: Hadoop之Hive数据的导入与导出(DML).第二篇: Hadoop之Hive查询语句.????今天我们来继续学习Hive的Join部分。听说Join有7种哦!目录:1.内连接2.左外连接3.右外连接4.全外连接5.差值5.1 左表独有5.2右表独有6.左右表独有8.多表连接9.笛卡尔积参考资料1.内连接Hive支持通常的SQL JOIN语句,等值连接是将两张表中原创 2021-05-02 13:21:18 · 703 阅读 · 3 评论 -
Hadoop之Hive查询语句
即上一节我们讲到了数据的导入与导出,我们选择将查询语句单独放在一章,因为这一章比较重要。如果有需要看前面知识的同学可以到链接: Hadoop之Hive数据的导入与导出(DML).1.数据准备创建数据我们要查询,当然少不了数据,这里我们创建两张表dept和emp# dept表的数据10 ACCOUNTING 170020 RESEARCH 180030 SALES 190040 OPERATIONS 1700#emp的数据7369 SMITH CLERK 7902 1980-12-原创 2021-05-01 18:18:03 · 2272 阅读 · 4 评论 -
Hadoop之Hive数据的导入与导出(DML)
上一张章节我们已经讲完了数据库和表的增删改查,感兴趣的小伙伴可以点这里: Hadoop之Hive数据库和表的增删改查(DDL).本章节将要学习对数据操作的DML,主要包括数据的导入和导出,查询等1.数据导入1.1向表中装载数据(load)语法如下:load data [local] inpath '数据的 path' [overwrite] into table student [partition (partcol1=val1,…)];--load data:表示加载数据--local:表示原创 2021-05-01 10:37:48 · 5120 阅读 · 3 评论 -
Hadoop之Hive数据库和表的增删改查(DDL)
Hive QL 是Hive支持的类似SQL的查询语言。Hive QL大体可以分为DDL、DML和UDF语言。DDL语言主要是创建数据库、创建表、数据库和表的删除;DML主要进行数据的添加、查询;UDF支持用户定义查询函数。1.DDL语言1.1 创建数据库CREATE DATABASE [IF NOT EXISTS] database_name --判断是否存在[COMMENT database_comment]--注释[LOCATION hdfs_path]--存储数据的路径[WITH DBPR原创 2021-04-30 09:23:18 · 3813 阅读 · 0 评论 -
Hadoop之Hive数据类型
1.Hive的数据类型1.1基本数据类型Hive数据类型和java数据类型很像,只有几个不同。重点需要记忆的类型是INT、 BIGINT、 BOOLEAN、STRING类型。1.2原创 2021-04-29 19:21:59 · 389 阅读 · 0 评论 -
Hadoop之访问Hive的几种方式
上一节我们配置好了hive,可是我们只能在xshell里面访问hive,也就是说只有你的主机能访问,其他人的都不行,所以我们这里需要知道几种访问hive的方式。1.使用元数据服务访问Hive配置了元数据服务后,本地服务hive无法使用,要想使用,先启服务,再另起窗口访问#将以下部分加入到hive-site.xml文件中 <property> <name>hive.metastore.uris</name> <value>thrift://h原创 2021-04-28 20:12:34 · 3020 阅读 · 0 评论 -
Hadoop之Hive安装MySQL
我安装包是解压缩后的文件,大家也可以用mysql的压缩文件,只要解压缩就行了。我也在后边的步骤中进行了标注,有需要文件的小伙伴可以留言!安装步骤1.添加Mysql的JDBC驱动到Hive的lib目录下2.添加配置信息3.解压缩mysql包到software目录4.删除linux中原有的mysql文件5.安装mysql解压后的rmp文件6.删除/etc/my.cnf 文件中 datadir 指向的目录下的所有内容7.初始化MySQL用户8.启动 MySQL服务9.登录用户修改密码10.修改配置允许多用户访问原创 2021-04-27 17:42:58 · 649 阅读 · 0 评论 -
Hadoop之Hive安装
今天来教大家安装Hive主要有以下几个步骤1.复制压缩文件至虚拟机2.配置环境变量3.解决日志JAR的冲突4.用derby初始化数据库启动出错: [Hive启动时报错Missing Hive Execution Jar: /opt/module/hive/lib/hive-exec-*.jar](https://blog.youkuaiyun.com/weixin_48077303/article/details/116187921?spm=1001.2014.3001.5501).1.复制压缩文件至虚拟机打开x原创 2021-04-27 08:48:12 · 1226 阅读 · 0 评论 -
Hive启动时报错Missing Hive Execution Jar: /opt/module/hive/lib/hive-exec-*.jar
启动hive时报错Missing Hive Execution Jar: /opt/module/hive/lib/hive-exec-*.jar看了一下应该是没找到文件夹下的hive-exec-*.jar包,我们自己找找看发现存在啊!这时,你就需要检查自己的环境变量是否配置好!多检查几遍,是不是目录有问题!然后一定要source一下,最后就成功了!参考资料链接:解决Hive报错....原创 2021-04-27 08:19:21 · 10314 阅读 · 1 评论 -
Hadoop之面试题
hadoop面试时会有两道面试题.1.常用端口号说明端口名称Hadoop 2.XHadoop 3.XNameNode内部通信端口8020/90008020/9000/9820NameNode外部查询端口500709870Yarn查看服务情况80888088历史服务器端口19888198882.常用的配置文件Hadoop2.XHadoop3.Xcore-site.xmlcore-site.xmlhdfs-site.原创 2021-04-26 19:19:57 · 214 阅读 · 0 评论 -
Hadoop之分布式数据仓库(Hive)
Hive最初是由Facebook开发的,后来由Apache基金会开发,并作为Apache的一个顶级开源项目。Hive基于Hadoop,专门为联机分析处理(OLAP)设计,但由于Hadoop Mapreduce并不实时,所以Hive并不适合联机事务处理(OLTP)。Hive的最佳使用场合是大数据集的批处理作业。目录1.Hive的概述2.Hive的特点2.1优点2.2缺点3.Hive的结构4.Hive与数据库的区别4.1数据更新4.2执行延迟4.3数据规模参考资料1.Hive的概述Hive处理的数据是原创 2021-04-26 10:53:19 · 1161 阅读 · 1 评论 -
Hapood配置出错
一定要先停止服务!!!HDFS出错停止hdfs服务stop-dfs.sh检查自己的配置文件hdfs-site.xml重启服务start-dfs.shYARN出错停止yarn服务stop-yarn.sh检查自己的配置文件hdfs-site.xml重启yarn程序start-yarn.sh...原创 2021-04-25 14:50:53 · 190 阅读 · 0 评论 -
Hadoop之集群测试
搭建好环境之后,我们需要上传文件,进行测试。目录1. HDFS文件测试1.1上传小文件1.2上传大文件2. YARN文件测试1. HDFS文件测试1.1上传小文件就会生成一个文件夹。hadoop fs -mkdir /wcinput我们往里面传一个小文件(自己创建的一个文本)hadoop fs -put test01/RNG.txt /wcinput我们再点开看一下:果然是有内容的。还可以点Download下载下来。1.2上传大文件上传一个java的JDK压缩包到wcinput原创 2021-04-25 14:04:42 · 982 阅读 · 4 评论 -
Hadoop之最详细的集群配置和启动集群(完全分布式)
在经历过前面的环境配置后,接下来我们进行Hadoop的集群配置,什么叫做集群配置,这里是指我们将每个服务器配置成功后,每台服务器的Hadoop并没有连接起来,我们需要进行配置,将Hadoop平台连接,具体内容如下:1.集群部署 模块 Hadoop102 Hadoop103 Hadoop104 HDFS NameNode DataNode DataNode原创 2021-04-25 09:36:29 · 835 阅读 · 0 评论 -
Hadoop之SSH免密登录
我们使用大数据技术时,经常需要访问成百上千台其他服务器,每次都需要输入密码,很繁琐,于是需要配制SSH免密登录提高效率。1. SSH原理SSH的原理就是服务器A将自己的公钥给另一台服务器B,代表我俩可以进行访问,然后服务器A用自己的私钥进行加密数据然后发送给B,B接受后利用A的公钥解密数据知道了A要什么,然后B把A所要的数据利用A的公钥加密传输给A。这就完成了数据传输的流程。2. 配置SSH先转到自己的用户目录下cd ~然后查看所有文件包括隐藏文件。ls-alssh-keygen -t原创 2021-04-21 15:08:26 · 958 阅读 · 0 评论 -
Hadoop之文件复制scp和同步rsync
众所周知,Hadoop主要有三种运行模式单机模式(服务器一台,数据由linux管理)伪分布式模式(服务器一台,数据由HDFS管理)完全分布式模式(服务器节点很多,数据分布在多台设备HDFS管理)目前博主主要学习完全分布式模式。配置完全分布式的步骤如下:#mermaid-svg-2jDEV08LsJQdibTr .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill原创 2021-04-17 14:48:01 · 3183 阅读 · 0 评论 -
Hadoop之配置java与hadoop环境
我们学习hapood,需要在系统中配置JAVA和Hadoop环境,今天我们就来使用Xshell配置对应环境。一个hadoop服务器需要这些东西,我们今天的文章只配置java和hadoop环境。#mermaid-svg-9pJKBlGneJuA1ie4 .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-9pJKBl原创 2021-04-17 09:43:41 · 5998 阅读 · 0 评论 -
Hadoop学习之大数据概论
1.大数据的概念大数据:是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。一般来说就是指存储数据在TB、PB、EB量级的数据。主要解决海量数据的采集、存储和分析计算的问题。数据量大产生速度快数据类型多样:结构化(数据库/文本)和非结构化数据(网络日志、音频、视频、图片、地理位置等)密度大,价值低,即价值密度的高低和数据量大小成反比。2.Hadoop入门...原创 2021-04-13 20:22:39 · 1041 阅读 · 4 评论