
大数据
文章平均质量分 90
BB侠的大数据之旅
愿我们的生活不会有bug
展开
-
大数据数据库之HBase:集群安装部署
文章目录前言1. HBase集群安装部署1.1 准备安装包1.2 修改HBase配置文件1.2.1 hbase-env.sh1.2.2 hbase-site.xml1.2.3 regionservers1.2.4 back-masters1.3 分发安装包1.4 创建软连接1.5 添加HBase环境变量1.6 HBase的启动与停止1.7 访问WEB页面1.8 停止HBase集群总结前言Hive的学习告一段落,接下来开始了解大数据主流NoSql数据库HBase,本文主要讲解HBase集群的安装部署,为原创 2021-03-30 10:48:28 · 849 阅读 · 2 评论 -
大数据分析利器之Hive(三):企业级hive调优
系列文章目录大数据分析利器之Hive(一)大数据分析利器之Hive(二)大数据分析利器之Hive(三)文章目录系列文章目录前言1. Hive表的数据压缩1、数据的压缩说明2、压缩配置参数3、开启Map输出阶段压缩4、 开启Reduce输出阶段压缩2. Hive表的文件存储格式1、列式存储和行式存储2 、TEXTFILE格式3 、ORC格式4 、PARQUET格式5、 主流文件存储格式(TEXTFILE/ORC/PARQUET)3、存储和压缩结合1. 创建一个非压缩的的ORC存储方式2. 创建一个原创 2021-03-26 16:35:54 · 201 阅读 · 0 评论 -
SQL必练50题(HQL版)
HQL 50题1.建表create table study.student ( student_id string -- 学生编号 ,name string -- 学生姓名 ,birthday string -- 学生生日 ,sex string -- 学生性别)stored as parquettblproperties("orc.compress"="snappy");create table stu原创 2021-03-22 10:26:07 · 636 阅读 · 1 评论 -
大数据分析利器之Hive(二):Hive的动态分区、静态分区和分桶表
系列文章目录大数据分析利器之Hive(一)大数据分析利器之Hive(二)文章目录系列文章目录前言1.Hive的分桶表1.1 分桶表原理1.2 作用1.3 案例演示:创建分桶表2.Hive数据导入2.1 直接向表中插入数据(强烈不推荐使用)2.2 通过load加载数据(必须掌握)2.3 通过查询加载数据(必须掌握)2.4 查询语句中创建表并加载数据(as select)2.5 创建表时指定location2.6 export导出与import 导入 hive表数据(内部表操作)3. Hive数据导出原创 2021-03-22 10:13:47 · 1236 阅读 · 3 评论 -
大数据分析利器之Hive(一):数仓与数据库的区别以及hive的各种DDL语法
系列文章目录大数据分析利器之Hive(一)文章目录系列文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言本文主要围绕hive的基础知识点进行讲解。主要包括以下几个方面:hive的核心概念hive与数据库的区别hive的架构原理hive的交互方式hive的数据类型hive的DDL语法操作提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的原创 2021-03-11 11:18:32 · 628 阅读 · 1 评论 -
Hive安装部署
文章目录前言1. root用户下安装mysql2. 安装mysql2.1 下载并安装mysql官方的yum源2.2 安装mysql3. 设置mysql3.1 mysql服务3.2 修改密码2. Hive的安装部署1.1 先决条件1.2 准备安装包1.3 解压1.4 修改配置文件1.5 拷贝mysql驱动包1.6 配置Hive环境变量1.7 验证安装总结前言为了后续更好的学习hive数仓,这里先附上Hive安装部署的教程。后续文章会详细讲解hive的原理和使用。安装Hive的前置条件是:1.安装好对应原创 2021-03-09 16:26:58 · 510 阅读 · 0 评论 -
zookeeper-3.4.5-cdh5.14.2安装部署(三节点)
文章目录1. 三台机器安装zookeeper集群1.1 下载zookeeeper的压缩包,下载网址如下1.2 解压1.3 修改配置文件1.4 添加myid配置1.5 安装包分发并修改myid的值1.6 配置环境变量1.7 三台机器启动zookeeper服务1.8 如何关闭zookeeper集群1. 三台机器安装zookeeper集群注意事项:*三台机器一定要保证时钟同步1.1 下载zookeeeper的压缩包,下载网址如下http://archive.cloudera.com/cdh5/c原创 2021-03-02 09:21:54 · 750 阅读 · 0 评论 -
大数据环境准备hadoop集群搭建(三节点)
文章目录前言1. 安装大数据集群前的环境准备3. hadoop集群的安装2. hadoop集群的安装第一步:上传压缩包并解压第二步:查看hadoop支持的压缩方式以及本地库第三步:修改配置文件修改hadoop-env.sh修改core-site.xml修改hdfs-site.xml修改mapred-site.xml修改yarn-site.xml修改slaves文件第四步:创建文件存放目录第五步:安装包的分发scp第六步:配置hadoop的环境变量第七步:集群启动1. 格式化集群2. 脚本一键启动第八步:浏.原创 2021-03-01 11:49:15 · 1618 阅读 · 3 评论 -
大数据服务器环境准备(三台服务)
文章目录前言一、 三台linux服务器的安装1. 安装VmWare2. 通过Vmware安装第一台linux机器3. 为我们创建的linux虚拟机挂载操作系统4. 为我们的linux虚拟机设置网络配置5. 克隆第一台机器6. 更改克隆机器的IP地址总结前言本文主要记录大数据环境准备及hadoop和zookeeper集群搭建,服务器方面不缺钱可以直接买阿里云的ecs,这里用VmWare虚拟机作为示例。提示:以下是本篇文章正文内容,下面案例可供参考一、 三台linux服务器的安装1. 安装VmWa原创 2021-02-26 09:40:30 · 3040 阅读 · 4 评论 -
Hive insert overwrite时设置lzo压缩格式报错:NATIVE-LZO LIBRARY NOT AVAILABLE 解决方案
最近在将hive中的临时表数据insert overwrite到ods表中去的时候,设置为lzo的压缩格式,报错如下:Caused by: java.lang.RuntimeException: native-lzo library not available针对"native-lzo library not available" 异常即lzo安装的异常。查了很多帖子,最终整合了解决方法。1.将 HADOOP-LZO-0.4.20放到 每个机器的 /HADOOP-2.7.2/SHARE/HADO原创 2021-02-25 10:22:49 · 2446 阅读 · 3 评论 -
大数据框架Hadoop:第三章 资源调度系统YARN(一)
系列文章目录第一章 HDFS分布式文件系统(一)大数据框架Hadoop:第一章 HDFS分布式文件系统(二)大数据框架Hadoop:第二章 计算框架MapReduce(一)大数据框架Hadoop:第二章 计算框架MapReduce(二)大数据框架Hadoop:第三章 资源调度系统YARN(一)文章目录系列文章目录前言一、YARN是什么?二、YARN架构1.ResourceManager2.NodeManager3.Container4.ApplicationMaster三、YARN应原创 2021-01-17 19:10:07 · 335 阅读 · 0 评论 -
大数据框架Hadoop:第二章 计算框架MapReduc(二)分区、排序、归并、分组以及MapTask和ReduceTask
系列文章目录大数据框架Hadoop:第一章 HDFS分布式文件系统(一)大数据框架Hadoop:第一章 HDFS分布式文件系统(二)大数据框架Hadoop:第二章 计算框架MapReduce(一)大数据框架Hadoop:第二章 计算框架MapReduce(二)文章目录系列文章目录前言一、Map Task数量及切片机制1.MapTask个数2. 如何控制mapTask的个数二、分区、排序、归并、分组1.mapreduce的partitioner详解默认分区器HashPartitioner自原创 2020-12-22 16:57:30 · 481 阅读 · 0 评论 -
大数据框架Hadoop:第二章 计算框架MapReduce(一)
Hadoop系列文章目录大数据框架Hadoop(一):HDFS分布式文件系统(上)大数据框架Hadoop(二):HDFS分布式文件系统(下)大数据框架Hadoop(三):计算框架MapReduce(上)文章目录Hadoop系列文章目录前言一、MapReduce是什么?1. mapreduce的定义2.mapreduce的核心思想二、MapReduce编程1.MapReduce编程模型1. Map阶段2. Reduce阶段2.Mapreduce编程指导思想(八个步骤)1. Map阶段2个步骤2. s原创 2020-12-20 11:45:40 · 293 阅读 · 2 评论 -
大数据框架Hadoop:第一章 HDFS分布式文件系统(二)【HDFS的读写流程】
第一章 Hadoop 分布式文件系统HDFS(下)第一代大数据框架Hadoop由:HDFS分布式文件系统、MapReduce计算框架和YARN资源调度框架组成,本文为学习HDFS分布式文件系统时记录的学习笔记。文章目录第一章 Hadoop 分布式文件系统HDFS(下)前言一、HDFS的运行模式和HDFS的优缺点?1.Hadoop的运行模式1. 本地运行模式2. 伪分布式运行模式3.完全分布式运行模式(重点)2.HDFS的优缺点1.HDFS的优点二、使用步骤1.引入库2.读入数据总结前言上一篇文原创 2020-12-17 11:30:42 · 742 阅读 · 4 评论 -
大数据框架Hadoop:第一章 HDFS分布式文件系统(一)【NameNode和SecondaryNameNode】
第一章 Hadoop 分布式文件系统HDFS第一代大数据框架Hadoop由:HDFS分布式文件系统、MapReduce计算框架和YARN资源调度框架组成,本文为学习HDFS分布式文件系统时记录的学习笔记。文章目录第一章 Hadoop 分布式文件系统HDFS前言一、什么是Hadoop?1.hadoop的发展历史起源介绍2.hadoop的发展历史起源构二、HDFS分布式文件系统1.分布式文件系统的理解2.hdfs的架构详细剖析1. 文件分块存储&3副本2. 抽象成数据块的好处3.HDFS架构3.h原创 2020-12-13 19:01:58 · 2226 阅读 · 6 评论