
大数据
爱一半码一半
幸福到底是什么
展开
-
HBase基础
HBase介绍关系型数据库关系型数据库最典型的书库机构是表,由二维表及其之间的联系所组成的一个数据组织。 优点 易于维护:都是使用表结构,格式一致。 使用方便:SQL语言通用,可用于复杂查询。 复杂操作:支持SQL,可用于一个表以及多个表之间非常复杂的查询。 缺点 读写性能比较差,尤其是海量数据的高效率读写。 固定的表结构,灵活度稍欠。 高并发读写需求,传统关系型数据库,硬盘IO是一个很大的瓶颈 非关系型数据库优点原创 2020-10-26 00:33:06 · 232 阅读 · 0 评论 -
5.Hive参数设置、运作方式、动态分区、分桶
Hive动态分区 hive的动态分区介绍 hive的静态分区需要用户在插入数据的时候必须手动指定hive的分区字段值,但是这样的话会导致用户的操作复杂度提高,而且在使用的时候会导致数据只能插入到某一个指定分区,无法让数据散列分布,因此更好的方式是当数据在进行插入的时候,根据数据的某一个字段或某几个字段值动态的将数据插入到不同的目录中,此时,引入动态分区。 hive的动态分区配置 --hive设置hive动态分区开启 set hive.exec.dynamic.p原创 2020-10-19 23:44:40 · 3133 阅读 · 0 评论 -
4.Hive的Serde,Server2,函数
Hive SerdeHive Serde用来做序列化和反序列化,构建在数据存储和执行引擎之间,对两者实现解耦。应用场景: hive主要用来存储结构化数据,如果结构化数据存储的格式嵌套比较复杂的时候,可以使用serde的方式,利用正则表达式匹配的方法来读取数据,例如,表字段如下:id,name,map<string,array<map<string,string>>> 当读取数据的时候,数据的某些特殊格式不希望显示在数据中,如:192.168..原创 2020-10-19 23:42:47 · 550 阅读 · 0 评论 -
3.Hive的SQL操作
数据库的基本操作 展示所有数据库 show databases; 切换数据库 user database_name; 创建数据库 create database database_name; 删除数据库 drop database database_name; 注意:当进入hive的命令行开始编写SQL语句的时候,如果没有任何相关的数据库操作,那么默认情况下,所有的表存在于default数据库...原创 2020-10-12 00:57:42 · 294 阅读 · 0 评论 -
Hive的安装搭建
Hadoop mapreduce 计算 hdfs 存储 安装 node02 mysql (node01)环境 mapreduce 环境 hdfs 环境 解压: tar -zxvf apache-hive-xxx.tar.gz -C /opt/bigdata/ 改名 mv apache-hive-xxx-bin hive-2.3.4 bin可执行文件 conf配置文件 lib jar包.原创 2020-10-12 00:56:59 · 110 阅读 · 0 评论 -
Hive的基本介绍
1.Hive产生的原因 方便对文件及数据的元数据进行管理,提供统一的元数据管理方式 提供更加简单的方式来访问大规模的数据集,使用SQL语言进行数据分析 2.Hive是什么? Apache官网:The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. S.原创 2020-10-12 00:56:07 · 239 阅读 · 0 评论