
hive
文章平均质量分 51
宝罗
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Teradata数据库使用笔记(1)--Teradata安装
Teradata数据库使用笔记(1)--Teradata安装_肆尾葱的博客-优快云博客_teradata数据库安装Teradata使用笔记(2)--数据库操作_肆尾葱的博客-优快云博客_teradata使用教程原创 2022-02-28 11:21:56 · 1389 阅读 · 0 评论 -
hive四种存储格式和排序方式介绍与分析比较
1、TextFileTextFile文件不支持块压缩,默认格式,数据不做压缩,磁盘开销大,数据解析开销大。这边不做深入介绍。2、RCFileRecord Columnar的缩写。是Hadoop中第一个列文件格式。能够很好的压缩和快速的查询性能,但是不支持模式演进。通常写操作比较慢,比非列形式的文件格式需要更多的内存空间和计算量。RCFile是一种行列存储相结合的存储方式。首先,其将数据按行分块,保证同一个record在一个块上,避免读一个记录需要读取多个block。其次,块数据列式存原创 2022-02-07 23:40:48 · 455 阅读 · 0 评论 -
hive分区表
首先有这样的一张csv数据表名称叫做test.csv将test.csv上传至hdfs 然后在zeppelin中创建一张分区表create table exam.userbehavior_partitioned( user_id string, item_id string, category_id string, behavior_type string, time string ) partitioned by (dt st.原创 2021-12-21 20:22:02 · 1150 阅读 · 0 评论 -
hive 数据仓库跟mysql数据库的区别
1、查询语言不同:hive是hql语言,mysql是sql语句;2、数据存储位置不同:hive是把数据存储在hdfs上,而mysql数据是存储在自己的系统中;3、数据格式:hive数据格式可以用户自定义,mysql有自己的系统定义格式;4、数据更新:hive不支持数据更新,只可以读,不可以写,而sql支持数据更新;5、索引:hive没有索引,因此查询数据的时候是通过mapreduce很暴力的把数据都查询一遍,也造成了hive查询数据速度很慢的原因,而mysql有索引;6、延迟性:hive原创 2021-12-21 20:08:12 · 1282 阅读 · 0 评论 -
spark-hdfs-hive-hbase
打开虚拟机首先确保虚拟机上安装了hadoop spark hive hbase然后依次启动启动hbase 首先先确保 先启动zekooperhadoop启动命令 start-all.shhive 启动 hive --service hiveserver2 & 后台启动 不想后台的话就不用加&zkserve.sh start 启动zekooperhbase start-hbase.shhive --service metastroe 启动spark...原创 2021-12-21 08:38:49 · 1739 阅读 · 2 评论 -
hive on spark
前置准备CentOS7、jdk1.8、hive-2.3.9、hadoop-2.7.7、spark-2.0.0-bin-hadoop2-without-hive首先先配置mavenIndex of /dist/maven/maven-3下载maven我下的是3.6.0版本至少要3.1.3以上才能编译同样解压到soft目录下配置环境变量spark底层用的还是scala代码 所以顺便装上了scala 后来好像用不到scala所以可以不用装vi /etc/profile.原创 2021-12-08 01:19:14 · 426 阅读 · 0 评论 -
hive 的数据倾斜
1、什么是数据倾斜?由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点2、Hadoop 框架的特性 A、不怕数据大,怕数据倾斜 B、Jobs 数比较多的作业运行效率相对比较低,如子查询比较多 C、 sum,count,max,min 等聚集函数,通常不会有数据倾斜问题3、容易数据倾斜情况A、group by 不和聚集函数搭配使用的时候 B、count(distinct),在数据量大的情况下,容易数据倾斜,因为 count(distinct)是按 gro原创 2021-09-22 10:45:00 · 120 阅读 · 0 评论