- 博客(5)
- 收藏
- 关注
原创 Hive对库的操作和对表的操作
分桶是相对分区进行更细粒度的划分(数据取样更高效)。分桶将整个数据内容按照某列属性值的hash值进行区分,如要安装name属性分为3个桶,就是对name属性值的hash 值对3取摸,按照取模结果对数据分桶。如取模结果为0的数据记录存放到一个文件,取模为1的数据存放到一个文件,取模为2的数据存放到一个文件。
2022-10-21 15:39:15
520
1
原创 Hive安装与配置常见问题解决
在之前的文章中介绍了Hadoop集群,本文安装的Hive是基于Hadoop的一个数据仓库工具,并底层依赖与HDFS储存数据,本文将介绍如何安装及其配置。
2022-10-14 16:25:10
1408
原创 如何搭建可正常使用的centOS7系统虚拟机节点
本文详细叙述了centOS7系统虚拟机节点的搭建以及搭建hdfs完全分布式集群准备工作学习linux,首要当然是弄一个linux系统,大多数电脑都是windows系统,而双系统装linux存在一定的风险,个人觉得,在虚拟机上安装linux环境就够了。
2022-09-16 10:50:58
1342
原创 一个大数据学生的HDFS完全分布式集群搭建流程与问题
HDFS作为Hadoop的核心组件,其搭建是Hadoop集群能够成功运行的基础,本文就描述了我在搭建HDFS集群时的流程与遇到的问题。以上就是HDFS完全分布式集群搭建的大概流程,有许多问题没有遇到,可能问题写的不够详细,如果有文章和流程中有任何的问题以及心得欢迎评论交流。
2022-09-15 18:54:49
785
空空如也
在hive中如何将下面字段变成可以做正常排序的数字类型
2023-04-11
Python Xpath对<em>标签的爬取结果变成了- -(关键词-Xpath)
2023-01-28
TA创建的收藏夹 TA关注的收藏夹
TA关注的人