
大数据-Hadoop
文章平均质量分 70
讲解hdfs、yarn、hive等相关的知识
sf_www
深耕大数据领域,可相互交流
展开
-
Hive分区值的插入
讲解hive的分区各种插入情况原创 2024-12-05 16:40:49 · 2131 阅读 · 0 评论 -
Hive函数说明
官网地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF下面列举几个有意思的函数1. stack(int r,T1 V1,...,Tn/r Vn)Breaks up n values V1,...,Vn into r rows. Each row will have n/r columns. r must be constant.是一个udtf函数。即分解n个值V1…Vn转化成r行。每一行将有n/r列(向上原创 2022-01-12 11:18:04 · 2196 阅读 · 0 评论 -
hive外部表和分区表注意事项
外部表操作注意事项1)分区数据建立外部表假设在/xhive/table1下有一些分区的数据,此时建立外部分区表:create external table table1(xxxx) partitioned by(date string) location “/xhive/table1”;这样子后,数据会查不出来。解决方法有两种:使用 msck repair table tbname;(推荐使用)或是需要手动添加已有的分区,alter table table1 add partition(d原创 2022-01-04 09:15:36 · 2046 阅读 · 0 评论 -
hive建表create table xxx as select的问题
create table xxx as select的方式创建的表默认存储格式是text,所以要注意了假如as select的是其他格式的比如parquet,则可能会导致一行变多行的情况(因为parquet格式的可能字段包含换行符等),所以必须要加上create table xxx stored as parquet as select...所以使用这种方式建表注意加上指定的存储格式。...原创 2020-09-18 16:39:50 · 6179 阅读 · 0 评论 -
Hive元数据表解析
讲解hive 存储在mysql中的元数据表原创 2024-11-29 15:55:10 · 1678 阅读 · 0 评论 -
HDFS新增节点和删除datanode节点
在实际的hadoop环境中,有时我们需要新增或者删除datanode节点,来达到扩容或缩容的目的,本文就来讲解如何新增和删除datanode。所以该配置一般不配,一般只会使用exclude,不然反而麻烦,配了后新增节点都得去修改添加该配置dfs.hosts和dfs.hosts.exclude分别指向一个文件(注意是绝对路径)。下面的节点地址我们统一使用机器主机名,所以就得要机器配置了/etc/hosts的主机名和IP的映射关系。原创 2024-11-13 17:40:29 · 627 阅读 · 0 评论 -
hadoop FileSystem是否要close
hadoop 获取的fs 是否需要手动关闭原创 2024-02-21 09:28:24 · 1032 阅读 · 0 评论 -
flume实现上传nginx日志到kafka
flume上传nginx日志 nginx日志的切分策略实现原创 2024-01-19 13:43:37 · 1254 阅读 · 0 评论 -
HDFS垃圾回收源码解析
讲解 hadoop的回收站机制2.TrashPolicy和TrashPolicyDefault类如下,这里只截取部分代码: /*** This interface is used for implementing different Trash policies.* Provides factory method to creat...原创 2020-09-16 15:28:55 · 556 阅读 · 1 评论 -
hdfs元数据为什么分fsimage和edits,合并操作怎么进行的
在NameNode中,命名空间(namespace,指文件系统中的目录树、文件元数据等信息)是被全部缓存在内存中的,一旦NameNode重启或者宕机,内存中的所有数据将全部丢失,所以必须要有一种机制能够将整个命名空间持久化保存,并且能在NameNode重启时重建命名空间。这里就是通过fsimage(FSImage类)和edits(FSEditLog类)共同实现的。fsimage:命名空间镜像,存储了某一个时刻名字节点内存元数据(即命名空间)的信息,是一个二进制文件。它将文件系统目录树中的每个文件或者目录原创 2022-02-14 23:00:31 · 1667 阅读 · 0 评论 -
yarn 内存和cpu参数
1. 内存相关参数 参数 说明 默认值 yarn.nodemanager.resource.memory-mb 该nm能够分配的内存量 -1 yarn.nodemanager.vmem-pmem-ratio 虚拟内存率,Container 的虚拟内存大小的限制,每使用1MB物理内存,最多可用的虚拟内存数 2.1原创 2021-03-08 17:35:25 · 846 阅读 · 0 评论 -
CDH禁用Kerberos
禁用Kerberos,由于没有按钮可以直接操作,需要我们手动一个个修改开启了Kerberos的组件的配置。修改步骤按以下来:1.先关闭集群(如果yarn上有任务则等待停止,或手动停止)。2.修改zookeeper的配置enableSecurity取消勾选,Enable Kerberos Authentication取消勾选,在zoo.cfg 的Server 高级配置代码段(安全阀)写入skipACL: yes如下图:3.修改HDFS配置修改hadoop.security.authentic原创 2020-09-22 11:30:17 · 1872 阅读 · 0 评论 -
Quorum Journal实现HDFS HA配置dfs.ha.fencing.methods
1.为什么使用Quorum Journal方式实现hdfs ha配置dfs.ha.fencing.methods只需要写shell(true)?2.dfs.ha.fencing.methods表示:a list of scripts or Java classes which will be used to fence the Active NameNode during a failover而配置为shell(true)就是直接返回隔离成功,即表示没进行任何操作,为什么不会导致脑裂现象的发生..原创 2020-09-17 10:28:12 · 2500 阅读 · 3 评论 -
Hdfs修改数据存储目录
1.可以一台台datanode操作,也可以停止集群一起操作,步骤是一样的,下面讲述单台datanode操作。 操作步骤:停止datanode,修改该datanode的配置dfs.datanode.data.dir为新目录配置,对应机器上创建该目录(注意用户权限),然后拷贝原来目录下的所有文件到新目录,重启该datanode,执行下fsck看是否正常,然后再执行diskbalancer。如果是添加新磁盘目录进来,则不需要拷贝文件这一步骤;对于减少磁盘目录或者修改成其他目录的都需要拷贝这一步骤。...原创 2020-09-17 10:12:42 · 2569 阅读 · 0 评论 -
Hadoop配置文件加载
1. hadoop使用org.apache.hadoop.conf.Configuration类来加载配置文件2. 在使用Configuration conf = new Configuration()来创建conf对象时默认加载了哪些配置项呢?看Configuration类的源码可以看到,默认是加载了core-default.xml和core-site.xml配置文件的,注意配置文件路径需要在CLASSPATH中(即classpath中指定了目录路径下有上面文件才可以加载到),源码如下:pub原创 2020-09-16 14:13:55 · 2485 阅读 · 0 评论