
hadoop
花和尚也有春天
会收集一些不错的文章,时常品读,也学着自己总结一些东西,坚持努力的方向!
展开
-
hdfs:不小心删除了NameNode,如何恢复?
https://mp.weixin.qq.com/s?__biz=MzI4OTY3MTUyNg==&mid=2247495873&idx=1&sn=2aa2057c70e954baa3cecd4ab2a8c170&chksm=ec2920c8db5ea9deb61c51a76d2d170df51ff7ff78f4ec9223123ee829791ff199a989b7d9ac&scene=21#wechat_redirecthttps://cloud.tencen原创 2020-10-21 17:22:10 · 1285 阅读 · 0 评论 -
Cloudera :一些关键组件的角色信息
Hadoop 大数据平台集群角色简称如图:原创 2020-08-26 00:51:40 · 560 阅读 · 0 评论 -
hadoop:hbase:apache-phoenix连接hbase,实现类sql查询(附DBeaver连接方式)
学校原创 2020-08-21 11:19:39 · 2589 阅读 · 0 评论 -
hbase:使用Phoenix连接Hbase
https://blog.youkuaiyun.com/u010429286/article/details/70054232原创 2020-08-20 15:13:44 · 1171 阅读 · 1 评论 -
hadoop:HA场景下 java客户端远程访问hdfs配置
https://blog.youkuaiyun.com/wo198711203217/article/details/80528860?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecas原创 2020-08-18 13:35:52 · 1535 阅读 · 0 评论 -
hadoop:hdfs:为什么不适合大量小文件的存储
(1)HDFS不适合大量小文件的存储,因namenode将文件系统的元数据存放在内存中,因此存储的文件数目受限于 namenode的内存大小。HDFS中每个文件、目录、数据块占用150Bytes。如果存放的文件数目过多的话会占用很大的内存(2)HDFS适用于高吞吐量,而不适合低时间延迟的访问。如果同时存入大量的小文件会花费很长的时间(3) 流式读取的方式,不适合多用户写入,以及任意位置写入。如果访问小文件,则必须从一个datanode跳转到另外一个datanode,这样大大降低了读取性能。...原创 2020-08-17 15:13:51 · 4895 阅读 · 0 评论 -
hadoop:hdfs:HDFS存入文件的整个流程
本文结合HDFS的副本和分块从宏观上描述HDFS存入文件的整个流程。HDFS体系中包含Client、NameNode、DataNode、SeconderyNameode四个角色,其中Client是客户端,NN负责管理,DN负责存储、SN协助管理。先来看一个官网上的图# 图 0 -HDFS的体系结构HDFS的副本存储有如下规则:1.client将第一副本放到最靠近的一台DN2.第二副本优先放到另一个机架3.以此类推,尽量保证副本放在不同的机架由于副本和分块机制的存在..转载 2020-08-17 11:09:14 · 1380 阅读 · 0 评论 -
hadoop:hdfs:HdfsUtil
NoClassDefFoundError: org/apache/hadoop/crypto/key/KeyProviderTokenIssuer原创 2020-07-28 10:43:39 · 1043 阅读 · 0 评论 -
sql:hive:函数:udf函数中使用case when
valanDF:DataFrame=spark.sql(s"""|select|namecn,UDFtest('10003',(casewhenstatus='A'then'1'whenstatus='B'then'2'whenstatus='C'then'3'end),origin)buss|from dd.lients|wheress='3'|andupdat...原创 2020-06-01 17:12:24 · 496 阅读 · 0 评论 -
hadoop:JournalNode的作用
NameNode之间共享数据(NFS 、Quorum Journal Node(用得多))两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息,并且一直监控edit log的变化,把变化应用于自己的命名空间。standby可以确保在集群出错时,命名空间状态已经完全同步了。上面在Activ转载 2020-05-18 19:36:45 · 1504 阅读 · 0 评论 -
hive:几种实现like的方式
Locate:SELECT s.title,t.nameFROM (select * from bo.t_positions limit 1000) sRIGHT JOIN resume.pf_basic_dic tON(TRUE)WHERE LOCATE(s.title,t.name)>0like:SELECT s.position_name,t.senior_name FROM (select * from tmp.t_position_name_data_times_le原创 2020-05-11 20:10:00 · 4490 阅读 · 0 评论 -
hive:表做关联,字段出现了换行
我用sqoop拉取mysql表,到hive中后表的存储格式为parquet格式。这时我要用此表关联另一张表,自己建的表。如下:两个建表语句(语句2多了 STORED AS parquet):语句1: CREATE TABLE `tmp.t_position_name_data_times_greate300_positions`( `id` string, `title` string, `company_name` string, `work_city` string原创 2020-05-11 11:27:35 · 1105 阅读 · 0 评论 -
hadoop:MapReduce (Writable)输出结果中文乱码解决
hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式,但是对于中文的输出window系统默认的是GBK,有些格式文件例如CSV格式的文件用excel打开输出编码为没有BOM的UTF-8文件时,输出的结果为乱码,只能由UE或者记事本打开才能正常显示。因此将hadoop默认输出编码更改为GBK成为非常常见的需求。自定义 TextOutputFormat.class 子类TextOutputFormat.class 类代码展示:package com.ljt.hdfs;imp.原创 2020-05-09 02:58:45 · 1994 阅读 · 0 评论 -
hadoop:IDEA本地编写mapreducer的wordcount并测试,并上传到hadoop的linux服务器进行测试
直接上代码:package main.java;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io...原创 2020-05-04 17:53:44 · 686 阅读 · 0 评论 -
hadoop:HDFS:基本命令
一:文件操作1、建立目录[hadoop@hadoop1:hadoop]$bin/hadoop dfs -mkdir testdir在HDFS中建立一个名为testdir的目录2、上传文件到HDFS[hadoop@hadoop1:hadoop]$bin/hadoop dfs -put /home/hadoop/test.zip testfile.zip把本地文件large.zip拷贝到...原创 2020-05-04 16:53:44 · 232 阅读 · 0 评论 -
hbase:优化(高可用)
高可用在HBase中Hmaster负责监控RegionServer的生命周期,均衡RegionServer的负载,如果Hmaster挂掉了,那么整个HBase集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。1.关闭HBase集群(如果没有开启则跳过此步)[atguigu@hadoop102 hbase]$ bin/stop-hb...原创 2020-03-16 17:14:58 · 368 阅读 · 0 评论 -
hadoop:分布式批量处理 脚本xcall.sh
#!/bin/bash params=$@ i=1 for((i=1 ;i <=4 ;i=$i+1 ));do echo ==========s$i $params========== ssh s$i "source /etc/profile;$params" done原创 2020-02-19 17:44:25 · 689 阅读 · 0 评论 -
hadoop:spark添加日志
spark日志配置:需要对hadoop的配置文件/etc/hadoop/yarn-site.xml增加内容,如下:注意集群各节点都加上!<property> <name>yarn.log-aggregation-enable</name> <value>true</v...原创 2020-02-01 20:33:55 · 793 阅读 · 0 评论 -
hadoop:Secondary NameNode 它究竟有什么作用?
前言最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为,Secondary NameNode是NameNode的备份,是为了防止NameNode的单点失败的,直到读了这篇文章Secondary Namenode - What it really do? (需翻墙)才发现并不是这样。文章写的很通俗易懂,现将其翻译如下:Se...转载 2018-09-26 17:11:19 · 10064 阅读 · 3 评论 -
hadoop:hadoop集群有哪3种模式可以运行?
单机(本地)模式:这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。 伪分布式模式:也是在一台单机上运行,但用不同的Java进程模仿分布式运行中的各类结点(...转载 2018-10-11 23:35:53 · 8289 阅读 · 0 评论 -
hadoop:搭建Hadoop集群,一个月6T的数量需要几台服务器
配置几个namenode,几个datanode,namenode和datanode怎么部署,内存与硬盘大小?? 最好是两个做成HA 关于硬盘: 6T的数据容量,看你副本数量设置是多少,一般默认为3,那么仅这些就需要18T硬盘,稍微大一点20T吧;这仅仅是HDFS存储;(这里我说的是一个月的,你数据保存几个月,就乘几倍) 如果你集群上面要跑计算,MR计算出来的数据要...转载 2018-10-05 23:38:19 · 4741 阅读 · 0 评论 -
hadoop:hdfs架构及原理
HDFS简介HDFS:Hadoop Distributed File System(hadoop分布式文件系统)分布式,感觉好厉害的样子啊,有网络文件系统,有本地文件系统,现在又多了一个分布式的文件系统。之所以是要分布式,是数据要放到多个主机上面去。放的东西在集群中,就是分布式啦!想要了解这个东东,先找一张原理图瞅瞅。看不懂没关系,继续往下瞅就是了。HDFS 1.0每个一学习...转载 2018-10-08 09:41:14 · 18211 阅读 · 0 评论 -
hadoop:HDFS副本存放策略
第一个block副本放在和client所在的node里(如果是集群外提交,则随机挑选一台磁盘不太慢、CPU不太忙的节点上)。第二个副本放置在与第一个节点不同的机架中的node中(随机选择)。第三个副本和第二个在同一个机架,随机放在不同的node中。如果还有更多的副本就随机放在集群的node里。流水线复制当客户端向 HDFS 文件写入数据的时候,一开始是写到本地临时文件中。假设该文件...转载 2018-10-08 10:00:37 · 1076 阅读 · 0 评论 -
Yarn:理解Container概念
在学习Hadoop YARN—Hadoop 2.0新引入的通用资源管理系统过程中,总会遇到Container这一概念,由于中文资料的缺乏,很多人对Container这一概念仍非常的模糊。它与Linux Container是什么关系,它是否能像Linux Container那样为任务提供一个隔离环境?它代表计算资源,还是仅仅是一个任务处理进程?本文将尝试介绍Container这一概念。 在...转载 2018-10-09 20:56:46 · 4899 阅读 · 0 评论 -
hadoop:笔
目录1.kafka集群的规模,消费速度是多少。2.hdfs上传文件的流程。3.讲述一下mapreduce的流程(shuffle的sort,partitions,group)4.了解zookeeper吗?介绍一下它,它的选举机制和集群的搭建。5.spark streming在实时处理时会发生什么故障,如何停止,解决6.mysql,mongodb,rides,hive,hbas...转载 2018-10-19 16:54:54 · 186 阅读 · 0 评论 -
hadoop:yarn
转载 2018-10-25 22:05:33 · 142 阅读 · 0 评论 -
hadoop: hdfs:删除文件、文件夹等常用命令
配置了环境变量直接执行:要从HDFS中删除文件,可以使用以下命令:hadoop fs -rm -r -skipTrash /path_to_file/file_name要从HDFS中删除文件夹,可以使用以下命令:hadoop fs -rm -r -skipTrash /folder_name...原创 2019-01-18 12:43:56 · 56962 阅读 · 2 评论 -
hadoop:HDFS/MapReduce/Yarn
主从节点来解决这种问题;*NameNode是主节点,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在DataNode等;====》NameNode的元数据中的一部分存放在内存中的,在进程当中,另一部分存放在本地磁盘(fsimage:镜像文件和edits:编辑日志)*DataNode在本地文件系统存储文件块数据,以及块...原创 2019-05-26 19:35:08 · 364 阅读 · 0 评论 -
Hadoop:Yarn架构解析
了解Yarn的架构之前,先说说为什么会出现Yarn。在Hadoop v1版本中,存在最大的问题就是资源管理和任务管理耦合在一起,且整个集群的扩展性、可靠性(JobTracker的单节点故障问题)很差,以及最重要的一个问题,集群资源的利用率低。 随着数据规模的膨胀,大家已经不满足于仅仅能在Hadoop集群上运行MapReduce程序,更希望能够有一套合理的管理机制来控制整个集群的资源调度,...转载 2019-05-27 00:44:57 · 333 阅读 · 0 评论 -
hadoop:常用命令与基本配置
Hadoop安装目录下执行:bin/hdfs 脚本,可以查看所有的命令bin/hdfs dfs全部启动这钟方式不推荐。配ssh是为了分模块启动其他机器更方便些(你的集群足够大则需使用脚本去启动)生成如上图,四个回车。拷贝到 其他机器:测试远程登陆其他机器:...原创 2019-05-28 00:37:50 · 357 阅读 · 0 评论 -
hadoop:hdfs/yarn启动停止
本人环境:3台虚拟机分别为sparkproject1 192.168.124.110sparkproject2 192.168.124.111sparkproject3 192.168.124.112linux(vi /etc/hosts)和windows配置hosts文件(C:\Windows\System32\drivers\etc) :# Copyri...原创 2019-05-29 01:54:15 · 3231 阅读 · 0 评论 -
hadoop:hdfs:Name node is in safe mode 安全模式问题
将本地文件拷贝到hdfs上去,结果上错误:Name node is in safe mode[root@sparkproject1 hadoop-mapreduce1-secure]# hadoop dfsadmin -safemode getDEPRECATED: Use of this script to execute hdfs command is deprecated.Inst...原创 2019-06-11 00:18:54 · 1247 阅读 · 0 评论 -
hadoop:spark-project项目的hadoop配置
1、使用hadoop-2.5.0-cdh5.3.6.tar.gz,上传到虚拟机的/usr/local目录下。(http://archive.cloudera.com/cdh5/cdh/5/)2、将hadoop包进行解压缩:tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz3、对hadoop目录进行重命名:mv hadoop-2.5.0-cdh5.3.6 hadoo...原创 2018-09-18 19:47:47 · 335 阅读 · 0 评论