
Hadoop
文章平均质量分 58
hzp666
这个作者很懒,什么都没留下…
展开
-
大数据面试题集
史上最全大数据面试题V3.1(特辑)目录:一 数据仓库1.维表和宽表的考查(主要考察维表的使用及维度退化手法)2.数仓表命名规范3.拉链表的使用场景4.数据库和数据仓库有什么区别5.有什么维表时间维表、用户维表、产品维表、合同维表、地理维表等6.数据源都有哪些从大体上分为内部数据和外部数据:内部数据又分为业务库数据源:mysql,oracle,mongo日转载 2021-11-29 09:20:39 · 16148 阅读 · 0 评论 -
HDFS读写流程
原创 2021-11-04 16:49:40 · 134 阅读 · 0 评论 -
大数据常见端口汇总
目录大数据常见端口汇总一、Hadoop二、Zookeeper三、Hbase四、Hive五、Spark六、Kafka七、Flink八、Flume九、Redis十、CDH十一、HUE大数据常见端口汇总一、Hadoop50070:HDFS WEB UI端口8020 : 高可用的HDFS RPC端口9000 : 非高可用的HDFS RPC端口8088 : Yarn 的WEB UI 接口8485 : JournalNode 的RPC端口转载 2021-07-23 16:35:37 · 998 阅读 · 0 评论 -
解决org.apache.hadoop.ipc.RenoteException(java.io.IOException)
部署hadoop集群以后,集群显示启动成功。但是 在启动spark-shell时候报错,org.apache.hadoop.ipc.RenoteException(java.io.IOException) file:************************************************can only write使用 hdfs dfsadmin -report 命令检查 hdfs 存储,发现是 hdfs 存储问题, dfs启动后 所有储存节点 大小都是...原创 2021-06-03 10:28:33 · 1744 阅读 · 4 评论 -
hadoop启动报错:Attempting to operate on hdfs namenode as root
写在最前注意:1、master,slave都需要修改start-dfs.sh,stop-dfs.sh,start-yarn.sh,stop-yarn.sh四个文件2、如果你的Hadoop是另外启用其它用户来启动,记得将root改为对应用户HDFS格式化后启动dfs出现以下错误:[root@master sbin]# ./start-dfs.shStarting namenodes on [master]ERROR: Attempting to operate on hdfs namenod原创 2021-06-02 13:16:47 · 19222 阅读 · 7 评论 -
Hive小文件问题:如何产生、造成影响、解决办法
一、小文件是如何产生的1.动态分区插入数据,产生大量的小文件,从而导致map数量剧增。2.reduce数量越多,小文件也越多(reduce的个数和输出文件是对应的)。3.数据源本身就包含大量的小文件。二、小文件问题的影响1.从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能。2.在HDFS中,每个小文件对象约占150byte,如果小文件过多会占用大量内存。这样NameNode内存容量严重制约了集.转载 2021-05-28 16:27:31 · 5456 阅读 · 0 评论 -
hadoop的hdfs的一些操作
先说一下"hadoop fs和hadoop dfs的区别",看两本Hadoop书上各有用到,但效果一样,求证与网络发现下面一解释比较中肯。 粗略的讲,fs是个比较抽象的层面,在分布式环境中,fs就是dfs,但在本地环境中,fs是local file system,这个时候dfs就不能用。5.1 文件操作 1)列出HDFS文件 此处为你展示如何通过"-ls"命令列出HDFS下的文件:hadoop fs -ls 执行结果如图5-1-1所示。在这里需要注意:在HDFS中未.转载 2021-05-21 15:46:48 · 1780 阅读 · 0 评论 -
大数据集群可视化管理界面
hadoop:hadoop:http://master:50070/dfshealth.html#tab-overviewhdfs;http://master:50070/explorer.html#/yarn:http://master:8088/clusterspark集群:http://master:8080/原创 2021-05-21 13:36:25 · 579 阅读 · 0 评论 -
Hadoop 之 HDFS的基本使用
文章目录一、学前必备知识 二、Hadoop HDFS 命令 1、HDFS 常用命令总览 2、创建与查看 HDFS 目录 3、本地计算机和 HDFS 间的文件复制 4、复制与删除 HDFS 文件 5、查看 HDFS 文件内容 6、对比 hdfs dfs 三、Java 操作 HDFS 1、前置工作 2、示例代码一、学前必备知识2021年 全网最细大数据学习笔记(一):初识 Hadoop 2021年 全网最细大数据学习笔记(二):Hadoop 伪分布式安装 2021年..转载 2021-04-20 18:10:35 · 1898 阅读 · 0 评论 -
Hive和Hbase的对接
文章目录一、配置hive 二、hive中数据与hbase相关联 三、hbase中数据与hive相关联一、配置hive1、创建hive所需要的hbase相关联包的软链接ln -s $HBASE_HOME/lib/hbase-common-1.4.10.jar $HIVE_HOME/lib/hbase-common-1.4.10.jarln -s $HBASE_HOME/lib/hbase-server-1.4.10.jar $HIVE_HOME/lib/hbase-server-.转载 2021-04-19 09:51:14 · 1617 阅读 · 6 评论 -
虚拟机报错:Job for network.service failed because the control process exited with error code
1.错误:今天又打开虚拟机准备搞大数据集群,由于有段时间没开机,开机后发现连不上网,ifconfig后连ip地址都没了:2.解决方案:网上有很多说法,大多都是重新vi /etc/sysconfig/network-scripts/ifcfg-ens33 配置静态ip的, 其实是网卡不工作了,最后只有一种方法管用:3条指令:3.原因:在CentOS系统上,目前有NetworkManager和network两种网络管理工具。如果两种都配置会引起冲突。由于一般我们都是使用 network转载 2021-04-16 11:38:53 · 1726 阅读 · 2 评论 -
MR与Spark的区别
1、MR与Spark的区别1.hadoop中的一个任务称为job,一个job分为map task和reduce task 每个task都是在自己的进程中运行的,当task 运行结束以后,进程也会结束2.spark的一个任务叫做application,一个application中有多个job,每触发一次action操作就会产生一个job,这些job可以并行也可以串行计算,每个job中有多个stage,stage是shuffle过程中DAGScheduler通过RDD之间的依赖关系划分job而来的,每个s转载 2021-03-18 11:51:46 · 531 阅读 · 0 评论 -
spark运行报错:(null) entry in command string: null chmod 0644
在WIndows操作系统中本地运行spark程序,报以下错误:....(null) entry in command string: null chmod 0644 ..(后面是目的目录)解决方法:下载hadoop.dll文件并拷贝到c:\windows\system32目录中然后重新运行代码程序即可hadoop.dll文件下载地址:链接:https://pan.baidu.com/s/1Rb5ROUQMSqp7SeQINlLZkA提取码:n8t6...转载 2021-03-01 19:04:20 · 898 阅读 · 0 评论 -
scala运行异常Could not locate executable null\bin\winutils.exe in the Hadoop binaries
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.出现这个问题的原因是我们在windows上模拟开发环境,但并没有真正的搭建hadoop和spark解决办法:当然也并不需要我们真的去搭建hadoop下载这个winutils:链接:https://pan.baidu.com/s/12o-QubOX2B5RdFYYXUG4Ag 提取码:951p 复制这段.原创 2021-02-22 17:25:56 · 205 阅读 · 0 评论 -
数据湖和数据仓库区别介绍
数据湖是用来存储什么样的数据呢?数据湖是以什么样的存储模式存储数据呢?是关系型数据库的模式吗?数据湖与Delta Lake的关系是?数据湖可以替代数据仓库吗?简单对比下数据湖与数据仓库。数据湖存储起来非常方便,为了保证敏捷开发,是无需管理的,对吗?Apache Hudi是干什么的?仅仅实现增删改查吗?基于Hudi的数据湖数据是以什么方式存储的?Hudi有元数据吗?元数据存储在哪儿?Hudi是以什么方式与Spark进行整合的?1从数据仓库到数据湖1仓库.转载 2020-12-30 16:26:30 · 8946 阅读 · 0 评论 -
Hadoop3.2.1版本的环境搭建
最近有人提出能不能发一些大数据相关的知识,No problem ! 今天先从安装环境说起,搭建起自己的学习环境。Hadoop的三种搭建方式以及使用环境:单机版适合开发调试; 伪分布式适合模拟集群学习; 完全分布式适用生产环境。这篇文件介绍如何搭建完全分布式的hadoop集群,一个主节点,两个数据节点。先决条件准备3台服务器虚拟机、物理机、云上实例均可,本篇使用Openstack私有云里面的3个实例进行安装部署。操作系统及软件版本服务器 系统 内存 IP转载 2020-11-24 17:11:36 · 515 阅读 · 0 评论 -
Hadoop3.2.*安装
CentOS8系统安装Hadoop-3.2.1伪分布式配置[TOC]实验目的 在 Linux(VM15pro/CentOS8) 环境下完成Hadoop-3.2.1伪分布式环境的搭建,并运行 Hadoop 自带的 WordCount 实例检测是否运行正常。一、下载并配置java环境 Java 环境可选择 Oracle 的 JDK,或是 OpenJDK,现在一般 Linux 系统默认安装的基本是 OpenJDK。通过 yum 进行安装 JDK,安装过程中会让输入 [y/N],输入 y 即转载 2020-11-14 12:23:15 · 868 阅读 · 0 评论 -
centos8配置网络
centos安装后配置网络连接:测试: ping www.baidu.com如果不成功 则需要配置网络:目录一 修改配置文件 二 重启网络服务centos8已经发布了,下载了一个体验一下,新安装好的centos8默认网卡是没有启动的,安装好后需要先配置网络。在/etc/sysconfig/network-scripts目录下存放着网卡的配置文件,文件名称是ifcfg- 网卡名称。一 修改配置文件设置网络时首先打开配置文件,配置文件默认如下所示,如果使用dhc.....原创 2020-11-02 17:12:00 · 17174 阅读 · 0 评论 -
hdfs怎么处理小文件问题
一、HAR文件方案 为了缓解大量小文件带给namenode内存的压力,Hadoop 0.18.0引入了Hadoop Archives(HAR files),其本质就是在HDFS之上构建一个分层文件系统。通过执行hadoop archive 命令就可以创建一个HAR文件。在命令行下,用户可使用一个以har://开头的URL就可以访问HAR文件中的小文件。使用HAR files可以减少HDFS中的文件数量。 下图为HAR文件的文件结构,可以看出来访问一个指定的小文件需要访问两...转载 2020-09-02 11:07:17 · 1742 阅读 · 0 评论 -
拉链表
http://pylyria.com/2018/07/03/%E6%8B%89%E9%93%BE%E8%A1%A8%E5%8F%8A%E5%85%B6Hive%E5%AE%9E%E7%8E%B0/简介本文介绍数据仓库技术中拉链表相关的内容,包括其原理、设计、适用场景以及在Hive中的实现方式。拉链表是什么拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。即可以在所规定的时间粒度上体现数据完整的生命.转载 2020-08-20 18:41:10 · 2215 阅读 · 0 评论 -
数据倾斜2
数据倾斜的原因和解决方案MapReduce简介MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义:1)MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。2)MapReduce是一个并行计算与运行软件框架(Software Framework)。它提供了一个庞大但设计精良的并行计算软件框架,能自动完成计算任务的并行化处理,自动划转载 2020-08-19 15:31:12 · 349 阅读 · 0 评论 -
数据倾斜
http://blog.sina.com.cn/s/blog_7bbd4ce50102xer9.htmlHive之数据倾斜原因及解决方法睡前学学大数据 2018-05-09作者 雨师数据倾斜产生的原因1、数据倾斜的表现● 任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。● 单一reduce的记录数与平均记录数差异过大,通常可能达到3倍甚至更多。● 最长时长远大于.转载 2020-08-19 11:22:51 · 207 阅读 · 0 评论 -
大数据面试题
原文链接:https://blog.youkuaiyun.com/albg_boy/article/details/78424509第1部分 选择题1.1 Hadoop选择题1.1.1 Hdfs 下面哪个程序负责 HDFS 数据存储? 1 a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker HDfS 中的 block 默认保存几份? 1 a)3份b)2份c)1份d)不转载 2020-07-23 14:33:28 · 3305 阅读 · 0 评论 -
Linux安装JDK后提示openjdk
在安装了Oracle的jdk之后发现系统带有openjdk会出现下列情况,就是java -version和javac -version会出现不一样的状态 [root@doctortang ~]# java -version java version "1.7.0_45" OpenJDK Runtime Environment (rhel-2.4.3.3.el6-x86_64 u45-b15) OpenJDK 64-Bit Server VM (build 24.45-b08, m...转载 2020-06-11 17:26:10 · 2220 阅读 · 0 评论 -
Cloudera 简介、安装和升级、管理、操作文档
http://cwiki.apachecn.org/pages/viewpage.action?pageId=1540344Cloudera 简介Cloudera 提供一个可扩展、灵活、集成的平台,可用来方便地管理您的企业中快速增长的多种多样的数据。业界领先的 Cloudera 产品和解决方案使您能够部署并管理 Apache Hadoop 及其相关项目、操作和分析您的数据以及保...转载 2019-06-10 16:29:04 · 853 阅读 · 0 评论 -
重启CDH服务
找到cm的目录cd /opt/cm-5.13.2/etc/init.d查看sever状态./cloudera-scm-server status重启server./cloudera-scm-server restart再次查看sever状态./cloudera-scm-server status查看agent状态./cloudera-sc...转载 2019-03-13 10:41:44 · 976 阅读 · 0 评论 -
format HDFS 时报错SHUTDOWN_MSG: Shutting down
刚配置Hadoop2.7.1 格式化namenode时报出这个这个错误/************************************************************SHUTDOWN_MSG: Shutting down NameNode at java.net.UnknownHostException: xxx: xxx: Name or service not k...转载 2019-03-13 09:42:59 · 2479 阅读 · 0 评论 -
hive 安装
修改 MySQL 的root 密码:ALTER USER 'root'@'localhost' IDENTIFIED BY '131415'2.Loading class `com.mysql.jdbc.Driver'. This is deprecated. The new driver class is `com.mysql.cj.jdb解决办法:这个问题...原创 2019-03-16 01:06:48 · 149 阅读 · 0 评论 -
hive环境安装
https://blog.youkuaiyun.com/aguang_vip/article/details/81583661https://www.cnblogs.com/dxxblog/p/8193967.htmlhttps://cloud.tencent.com/developer/news/236541https://cloud.tencent.com/dev...转载 2019-03-15 11:40:00 · 217 阅读 · 0 评论 -
Hadoop环境部署
一、配置网络环境 host1.通过ip addr show或ifconfig命令查看 IP地址2.修改主机名字:vi /etc/sysconfig/network3.NETWORKING=yesHOSTNAME=hdpvm1 ###这里配置,改成你想要的名字 eg:master输入 :hostname 检测是否修改成功不行就重启下...原创 2019-03-14 18:33:49 · 712 阅读 · 0 评论 -
CentOS6.5系统安装
https://blog.youkuaiyun.com/sinat_36564972/article/details/81560395CentOS6.5系统安装1、首先打开网易开源镜像站: http://mirrors.163.com/当然,大家也可以使用阿里开源镜像站:http://mirrors.aliyun.com/2、点击进入centos目录。3、因为我们选择安装cent...转载 2019-03-06 15:18:54 · 494 阅读 · 0 评论