
Hadoop
Jmayday
人生就像一场修行,不断改变自己对世界的认知,去探索和发现未知事物的奥秘,一次令人回味无穷的旅途
展开
-
hadoop命令总结
1、启动集群,分别启动[mayday@hadoop102 hadoop-3.1.3]$ start-dfs.sh[mayday@hadoop103 hadoop-3.1.3]$ start-yarn.sh2、 上传文件或者下载文件本地拷贝到Hdfs上:[mayday@hadoop102 hadoop-3.1.3]$ hadoop fs -copyFromLocal README.txt /下载到本地[mayday@hadoop102 hadoop-3.1.3]$ hadoo原创 2021-07-19 13:41:46 · 133 阅读 · 0 评论 -
Mysql、Sqoop、Hive 安装命令总结
第一部分 Mysql安装1、卸载自带的安装包、rpm -qa | grep -i -E mysql\|mariadb | xargs -n1 sudo rpm -e --nodeps2、准备好待安装的资源包,上传到/opt/software下01_mysql-community-common-5.7.29-1.el7.x86_64.rpm02_mysql-community-libs-5.7.29-1.el7.x86_64.rpm03_mysql-community-libs-c.原创 2021-05-28 16:49:50 · 221 阅读 · 0 评论 -
centos搭建hadoop集群实战命令总结
第一部分 开发环境名称 版本 资源 Linux centos7 centos7 JDK 8u212 jdk-8u212-linux-x64.tar.gz Hadoop 3.1.3 hadoop-3.1.3.tar.gz Zookerper 3.5.7 apache-zookeeper-3.5.7-bin.tar.gz Kafka 2.4.1 kafka_2.11-2.4.1.tgz Spark 2..原创 2021-05-27 16:40:27 · 408 阅读 · 2 评论 -
正在运行hadoop的虚拟机由于意外的电脑重启无法启动
问题描述:正在运行hadoop集群,由于电脑自动关机重启,开机后无法正常开启虚拟机问题截图:原创 2021-03-23 19:31:21 · 875 阅读 · 2 评论 -
Hadoop集群同步文件夹失败解决方法
在安装hadoop集群的时候经常会用到集群同步,但是有时候同步一个文件夹的时候经常会出现同步不成功的情况。问题如下:[mayday@hadoop101 module]$ xsync kafka/==================== hadoop102 ====================sending incremental file listrsync: recv_generator: mkdir "/opt/module/kafka" failed: Permission den原创 2021-03-18 11:13:35 · 1415 阅读 · 0 评论 -
zookeeper启动出现错误:Error contacting service. It is probably not running
问题如下:[mayday@hadoop102 zookeeper-3.5.7]$ bin/zkServer.sh statusZooKeeper JMX enabled by defaultUsing config: /opt/module/zookeeper-3.5.7/bin/../conf/zoo.cfgClient port found: 2181. Client address: localhost.Error contacting service. It is probably n原创 2021-03-18 09:30:02 · 3277 阅读 · 2 评论 -
python里面的spark为什么是最火的计算引擎
01 概述 十年前我们只有Hadoop,大家首先通过HDFS实现海量数据的共享存储,然后使用MapReduce以批处理的方式处理这些海量数据,这一切看起来似乎十分完美。但众口难调啊,有人觉得MapReduce的编程模型太难使用了,为什么不能使用SQL来分析数据呢?我们数据库领域已经有非常成熟的数据仓库模型了,为何不实现一个大数据技术的数据仓库呢?于是Hive类的框架便诞生了,人们开始使用Hive类的框架来构建大数据技术的数据仓库,使用SQL查询数据。 接着人们又...转载 2020-09-25 08:57:41 · 728 阅读 · 0 评论 -
一文解决伪分布式hadoop集群搭建
1.关闭防火墙及开机自启动/*普通用户:切换为root用户*/$su-root/*root用户:关闭防火墙及开机自启动*/#systemctlstopfirewalld.service#systemctldisablefirewalld.service2.查看、修改主机名与主机IP映射#vim/etc/hostnamemaster#vim/etc/hosts192.168.XXX.XXX master3.配置免密登录...转载 2020-08-20 17:45:44 · 159 阅读 · 0 评论 -
分布式锁用 Redis 还是 Zookeeper?
为什么用分布式锁?在讨论这个问题之前,我们先来看一个业务场景:系统A是一个电商系统,目前是一台机器部署,系统中有一个用户下订单的接口,但是用户下订单之前一定要去检查一下库存,确保库存足够了才会给用户下单。由于系统有一定的并发,所以会预先将商品的库存保存在redis中,用户下单的时候会更新redis的库存。此时系统架构如下:但是这样一来会产生一个问题:假如某个时刻,redis里面的某个商品库存为1,此时两个请求同时到来,其中一个请求执行到上图的第3步,更新数据库的库存为0,但是第4步还转载 2020-06-29 09:07:35 · 178 阅读 · 0 评论 -
spark基本概念
1、什么是spark? 它是专门为大规模数据处理的而设计的通用计算的计算引擎,是一种与Hadoop类似的开源计算环境。2、它与Hadoop的不同之处? (1) spark启用了内存分布数据集,可以优化迭代工作负载。 (2) 可以紧密的与Scala结合。3、spark有什么特点? 首先,高级 API 剥离了对集群本身的关注,Spark 应用开发者可以专注于应用所要做的计算本身。 其次,Spark 很快,支持交互式计算和复杂算法。...原创 2020-05-24 02:11:31 · 777 阅读 · 0 评论 -
Hive基础知识
1、Hive是什么? Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。2、本质是什么? 将SQL转换为MR程序3、主要用途有哪些? 用来做离线数据分析,比直接用MR开发的效率更高。4、Hive组件用户接口元数据存储解释器、执行器、优化器5、Hive与Hadoop的关系 ...原创 2020-04-09 23:42:03 · 8514 阅读 · 0 评论 -
HBase基础知识
1、HBase是什么? 它是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,可以在廉价机上搭建结构化数据存储集群。2、HBase有哪些特点? a、海量传输 b、列式存储 c、极易扩展 d、高并发3、HBase架构主要组件介绍:cilent:访问HBase的接口zookper:存储元数据统一入口地址HMaster:...原创 2020-04-09 23:32:59 · 195 阅读 · 0 评论 -
Flume面试重点问题
1、你是如何实现Flume数据传输的监控的 使用第三方框架Ganglia实时监控Flume。2、Flume的Source,Sink,Channel的作用?你们Source是什么类型?a、作用(1)Source组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spoolingdirectory、netcat、seq...原创 2020-04-06 22:54:49 · 266 阅读 · 0 评论 -
Flume基础知识
1、Flume的定义是什么? Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。2、它的主要作用是什么? 它的主要作用是将实时读取服务器本地磁盘产生的数据,将这些数据写入到HDFS中。3、Flume的框架组成?详细图解4、各个组成部分代表的分别是什么?Ag...原创 2020-04-06 22:43:33 · 355 阅读 · 0 评论 -
YARN基础知识
1、YARN是什么? 答:YARN是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于以恶分布式的操作系统平台。而MAPREDUCE相当于系统上运行的程序。2、YARN工作机制是什么?3、资源调度器 答:主要有三种资源调度器,分别为FIFO、容量调度器、公平调度器...原创 2020-03-13 12:11:11 · 460 阅读 · 0 评论 -
HDFS基础知识
1、HDFS的定义? HDFS是一个文件系统,其次它是分布式的。2、HDFS的使用场景? 适合多次写入,多读出的场景,且不支持文件的修改。3、HDFS的特点有哪些?优点: (1)高容错性a、数据的自动保存多个副本b、某一个副本丢失后,他可以自动回恢复(2)适合处理大数据a、数据规模:PB级别的数据b、文件规模:处理百万规模以上的文件数量...原创 2020-03-05 22:56:00 · 247 阅读 · 0 评论 -
Mapreduce基础知识
1、MapReduce定义? MapReduce是一个分布式运算程序的编程框架。核心功能是将用户编写的业务逻辑代码和自带默认组件整合成完整的分布式运算程序。并发运行在一个Hadoop集群上。2、MapReduce的优缺点? 优点: (1)MapReduce易于编程:它简单的实现一些接口就可以完成一个分布式的程序。 (2)良好的扩展性 ...原创 2020-02-24 22:29:27 · 342 阅读 · 0 评论 -
Hadoop基础学习笔记一
1、Hadoop有哪些优势?a、高可靠性:默认有三个备份b、高扩展性:扩展数以千计的节点c、高效性:并行工作,加快处理速度d、能自动将失败的任务重新分配注:这样写主要是对应大数据的四个特点,可以回顾一下数据量、速度快、价值密度、种类多样(4V)2、Hadoop 1.x和Hadoop 2.x有什么区别?总结如下: 在Hadoop 1.x时代,Hadoop中...原创 2020-02-21 22:43:57 · 253 阅读 · 0 评论 -
初识Hadoop
1、Hadoop是什么? 答:它是由Apache基金会所开发的一种开方式的框架结构。2、Hadoop包括四个基本模块(1)、Hadoop基础功能库:支持其它Hadoop模块的通用程序包(2)、HDFS:一个分布式文件系统,能够以高吞吐量访问应用的数据(3)、YARN:一个作业调度和资源管理框架(4)、MapReduce:一个基于YARN的大数据并行处理程序除了基本的...原创 2019-12-12 10:29:08 · 265 阅读 · 0 评论