
hadoop
文章平均质量分 91
Z_cx
这个作者很懒,什么都没留下…
展开
-
(Hadoop3)完全分布式配置文件
hdfsvi core.site.xml<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:8020</value> </property> <property> <name>原创 2020-09-26 15:33:34 · 1406 阅读 · 1 评论 -
(Hadoop3)HDFS文件系统
概述分布式文件系统适合:一次写入,多次读出,且不支持修改文件块大小128MHDFS的shell操作(重点)基本语法hadoop fs 具体命令或者hdfs dfs 具体命名命令大全Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] # 追加 [-cat [-ignoreCrc] <src> ...] # 查看 [-checksum <src>原创 2020-09-13 15:56:53 · 190 阅读 · 0 评论 -
(Java)Maven
作用自动化构建工具使用安装核心程序检查电脑的Java环境变量echo %JAVA_HOME%环境变量配置JAVA_HOME = G:\Java\jdk1.8CLASSPATH = ,;G:\Java\jdk1.8\lib\dt.jar;G:\Java\jdk1.8\lib\tools.jar Path新增 %JAVA_HOME%\bin安装maven官网下载apache-maven-3.6.3 解压放到一个地方不用动,相当于安装好配置maven环境变量// 新建M2_HO原创 2020-09-13 11:35:56 · 218 阅读 · 0 评论 -
(Hadoop)HBase分布式数据库
简介是一个高可靠性、高性能、面向列、可伸缩的分布式数据库。目标是储存并处理大型的数据。有一下特点容量大:可以存储成千上万的行和列组成的数据面向列:HBase是面向列的存储和权限控制。列存储,其数据在表中是按照每列存储的,根据数据动态怎能更加列,并且可以单独对列进行各种操作。多版本:HBase中表的每一个列的数据存储都有多个版本Version。一般的每一列队形一条数据,但是有的数据会对应多...原创 2020-09-05 10:14:17 · 772 阅读 · 0 评论 -
(Hadoop)Hadoop高可用
hadoop2.0的改进与提升组件Hadoop1.0局限和不足Hadoop2.0的改进HDFSNameNode存在单点故障风险HDFS引入了高可用机制MapReduceJobTracker存在单点故障风险,且内存扩展受限引入了一个资源管理调度框架YARNYarn资源管理框架Yarn体系结构YARN(Yet Another Resource Negotiator,另一种资源协调者)是一个通用的资源管理系统和调度平台,它的基本设计思想是将MRv1(Hadoop1.原创 2020-05-20 15:15:55 · 557 阅读 · 0 评论 -
(续)CentOS大数据-基础配置(四台机器配置,映射等)
为四台机器重新设置IP地址vi /etc/sysconfig/network-script/ifcfg-eth0将IPADDR修改注意5台机器不能重复service network restart重启网卡 出现4个ok成功ping一下百度修改主机名vi /etc/sysconfig/network修改成不同的名称重启!重启!重启!做名称映射powvi /etc/h...原创 2020-02-24 13:33:21 · 153 阅读 · 0 评论 -
(Hadoop)Zookeeper
初识简介Zookeeper是一个分布式协调服务的开源框架,它是由Google的Chubby开源实现。Zookeeper主要用来解决分布式集群中应用系统的一致性问题和单点故障问题,例如如何避免同时操作同一数据造成脏读的一致性问题等。特性Zookeeper具有全局数据一致性、可靠性、顺序性、原子性以及实时性,可以说Zookeeper的其他特性都是为满足Zookeeper全局数据一致性这一特性...原创 2020-05-14 18:05:51 · 620 阅读 · 0 评论 -
(Hadoop)S10 Sqoop
简介介绍:Sqoop是Apache的一款开源工具,Sqoop主要用于在Hadoop和关系数据库或大型机之间传输数据,可以使用Sqoop工具将数据从关系数据库管理系统导入(import)到Hadoop分布式文件系统中,或者将Hadoop中的数据转换导出(export)到关系数据库管理系统。版本 Sqoop1是1.4.x。Sqoop是1.99.x。Sqoop1用于服务管理进行简单的数据迁移...原创 2020-04-24 15:21:54 · 625 阅读 · 0 评论 -
CentOS搭建hadoop伪分布式
CentOS的Hadoop伪分布式集群搭建前序CentOS防火墙关闭jdk8hadoop-2.6.5安装jdktar xf */jdk -C /usr/java路径:/usr/java配置环境变量vim /etc/profile末尾增加doneunset iunset -f pathmunge# 这里下面增加:export JAVA_HOME=/usr...原创 2020-02-24 13:32:53 · 367 阅读 · 0 评论 -
(Hadoop操作与应用)S4MapReduce分布式计算框架
概要MapReduce是hadoop的核心组件之一,用于大数据并行处理的计算模型、框架和平台,主要解决海量数据的计算。借鉴了面向对象编程思想MapReduce概述核心思想分而治之,将大问题分解为小问题,解决小问题。使用MapReduce操作海量数据是,每个MapReduce程序被初始化为一个工作任务,每个工作任务分为Map和Reduce两个阶段: * Map:负责任务分解,分解为若干...原创 2020-04-10 17:47:12 · 783 阅读 · 0 评论 -
CentOS搭建hadoop全分布式
前提四台机器全部安装jdk同步时钟[root@CentOS01 ~]# dateThu Dec 12 04:26:56 CST 2019[root@CentOS01 ~]# date -s "2019-12-30 9:30:59" #设置每个虚拟机原因:当时钟不同步时 后续四台机器同步工作咴ping超时 误差在3秒内可以技巧:在VMware中-查看-撰写-撰...原创 2020-02-24 13:33:15 · 311 阅读 · 0 评论 -
(Hadoop操作与应用)S3HDFS
HDFS的介绍HDFS演变源于谷歌GFS论文DataNode(服务器A)存储文件的分割信息,文件和目录信息。DataNode(服务器B。C。D)存储分布式文件,并且备份在不同的服务器上。HDFS基本概念概念是一个易于扩展分布式文件存储系统,运行在成百上千台低成本的机器上。用于海量文件信息进行存储和管理。解决TB,PB的存储问题...原创 2020-03-05 16:49:05 · 1602 阅读 · 0 评论 -
(Hadoop操作与应用)基础搭建
组件hdfs是专门放数据的地方,yarn是资源管理,mapduce是计算用的,zookeeper是专门协调打架用的flume用来采集数据,sqoop是数据库之间的相互转换工具:mysqlhive 数据仓库Hbase列式数据库大数据概述特征:(4v)大量(Volume),多样(Varity),高速(Velocity),价值(Value)。Hadoop前世今生Ha...原创 2020-03-05 14:42:36 · 235 阅读 · 0 评论