- 博客(33)
- 收藏
- 关注

原创 Hadoop完全分布式运行模式
1)安装JDK卸载现有JDK(1)查询是否安装Java软件:[zz@hadoop101 opt]$ rpm -qa | grep java(2)如果安装的版本低于1.7,卸载该JDK:[zz@hadoop101 opt]$ sudo rpm -e 软件包(3)查看JDK安装路径:[zz@hadoop101 ~]$ which java用SecureCRT工具将JDK导入到opt目录下面的software文件夹下面在Linux系统下的opt目录中查看软件包是否导入成功..
2021-11-16 11:03:16
1743
原创 CDH详细安装教程
点击完成后选择自定义安装点击hdfs继续进入安装教程还需要安装其他程序可在安装完成之后继续安装就ok了开启Cloudera Management Service服务之后会显示对应的图表
2022-02-24 17:36:19
291
原创 Cloudera Manager详细安装教程
1.1内存分配将3台虚拟机分配好内存一号机尽量多分配点资源1.2 JDK安装在/opt目录下创建文件夹(1)在/opt目录下创建module、software文件夹[zz@hadoop102opt]$ sudo mkdir module[zz@hadoop102opt]$ sudo mkdir software(2)修改module、software文件夹的所有者cd[zz@hadoop102opt]$ sudo chown zz:zz module/ ...
2022-02-24 16:54:47
3899
5
原创 INNODB和MYISAM的区别
innodb myisam 事务 支持事务 不支持事务 索引 聚集索引,使用 B+ 树作为索引结构,数据文件和索引绑在一起,必须要有主键。主键索引一次查询;辅助索引两次查询,先查询主键,再查询数据 。 非聚集索引,使用 B+ 树作为索引结构,索引和数据文件是分离的。主键索引和辅助索引是独立的。 锁 支持行锁、表锁。行锁...
2022-02-08 20:48:06
652
原创 Hadoop-常用端口
1.HDFS8020/9000 NameNode 内部常用端口50070NameNode 用户页面查询端口50470 NameNode https服务的端口50010DataNode DataNode初始化时向NAMENODE提出注册和应答请求50075DataNode http服务端口50470DataNode https服务端口50020DataNode ipc服务端口8485Journalnode RPC服务端口8480Jour
2022-01-31 16:54:26
2025
原创 Linux——组管理和权限管理
1.1Linux组基本介绍在linux中的每个用户必须属于一个组,不能独立于组外。在linux中每个文件 有所有者、所在组、其它组的概念。1) 所有者 2) 所在组 3) 其它组 4) 改变用户所在的组1.2文件/目录 所有者一般为文件的创建者,谁创建了该文件,就自然的成为该文件的所有者。(1)查看文件的所有者指令:ls –ahl (2)修改文件所有者指令:chown 用户名 文件名1.3组的创建基本指令 groupadd 组名1.4...
2022-01-26 23:40:54
104
原创 Linux——用户管理
1. 基本介绍Linux系统是一个多用户多任务的操作系统,任何一个要使用系统资源的用户,都必须首先向系统管理员申请一个账号,然后以这个账号的身份进入系统。2. 添加用户基本语法 useradd 用户名 案例:添加一个用户 xiaoming 细节说明 当创建用户成功后,会自动的创建和用户同名的家目录 【/home/xiaoming】 也可以通过 useradd -d /home/skyorder2 新的用户名jack2,给新创建的用户指定家目录3. 指定/修改密码...
2022-01-26 23:17:05
63
原创 Linux的目录结构
一,基本介绍:linux的文件系统是采用级层式的树状目录结构,在此结构中的最上层是根目录“/”,然后在此目录下再创建其他的目录。在Linux世界里,一切皆文件。二,Linux目录结构:三,具体的目录结构:1. bin (/usr/bin 、 /usr/local/bin) 是Binary的缩写, 这个目录存放着最经常使用的命令。2. sbin (/usr/sbin 、 /usr/local/sbin) s就是Super User的意思,这里存放的是系统管理员使用的系统管.
2022-01-26 00:09:55
82
原创 String 类的常用方法都有那些?
indexOf():返回指定字符的索引。charAt(): 返回指定索引处的字符。replace(): 字符串替换。trim(): 去除字符串两端空白。split(): 分割字符串,返回一个分割后的字符串数组。getBytes():返回字符串的 byte 类型数组。length(): ...
2021-12-14 19:29:20
303
原创 MapReduce
1. MapReduce定义2. MapReduce优点 3. MapReduce缺点4. MapReduce编程规范5. 流程示意图6. Shuffle机制7. Shuffle过程详解1.MapTask收集我们的map()方法输出的kv对,放到内存缓冲区中2.从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件3.多个溢出文件会被合并成大的溢出文件4.在溢出过程及合并的过程中,都要调用Partitioner进行分区和针对ke...
2021-12-09 12:16:23
68
原创 Hadoop资源调度器
目前,Hadoop作业调度器主要有三种:FIFO、Capacity Scheduler和Fair Scheduler。Hadoop2.7.2默认的资源调度器是Capacity Scheduler。具体设置详见:yarn-default.xml文件1.先进先出调度器(FIFO)2.容量调度器(Capacity Scheduler)3.公平调度器(Fair Scheduler)...
2021-12-09 11:51:52
1047
原创 Yarn资源调度器
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。Yarn基本架构Yarn工作机制工作机制详解(1)MR程序提交到客户端所在的节点。(2)YarnRunner向ResourceManager申请一...
2021-12-09 11:47:01
81
原创 Hadoop企业优化
MapReduce优化方法MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。1. 数据输入2. Map阶段3. Reduce阶段4. I/O传输5. 数据倾斜问题6.常用的调优参数1.资源相关参数(1)以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml)(2)应该在YARN启动之前就配置在服务器的配置文件中才能生效(...
2021-12-09 11:35:48
83
原创 2003 can‘t connect to mysql server on 10038
好长时间不用MySQL,再次使用出现这个问题!解决办法:管理员身份进去cmd 进入到MySQL的bin目录下输入: mysqld -install 显示: Service successfully installed反手一波重启再次尝试链接,如果还是链接不是管理员身份cd进入mysql的bin目录下:cd C:\Program Files\MySQL\MySQL Server 5.5\bin输...
2021-11-25 11:34:38
561
原创 HBaseAPI
1. 环境准备新建项目后在pom.xml中添加依赖:<dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-server</artifactId><version>1.3.1</version></dependency><dependency><groupId...
2021-11-22 10:53:39
1026
原创 HBase安装
1. Zookeeper正常部署首先保证Zookeeper集群的正常部署,并启动之:[zz@hadoop102 zookeeper-3.4.10]$ bin/zkServer.sh start[zz@hadoop103 zookeeper-3.4.10]$ bin/zkServer.sh start[zz@hadoop104 zookeeper-3.4.10]$ bin/zkServer.sh start2. Hadoop正常部署Had...
2021-11-22 10:26:42
91
原创 HBase优化
1. 高可用在HBase中Hmaster负责监控RegionServer的生命周期,均衡RegionServer的负载,如果Hmaster挂掉了,那么整个HBase集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。1.关闭HBase集群(如果没有开启则跳过此步)[zz@hadoop102 hbase]$ bin/stop-hbase.sh2.在conf目录下创建backup-masters文件...
2021-11-22 10:13:41
248
原创 HBase原理
1. 读流程1. Client先访问zookeeper,从meta表读取region的位置,然后读取meta表中的数据。meta中又存储了用户表的region信息;2. 根据namespace、表名和rowkey在meta表中找到对应的region信息;3. 找到这个region对应的regionserver;4. 查找对应的region;5. 先从MemStore找数据,如果没有,再到BlockCach...
2021-11-22 09:59:24
83
原创 HBase命名空间
1.Table:表,所有的表都是命名空间的成员,即表必属于某个命名空间,如果没有指定,则在default默认的命名空间中。2.RegionServergroup:一个命名空间包含了默认的RegionServerGroup。3.Permission:权限,命名空间能够让我们来定义访问控制列表ACL(Access Control List)。例如,创建表,读取表,删除,更新等等操作。4.Quota:限额,可以强制一个命名空间可包含的region的数量。...
2021-11-22 09:49:47
1791
原创 HBase数据结构
1. RowKey与nosql数据库们一样,RowKey是用来检索记录的主键。访问HBASE table中的行,只有三种方式:1.通过单个RowKey访问2.通过RowKey的range(正则)3.全表扫描RowKey行键 (RowKey)可以是任意字符串(最大长度是64KB,实际应用中长度一般为 10-100bytes),在HBASE内部,RowKey保存为字节数组。存储时,数据按照RowKey的字典序(byte order)排序存储。设...
2021-11-22 09:47:37
294
原创 HBase 简介
1 什么是HBaseHBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。官方网站:http://hbase.apache.org2006年Google发表BigTable白皮书2006年开始开发HBase 2008年北京成功开奥运会,程序员默默地将HBase弄成了Hadoop的子项目 2010年HBas...
2021-11-19 19:55:42
150
原创 克隆虚拟机
1. 克隆虚拟机启动虚拟机2. 修改克隆虚拟机的静态IP[root@hadoop101 /]#vim /etc/sysconfig/network-scripts/ifcfg-eth0需要修改的内容有5项:IPADDR=192.168.1.101GATEWAY=192.168.1.2ONBOOT=yesBOOTPROTO=staticDNS1=192.168.1.2修改前修改后:wq 保存退出3)执行service ne...
2021-11-16 10:13:52
1410
原创 Flume到kafka
# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.type = execa1.sources.r1.command = tail -F -n +0 /opt/module/flume-1.7.0/data.csva1.sources.r1.shell = /bin/bash -c# Desc.
2021-11-16 10:00:08
571
原创 冒号排序的理解与代码
冒号排序:遍历数据,相邻的两个数据进行比较并交换。具体上菜鸟教程网站看!!!从小到大排序:前一个比后一个大,进行交换数据从大到小排序:前一个比后一个小,进行交换数据详细过程:第一次遍历就将最小的依次交换到倒数第一的位置第二次遍历就将第二的依次交换到倒数第二的位置第三次遍历就将第小的依次交换到倒数第三的位置第四次遍历就将第小的依次交换到倒数第四的位置第n次遍历就将第n小的依次交换到倒数第n的位置...
2021-10-27 20:46:19
816
原创 Flume企业真实面试题
1.你是如何实现Flume数据传输的监控的使用第三方框架Ganglia实时监控Flume。2.Flume的Source,Sink,Channel的作用?你们Source是什么类型?1、作用(1)Source组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy(2)Channel组件对采集到的数据进行缓存,可
2021-10-25 11:43:49
102
原创 Flume监控端口数据案例
1.需求分析2.实现步骤安装telnet工具将rpm软件包(xinetd-2.3.14-40.el6.x86_64.rpm、telnet-0.17-48.el6.x86_64.rpm和telnet-server-0.17-48.el6.x86_64.rpm)拷入/opt/software文件夹下面。执行RPM软件包安装命令:[zz@hadoop102 software]$ sudo rpm ...
2021-10-25 11:37:53
279
原创 Flume多数据源汇总案例
1.需求分析2.实现步骤1.准备工作分发Flume[zz@hadoop102 module]$ xsync flume在hadoop102、hadoop103以及hadoop104的/opt/module/flume/job目录下创建一个group3文件夹。[zz@hadoop102 job]$ mkdir group3[zz@hadoop103 job]$ mkdir group3...
2021-10-25 11:25:32
1091
6
原创 Flume单数据源多出口案例(Sink组)
1.需求分析2.实现步骤1.准备工作在/opt/module/flume/job目录下创建group2文件夹[zz@hadoop102 job]$ cd group2/2.创建flume-netcat-flume.conf配置1个接收日志文件的source和1个channel、两个sink,分别输送给flume-flume-console1和flume-flume-console2。创建配置文件...
2021-10-25 11:09:13
351
原创 Flume单数据源多出口案例(选择器)
1.需求分析2.实现步骤准备工作 在/opt/module/flume/job目录下创建group1文件夹 [zz@hadoop102 job]$ cd group1/ 在/opt/module/datas/目录下创建flume3文件夹 [zz@hadoop102 datas]$ mkdir flume3 创建flume-file-flume.conf 配置1个接收日志文件的source和两个channel、两个sink,分别输送给flu.
2021-10-25 10:43:48
798
原创 Flume实时读取目录文件到HDFS案例
1.需求分析2.实现步骤创建配置文件flume-dir-hdfs.conf[zz@hadoop102 job]$ touch flume-dir-hdfs.conf打开文件[zz@hadoop102 job]$ vim flume-dir-hdfs.conf添加如下内容a3.sources = r3a3.sinks = k3a3.channels = c3#...
2021-10-25 10:02:21
295
原创 Flume实时读取本地文件到HDFS案例
1.实时读取本地文件到HDFS案例 需求分析实现步骤1.Flume要想将数据输出到HDFS,必须持有Hadoop相关jar包将commons-configuration-1.6.jar、hadoop-auth-2.7.2.jar、hadoop-common-2.7.2.jar、hadoop-hdfs-2.7.2.jar、commons-io-2.4.jar、htrace-core-3.1.0-incubating.jar拷贝到/opt/modul...
2021-10-25 09:21:26
549
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人