- 博客(39)
- 收藏
- 关注
原创 CentOS7与CentOS6的区别
CentOS7与CentOS6的区别暂时先引用,作为纪录,侵删暂时先引用,作为纪录,侵删https://www.cnblogs.com/bethal/p/5945026.html
2019-11-13 08:57:22
229
原创 combiner组合器
combiner组合器1. 作用:作用于Mapper端【但不能影响最终结果,max、sum行,avg不行】a.降低Mapper端的本地磁盘输出b.减少Reducer端的网络通信【在Map端做了一次Reduce操作】2. Temperature案例 【在Mapper后,开启Combiner,意味着在Reducer前执行了一次Reduce操作,可以降低Mapper端...
2019-09-29 22:23:42
264
原创 shuffle流程
shuffle流程The Reducer copies the sorted output from each Mapper using HTTP across the network.【Reducer通过网络使用http协议,从每个mapper复制排序后的输出】shuffle流程Map()函数Buffer(环形缓冲区)Partition(分区)Sort(排序)Spill ...
2019-09-29 22:23:09
265
原创 自定义InputFormat输入格式
自定义InputFormat输入格式<通过自定义InputFormat输入格式求文件中的奇数行和偶数行的平均数>0. 示例数据22183446192456553341491. 思路:将默认的<k1,v1>(偏移量,行值) --> <k1,v1> (行号,行值)1.1 重写TextInputFormat类1.1.1...
2019-09-29 22:22:35
756
原创 设定ReducerTask个数
设定ReducerTask个数设定ReducerTask个数,使用默认的HashPartitioner分区,对数据进行分区操作,提供给不同的Reducer处理【在源码中将定义的ReducerTask数提交给Partitioner,因此是Reducer数决定了Partition分区数】【Reducer输出从part-r-00000开始连续的】1. 测试数据import java.io.Bu...
2019-09-29 22:21:59
472
原创 partition分区
partition分区分区数决定了reducer数,业务数决定分区数默认情况下,job设置的reduceTasks为1,每个reduce对应生成一个结果文件reduce个数分为几种情况:ReduceTasks:0【无reduce阶段】ReduceTasks:1【默认】ReduceTasks:n【分多个文件】partition分区函数采用【org.apache...
2019-09-29 22:21:27
211
原创 天气数据案例分析
天气数据案例分析求每年的最高温度示例数据:0029029070999991901010106004+64333+023450FM-12+000599999V0202701N015919999999N0000001N9-00781+99999102001ADDGF1089919999999999999999991. 分析数据15-19位为年分数据87-91为气温数据92为校验...
2019-09-29 22:20:53
2998
原创 Mapper分析
Mapper分析public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> { public abstract class Context implements MapContext<KEYIN,VALUEIN,KEYOUT,VALUEOUT> { } protected void setup(Conte...
2019-09-29 22:20:19
668
原创 认识wordcount(三)
认识wordcount(三)0. 执行前准备0.1 配置好的完全分布式环境高可用环境会有两个master节点,会报错,暂时没去找解决方案!但是可以在src下的配置文件配置,或者在程序中指定一个master,破坏高可用的两个master情况,但是不会变更整个集群环境,说起来就是暂时配置的一个环境。(修改【fs.defaultFS】【yarn.resourcemanager.hostname...
2019-09-29 22:18:27
147
原创 认识wordcount(二)
认识wordcount(二)0. 执行前准备0.1 配置好的完全分布式环境(如果遇到权限问题,给777)高可用环境会有两个master节点,会报错,暂时没去找解决方案!但是可以在src下的配置文件配置,或者在程序中指定一个master,破坏高可用的两个master情况,但是不会变更整个集群环境,说起来就是暂时配置的一个环境。(修改【fs.defaultFS】【yarn.resourcem...
2019-09-29 22:17:53
161
原创 认识wordcount(一)
认识wordcount(一)0. 执行前准备0.1 拷贝Hadoop二进制包中的可执行Jar包将Hadoop二进制包中的可执行Jar包拷贝到工程下新建的lib文件夹,将他们都右键【build path】->【Add to build path】0.2 设置日志配置文件将Hadoop二进制包中的hadoop-2.7.3\etc\hadoop\log4j.properties文...
2019-09-29 22:17:28
233
原创 分布式并行计算框架:数据在哪,计算在哪
分布式并行计算框架:数据在哪,计算就在哪【主要是map输入<k1,v1>,map的输出或reduce的输入<k2,v2>,reduce输出<k3,v3>分别代表什么,弄懂其中关系就容易了】【k1:表示字节数索引,v1:表示该行的值】【k2:表示map的context.write(key,value)的key值,v2:表示value值】【k3:表示以key...
2019-09-29 22:16:03
483
原创 通过HDFS FileSystem API 对 HDFS 进行操作
通过HDFS FileSystem API 对 HDFS 进行操作windows下安装eclipse-hadoop插件将hadoop-eclipse-plugin-2.6.0.jar复制到eclipse安装目录下的plugins文件夹中。将hadoop.dll和winutils.exe复制到Windows的hadoop安装目录的bin文件夹下Windows解压hadoop2.7.3配...
2019-09-29 22:15:00
425
原创 HDFS体系结构(各种进程状态)
HDFS体系结构(各种进程状态)NameNode【名称节点】开启方式(关闭方式):hdfs namenode(关闭Terminal)hadoop-daemon.sh start namenode(hadoop-daemon.sh stop namenode或杀死进程)start-dfs.sh(stop-dfs.sh或杀死进程)namenode默认大小...
2019-09-29 22:14:15
1052
原创 HDFS命令详解
HDFS dfsadmin 命令详解-report:获取集群报表信息【心跳机制汇报的就是report信息】[hadoop@master ~]$ ·hdfs dfsadmin -report·Configured Capacity: 55935541248 (52.09 GB)Present Capacity: 39769579520 (37.04 GB)DFS Remaining:...
2019-09-29 22:12:19
379
原创 fsimage和edits_log
fsimage和edits_log分析1. 操作过程》》[hadoop@master ~]$ hdfs namenode -format》》[hadoop@master ~]$ start-dfs.sh Starting namenodes on [master]master: starting namenode, logging to /home/hadoop/soft/hadoop-...
2019-09-29 22:11:39
208
原创 HDFS 启动顺序
HDFS 启动顺序Loading fsimage:加载镜像文件首次开启集群时,加载镜像文件:{hadoop.tmp.dir}/dfs/name/fsimage_0000000000000000000再次开启集群时,Loading fsimage /home/hadoop/tmp/dfs/name/current/fsimage_0000000000000000002Loading ...
2019-09-29 22:10:46
1096
原创 各种守护进程状态
各种守护进程状态文章目录各种守护进程状态1. 伪分布2. 完全分布式2.1 不开启yarn2.2 开启yarn(有MapReduce任务时才有MRAppMaster和YarnChild)3. 完全分布式(高可用)3.1 手动容灾3.1.1 不开yarn3.1.2 开启yarn3.2 Zookeeper自动容灾3.2.1 不开yarn3.2.2 开启yarn1. 伪分布master[h...
2019-09-17 11:16:02
911
原创 从零搭建完全分布式
从零搭建完全分布式基于CentOS_64_6.8、jdk1.8、Hadoop2.7.3一台master节点,3台slave节点【以下所有windows配置都是为了在同一网络环境下,部署一个windows远程ssh连接集群做操作或测试使用】文章目录从零搭建完全分布式0.安装前准备(所有节点都做,IP地址、主机名不同)0.1 设置静态IP0.1.1 查看子网IP0.1.2 查看MAC地址是否与...
2019-09-17 11:15:09
328
原创 伪分布基础上,搭建完全分布式
伪分布基础上,搭建完全分布式安装jdk拷贝并解压创建软链接安装hadoop拷贝并解压创建软链接配置环境变量配置jdk环境变量配置hadoop环境变量设置无密登录主节点设置无密登录,将公钥库保存给其他节点,就可以通过ssh 其他机器名远程登录其他机器节点创建密钥创建公钥库设置hadoop配置文件修改core-site.xml修改h...
2019-09-17 11:13:07
349
原创 多次初始化namenode产生的异常
namenode与datanode初次初始化name#Sun Sep 08 23:36:43 PDT 2019namespaceID=903658744clusterID=CID-77684598-9de2-4dfc-bab5-14e503c65dfecTime=0storageType=NAME_NODEblockpoolID=BP-1528666264-192.168.204...
2019-09-17 11:01:30
640
原创 CentOS6.8虚拟机搭建完全分布式
虚拟机搭建完全分布式文章目录虚拟机搭建完全分布式1. 主节点配置1.1 安装系统环境1.2 设置静态IP1.2.1 查看子网IP【VMWare15】1.2.2 查看MAC地址是否与eth0匹配1.2.3 root用户下修改【/etc/sysconfig/network-scripts/ifcfg-eth0】1.2.4 重启网络服务1.2.5 设置windows主机中的虚拟网卡VMnet81.2....
2019-09-08 21:36:32
1405
原创 伪分布基础上,搭建完全分布式
伪分布基础上,搭建完全分布式安装jdk拷贝并解压创建软链接安装hadoop拷贝并解压创建软链接配置环境变量配置jdk环境变量配置hadoop环境变量设置无密登录主节点设置无密登录,将公钥库保存给其他节点,就可以通过ssh 其他机器名远程登录其他机器节点创建密钥创建公钥库设置hadoop配置文件修改core-site.xml修改h...
2019-09-08 21:18:02
385
原创 namenode和datanode启动问题
namenode和datanode启动问题当namenode启动datanode宕掉,或者datanode启动namenode宕掉时,考虑clusterID出现了不一致情况使用hdfs namenode开启namenode节点,查看错误日志,对于所有的节点启动异常就去找日志。HDFS中的守护进程启动异常就使用hdfs command来查看日志,或者到对应的节点的/home/hadoop/sof...
2019-09-08 21:15:47
1350
原创 Hadoop Pseudo-Distributed Mode:【伪分布模式】搭建
2. Hadoop Pseudo-Distributed Mode:【伪分布模式】搭建基于CentOS_64_6.8、jdk1.8、Hadoop2.7.3[hadoop伪分布模式运行在单节点上,每个hadoop守护进程占用单独的Java进程]设定CentOS的用户名为hadoop自定义的集群软件安装位置:在/home/hadoop下创建一个soft目录文章目录2. Hadoop Ps...
2019-09-08 21:08:56
1583
原创 Hadoop基础
1. Hadoophadoop是一个分布式的、开源的、高可靠的、可扩展的软件框架。分布式: 【GFS(存储),MapReduce(计算)两篇论文】【bigtable(大表)】hadoop组成【2.7.3版本】Hadoop CommonHadoop Distributed Files System(HDFS)【默认端口号:8020(1.0则是9000)】【外部...
2019-09-08 21:06:36
677
原创 shell脚本
shell脚本shell变量命名规则:首字为字母,其余字母大小写,数字加_。并且不能用bash中的关键字语法:自定义的变量名=“变量值”【其中"="两边不能有空格】for 变量名 in 集合【集合可以都列出来,也可以是通过语句查询得到】示例:$>str=“I love my country! I love China!”$>for file in `l...
2019-09-06 09:04:12
218
原创 linux软件安装
软件安装rpm安装【必须下载安装包,使用命令对安装包全名进行安装】rpm命令示例操作-qrpm -q mysql查看mysql是否安装【可以用通配符*】-qarpm -qa查看所有已安装的rpm包-qirpm -qi mysql查看mysql的软件包信息-qlrpm -ql mysql查看mysql安装路径-qfrpm -qf...
2019-09-06 08:57:57
125
原创 CentOS6 安装中文输入法
CentOS6 安装中文输入法切换到root用户,安装输入法yum -y install "@Chinese Support"[root@master hadoop]# yum -y install "@Chinese Support"已加载插件:fastestmirror, refresh-packagekit, security设置安装进程Loading mirror sp...
2019-09-06 08:56:59
1300
原创 Linux压缩与解压缩
Linux压缩与解压缩gzip压缩压缩示例结果gzip$>gzip filefile.gz-v$>gzip -v file压缩时,显示压缩率-c$>gzip -c file将内容二进制输出$>gzip -c file >file.gz就可以实现保留源文件的压缩-f$>gzip -f file...
2019-09-06 08:47:57
117
原创 Linux磁盘扩容
Linux磁盘扩容#>fdisk -l【查看磁盘分区信息】Disk /dev/sda: 21.5 GB, 21474836480 bytes255 heads, 63 sectors/track, 2610 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytesSector size (logical/physical...
2019-09-02 14:58:21
515
原创 linux常见命令
linux常见命令目录切换cd行为.本级目录…父级目录/根目录-上次操作目录~用户家目录绝对路径/home/hadoop相对路径hadoop常见命令常见命令操作pwd当前文件位置ln -s 源文件 目标文件ln -s 源目录 目标目录给源文件或目录设置软链接【相当于快捷方式】...
2019-09-02 13:55:11
143
原创 linux用户组管理
linux用户组管理创建用户组$>groupadd lili删除用户组$>groupdel lili修改用户组$>groupmod -n lili mumu【将lili组名改为mumu】将用户添加入组中$>usermod -g lili mumu【更新用户mumu的组为lili】$>useradd -g lili mumu【添加新用...
2019-09-02 11:25:33
124
原创 linux用户管理命令[添加sudo临时root权限]
用户管理命令[添加sudo临时root权限] 添加用户必须在root用户下操作:添加用户$>useradd mumu添加密码$>passwd mumu【然后输入两次密码】$>useradd mumu -p 123456【直接在创建是添加密码】删除用户$>userdel mumu$>userdel -r mumu【同时删除用户目录】...
2019-08-30 14:55:00
305
原创 Linux关机重启指令
Linux关机重启指令一、基本语法1.sync(同步内存数据到硬盘中)2.shutdown[-h|-r] 时间-h:关机-r:重启3.halt(关机:shutdown -h now)4.reboot(重启:shutdown -r now)二、案例1.$>sync【将数据同步到硬盘中】2.$>shutdo...
2019-08-30 14:20:02
138
原创 linux文件权限管理
文件权限管理结构 【-rw-r–r--. 1 root root 969 5月 11 2016 yum.conf】第一位【d:目录|l:链接文件|-:普通文件】第二至四位【文件所有者访问权限】第五至七位【用户组访问权限】第八至十位【其他用户访问权限】文件则表示硬连接个数,目录则表示,包含几个子子目录数,包括【.|…】文件所有者文件所有组文件大小(字节)时间...
2019-08-22 15:03:16
107
原创 防火墙设置(CentOS6.8)
防火墙设置查看防火墙状态$>service iptables status【防火墙状态(开启)】Table: filterChain INPUT (policy ACCEPT)num target prot opt source destination1 ACCEPT all – 0.0.0.0/0 ...
2019-08-22 14:55:50
208
原创 设置静态ip(CentOS6.8)
设置静态ip查看子网ip: 【编辑】–>【虚拟网络编辑器】–> NET:(VMnet8)中: 子网号码(192.168.204.0)【192.168.204 是将要加入的网段】 子网掩码(255.255.255.0)查看MAC地址是否与eth0匹配对比ifconfig中的MAC地址与/etc/udev/rules.d/70-pe...
2019-08-22 10:07:58
641
原创 linux文件系统
linux文件系统目录名作用/bin:是binary的缩写,存放系统必备的执行命令/boot:这里存放的是启动Linux时使用的一些核心文件,包括一些连接文件以及镜像文件/dev:Device(设备)的缩写,该目录下存放的是Linux的外部设备,在Linux中访问设备的方式和访问文件的方式是相同的。/etc:所有的系统程序所需要的配置文件。/h...
2019-08-22 09:01:47
116
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人