
Java
文章平均质量分 75
尚硅谷铁杆粉丝
这个作者很懒,什么都没留下…
展开
-
大数据技术之Linux第1章 Linux入门
1.1 概述1.2 Linux和Windows区别1.3 Centos下载地址 本教程由尚硅谷教育大数据研究院出品,如需转载请注明来源。原创 2018-07-30 10:22:47 · 197 阅读 · 0 评论 -
大数据技术之Linux 第2章 VM与Linux的安装
2.1 VMWare安装https://share.weiyun.com/5AtWG4J2.2 CentOS安装https://share.weiyun.com/5HEnmLr2.3 VMTools安装https://share.weiyun.com/5avqdZw 本教程由尚硅谷教育大数据研究院出品,如需转载请注明来源。 ...原创 2018-07-30 10:37:31 · 178 阅读 · 0 评论 -
大数据技术之Hadoop(入门)第3章 Hadoop运行环境搭建
3.1 虚拟机环境准备1) 克隆虚拟机2) 修改克隆虚拟机的静态ip3) 修改主机名4) 关闭防火墙5) 创建atguigu用户6) 配置atguigu用户具有root权限以上6条内容详见《尚硅谷大数据技术之Linux》文档。7)在/opt目录下创建文件夹(1)在/opt目录下创建module、software文件夹[atguigu@hadoop101 op...原创 2018-08-09 09:15:47 · 659 阅读 · 0 评论 -
大数据技术之Hadoop(入门)第4章 Hadoop运行模式
Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。Hadoop官方网站:http://hadoop.apache.org/4.1 本地运行模式4.1.1 官方grep案例1)创建在hadoop-2.7.2文件下面创建一个input文件夹[atguigu@hadoop101 hadoop-2.7.2]$ mkdir input2)将hadoop的xml配置文...原创 2018-08-09 10:45:46 · 1346 阅读 · 0 评论 -
大数据技术之Linux 第3章 Linux文件与目录结构
3.1 Linux文件Linux系统中一切皆文件。3.2 Linux目录结构本教程由尚硅谷教育大数据研究院出品,如需转载请注明来源。原创 2018-08-01 10:14:29 · 220 阅读 · 0 评论 -
大数据技术之Linux 第4章 VI/VIM编辑器
4.1 是什么VI是Unix操作系统和类Unix操作系统中最通用的文本编辑器。VIM编辑器是从VI发展出来的一个性能更强大的文本编辑器。可以主动的以字体颜色辨别语法的正确性,方便程序设计。VIM与VI编辑器完全兼容。4.2 测试数据准备1)拷贝/etc/smartd.conf数据到/root目录下[root@hadoop100 桌面]# cp /etc/smartd.conf ...原创 2018-08-01 10:19:42 · 365 阅读 · 0 评论 -
大数据技术之Hadoop(入门)第5章 Hadoop编译源码
5.1 前期准备工作1)CentOS联网 配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的注意:采用root角色编译,减少文件夹权限出现问题2)jar包准备(hadoop源码、JDK8、maven、ant 、protobuf)(1)hadoop-2.7.2-src.tar.gz(2)jdk-8u144-linux-x64.tar.g...原创 2018-08-10 10:16:09 · 538 阅读 · 0 评论 -
大数据技术之Hadoop(入门)第6章 常见错误及解决方案
1)防火墙没关闭、或者没有启动yarnxINFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:80322)主机名称配置错误3)ip地址配置错误4)ssh没有配置好5)root用户和atguigu两个用户启动集群不统一6)配置文件修改不细心7)未编译源码Unable...原创 2018-08-10 10:18:52 · 368 阅读 · 0 评论 -
大数据技术之 第8章 软件包管理
8.1 RPM8.1.1 RPM概述RPM(RedHat Package Manager),Rethat软件包管理工具,类似windows里面的setup.exe 是Linux这系列操作系统里面的打包安装工具,它虽然是RedHat的标志,但理念是通用的。RPM包的名称格式Apache-1.3.23-11.i386.rpm“apache” 软件名称 “1.3.23-11”软...原创 2018-08-07 09:09:50 · 276 阅读 · 0 评论 -
大数据技术之第9章 Shell编程
9.1 概述Shell是一个命令行解释器,它为用户提供了一个向Linux内核发送请求以便运行程序的界面系统级程序,用户可以用Shell来启动、挂起、停止甚至是编写一些程序。Shell还是一个功能相当强大的编程语言,易编写、易调试、灵活性强。Shell是解释执行的脚本语言,在Shell中可以调用Linux系统命令。9.2 Shell脚本的执行方式2)脚本格式(1)脚本以#!/...原创 2018-08-07 09:27:13 · 385 阅读 · 0 评论 -
大数据技术之第10章 常见错误及解决方案
1)虚拟化支持异常情况如下几种情况问题原因:宿主机BIOS设置中的硬件虚拟化被禁用了解决办法:需要打开笔记本BIOS中的IVT对虚拟化的支持 本教程由尚硅谷教育大数据研究院出品,如需转载请注明来源。 ...原创 2018-08-07 09:30:52 · 223 阅读 · 0 评论 -
大数据技术之Linux 第5章 网络配置和系统管理操作
5.1 查看网络IP和网关1)查看虚拟网络编辑器2)修改ip地址3)查看网关 4)查看windows环境的中VMnet8网络配置4)查看windows环境的中VMnet8网络配置5.2 配置网络ip地址5.2.1 ifconfig 配置网络接口ifconfig :network interfaces configuring网络接口配置1)基本语法...原创 2018-08-03 09:09:10 · 382 阅读 · 0 评论 -
大数据技术之Linux 第6章 远程登录
6.1 安装SecureCRT(英文版)Linux远程登录及相关工具介绍Linux一般作为服务器使用,而服务器一般放在机房,你不可能在机房操作你的Linux服务器。这时我们就需要远程登录到Linux服务器来管理维护系统。Linux系统中是通过SSH服务实现的远程登录功能,默认ssh服务端口号为 22。Window系统上 Linux 远程登录客户端有SecureCRT, Putty, S...原创 2018-08-03 09:40:31 · 259 阅读 · 0 评论 -
大数据技术之Linux第7章 常用基本命令
7.1 帮助命令7.1.1 man 获得帮助信息1)基本语法:man [命令或配置文件] (功能描述:获得帮助信息)2)显示说明 信息 功能 NAME 命令的名称和单行描述 SYNOPSIS 怎样使用命令 DESCRIPTION ...原创 2018-08-03 10:13:20 · 876 阅读 · 0 评论 -
大数据技术之Hadoop(HDFS)第3章 HDFS客户端操作
3.1 HDFS客户端环境准备1)根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径(例如:D:\Develop\hadoop-2.7.2)。2)配置HADOOP_HOME环境变量2)配置Path环境变量4)创建一个Maven工程HdfsClientDemo5)导入相应的依赖 <dependencies> <...原创 2018-08-15 10:02:40 · 1113 阅读 · 0 评论 -
大数据技术之Hadoop(HDFS)第4章 HDFS的数据流
4.1 HDFS写数据流程4.1.1 剖析文件写入1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2)NameNode返回是否可以上传。3)客户端请求第一个 block上传到哪几个datanode服务器上。4)NameNode返回3个datanode节点,分别为dn1、dn...原创 2018-08-15 10:09:05 · 319 阅读 · 0 评论 -
大数据技术之Hadoop(HDFS)第1章 HDFS概述
1.1 HDFS产生背景随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。1.2 HDFS概念HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群...原创 2018-08-13 11:17:38 · 640 阅读 · 0 评论 -
大数据技术之Hadoop(HDFS)第2章 HFDS的Shell操作
1)基本语法bin/hadoop fs 具体命令2)命令大全[atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop fs [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-...原创 2018-08-13 11:19:51 · 1809 阅读 · 0 评论 -
大数据技术之Hadoop(HDFS) 第5章 NameNode和SecondaryNameNode
5.1 NN和2NN工作机制1)第一阶段:NameNode启动(1)第一次启动NameNode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。(2)客户端对元数据进行增删改的请求。(3)NameNode记录操作日志,更新滚动日志。(4)NameNode在内存中对数据进行增删改查。2)第二阶段:Secondary Nam...原创 2018-08-16 08:58:15 · 228 阅读 · 0 评论 -
大数据技术之Hadoop(HDFS)第6章 DataNode
6.1 DataNode工作机制1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到...原创 2018-08-16 09:01:18 · 590 阅读 · 0 评论 -
大数据技术之Hadoop(MapReduce) 第5章 Yarn
5.1 Yarn概述Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。5.2 Yarn基本架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。5.3 Yarn工作机制1)Y...原创 2018-08-22 08:54:24 · 294 阅读 · 0 评论 -
大数据技术之Hadoop(MapReduce)第6章 Hadoop企业优化
6.1 MapReduce 跑的慢的原因Mapreduce 程序效率的瓶颈在于两点:1)计算机性能CPU、内存、磁盘健康、网络2)I/O 操作优化(1)数据倾斜(2)map和reduce数设置不合理(3)map运行时间太长,导致reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)spill次数过多(7)merge次数过多等。6.2...原创 2018-08-22 08:56:05 · 241 阅读 · 0 评论 -
大数据技术之Hadoop(HDFS) 第7章 HDFS 2.X新特性
7.1 集群间数据拷贝1)scp实现两个远程主机之间的文件复制scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 pushscp -r root@hadoop103:/user/atguigu/hello.txt hello.txt // 拉 pullscp -r root@hadoop103:/user/at...原创 2018-08-17 09:25:57 · 446 阅读 · 0 评论 -
大数据技术之Hadoop(HDFS)第8章 HDFS HA高可用
8.1 HA概述1)所谓HA(high available),即高可用(7*24小时不中断服务)。2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。4)NameNode主要在以下两个方面影响HDFS集群NameNode机器发生意外...原创 2018-08-17 09:32:00 · 1822 阅读 · 2 评论 -
大数据技术之Hive 第1章 Hive基本概念
1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上1.2 Hive的...原创 2018-08-27 08:57:10 · 571 阅读 · 0 评论 -
大数据技术之Hive第2章 Hive安装
2.1 Hive安装地址1)Hive官网地址:http://hive.apache.org/2)文档查看地址:https://cwiki.apache.org/confluence/display/Hive/GettingStarted3)下载地址:http://archive.apache.org/dist/hive/4)github地址:https://gith...原创 2018-08-27 09:00:33 · 827 阅读 · 0 评论 -
大数据技术之Hadoop(MapReduce)第1章 MapReduce入门
1.1 MapReduce定义Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。1.2 MapReduce优缺点1.2.1 优点1)MapReduce 易于编程。它简单的实现一些接口,就可以完...原创 2018-08-20 09:11:16 · 467 阅读 · 0 评论 -
大数据技术之Hadoop(MapReduce)第2章 Hadoop序列化
2.1 序列化概述1) 什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。 反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。2) 为什么要序列化 一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一...原创 2018-08-20 09:16:59 · 364 阅读 · 0 评论 -
大数据技术之Hadoop(MapReduce)第7章 MapReduce扩展案例
7.1 倒排索引案例(多job串联)1)需求:有大量的文本(文档、网页),需要建立搜索索引a.atguigu pingpingatguigu ssatguigu ssb.atguigu pingpingatguigu pingpingpingping ssc.atguigu ssatguigu pingping(1)第一次预期输出结果 atg...原创 2018-08-23 09:12:02 · 284 阅读 · 0 评论 -
大数据技术之Hadoop(MapReduce) 第8章 常见错误及解决方案
1)导包容易出错。尤其Text和CombineTextInputFormat。2)Mapper中第一个输入的参数必须是LongWritable或者NullWritable,不可以是IntWritable. 报的错误是类型转换异常。3)java.lang.Exception: java.io.IOException: Illegal partition for 13926435656 (4...原创 2018-08-23 09:19:48 · 1115 阅读 · 0 评论 -
大数据技术之Hive第3章 Hive数据类型
3.1 基本数据类型 Hive数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数...原创 2018-08-28 08:52:35 · 236 阅读 · 0 评论 -
大数据技术之Hive第4章 DDL数据定义
4.1 创建数据库1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法) hive> create database db_hive; FAI...原创 2018-08-28 08:58:48 · 299 阅读 · 0 评论 -
大数据技术之Hadoop(MapReduce)第3章 MapReduce框架原理
3.1 MapReduce工作流程1)流程示意图2)流程详解上面的流程是整个mapreduce最全工作流程,但是shuffle过程只是从第7步开始到第16步结束,具体shuffle过程详解,如下:1)maptask收集我们的map()方法输出的kv对,放到内存缓冲区中2)从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件3)多个溢出文件会被合并成大的溢出文件4...原创 2018-08-21 10:46:43 · 931 阅读 · 0 评论 -
大数据技术之Hadoop(MapReduce) 第4章 Hadoop数据压缩
4.1 概述压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadoop下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I/O操作和网络数据传输要花大量的时间。还有,Shuffle与Merge过程同样也面临着巨大的I/O压力。鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化磁盘...原创 2018-08-21 10:51:11 · 393 阅读 · 0 评论 -
大数据技术之Hive第9章 企业级调优
9.1 Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本...原创 2018-08-31 10:47:35 · 213 阅读 · 0 评论 -
大数据技术之Hive第10章 Sqoop
10.1 Sqoop概述Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三...原创 2018-08-31 10:49:44 · 250 阅读 · 0 评论 -
大数据技术之Zookeeper 第1章 Zookeeper概述
1.1 概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应,从而实现集群中类似Master/...原创 2018-08-24 11:29:16 · 259 阅读 · 0 评论 -
大数据技术之Zookeeper 第2章 Zookeeper安装
2.1 本地模式安装部署1)安装前准备:(1)安装jdk(2)通过filezilla工具拷贝zookeeper到到linux系统下(3)解压到指定目录[atguigu@hadoop102 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/2)配置修改将/opt/module/zookeeper-3.4...原创 2018-08-24 11:33:41 · 186 阅读 · 0 评论 -
大数据技术之Hive第5章 DML数据操作
5.1 数据导入5.1.1 向表中装载数据(Load)1)语法hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本...原创 2018-08-29 08:47:15 · 172 阅读 · 0 评论 -
大数据技术之Hive第6章 查询
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select [WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with Hive 0.13.0) SELECT [ALL ...原创 2018-08-29 08:55:03 · 560 阅读 · 0 评论