
大数据
XQ_WYL
这个作者很懒,什么都没留下…
展开
-
大数据入门之Hadoop生态系统(1) -- Hadoop概述
1.大数据概述 近些年来,大数据这个词频繁出现在我们的生活中。那么大数据到底是什么呢,让我们一起来看一下。 通俗来说。大数据是一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。大数据包括了以Hadoop和Spark为代表的基础大数据框架。还包括了数据挖掘、数据分析、实时数据处理、离线数据处理、利用机器学习算法进行预测分析等技术。...原创 2018-08-19 14:49:34 · 732 阅读 · 0 评论 -
大数据入门之分布式计算框架Spark(1) -- Spark初次见面
1.Spark概念 Spark是一个基于内存的分布式计算框架。 效率高:因为是基于内存的,所以在数据处理过程中,数据不会落地,而是存入内存中,效率较MR更高 易用:提供了很多算子,简化开发流程 通用性:Spark之上,还有Spark SQL、Spark Streaming、MLlib、GraphX这几个子框架去处理各种应用场景 运行在各个地方:Sp...原创 2019-08-01 11:58:59 · 512 阅读 · 1 评论 -
大数据入门之Hadoop生态系统(8) -- MapReduce词频统计Java编程实现
1.前置要求IDEA,JDK1.7+,Maven3.3.9+我们在编程之前,先准备一份hello.txt文件(放在虚拟机Linux系统下),用来后续的编程测试,内容随便写点就行,单词和单词之间以空格分隔。hadoop welcomehadoop hdfs mapreducehadoop hdfs2.代码编写package com.imooc.hadoop.mapredu...原创 2018-08-20 17:24:48 · 1245 阅读 · 0 评论 -
大数据入门之Hadoop生态系统(7) -- MapReduce概念
1.MapReduce概述MapReduce是面向大数据并行处理的计算模型、框架和平台。2.MapReduce编程模型,通过wordcount词频统计分析举例这里我们通过一张图来进行分析。Input:就是我们输入的文件的中的单词。Splitting:我们按照行来拆分成三个文件,我们有三个作业对三个拆分的文件进行并行处理。Mapping:按照指定的分隔符,把每个输入文件拆...原创 2018-08-20 15:56:43 · 336 阅读 · 0 评论 -
大数据入门之分布式消息队列Kafka(2) -- Kafka Java API编程使用与Flume整合
1.前置要求JDK1.8Maven3.5.22.Java API编程实现打开IDEA,选择构建一个maven项目,首先我们修改pom.xml文件。 <properties> <scala.version>2.11.8</scala.version> <kafka.version>0.8.2....原创 2018-08-23 10:30:18 · 346 阅读 · 0 评论 -
大数据入门之Hadoop生态系统(6) -- YARN环境搭建
1.前置要求Windows用户:VMware虚拟机 Centos6.4。(要求主机和虚拟机能够相互通信,具体请查看网上教程)Linux、Mac用户:可以直接在本地搭建环境。JDK1.8(具体的安装步骤,网上都有很多,注意我们所有的东西都是安装在虚拟机上的,注意配置到系统环境变量中)hadoop-2.6.0-cdh5.7.0(具体部署步骤,请移步大数据入门之Hadoop生态系统(3)...原创 2018-08-20 10:42:16 · 540 阅读 · 0 评论 -
大数据入门之分布式消息队列Kafka(1) -- Kafka介绍以及环境搭建
1.Kafka概述Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。2.Ka...原创 2018-08-23 00:18:09 · 767 阅读 · 0 评论 -
大数据入门之Hadoop生态系统(5) -- YARN概念
1.YARN概述YARN 是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。通俗来说:不同计算框架可以共享同一个HDFS集群上的数据,享受整体的资源调度。2.YARN的架构以及执行流程(1)ResourceManager(简称RM):整个集群同一时间提供服务的RM...原创 2018-08-20 00:00:00 · 429 阅读 · 0 评论 -
大数据入门之Hadoop生态系统(4) -- HDFS shell命令以及Java API操作
1.前置要求大数据入门之Hadoop生态系统(3) -- Hadoop和HDFS环境搭建前面已经搭建好了Hadoop和HDFS的环境,接下来我们用shell命令对文件系统进行操作。2.HDFS shell常用命令常用的有:ls、mkdir、put、get、rm,和Linux的命令差不多。我们首先启动HDFS,启动方式前面也说过了。因为我们前面已经配置了Hadoop的环境变量。所...原创 2018-08-19 22:57:46 · 407 阅读 · 0 评论 -
大数据入门之分布式日志收集框架Flume(2) -- Flume简单使用
1.需求:从指定网络端口采集数据输出到控制台用Flume就是要写配置文件,所以我们在flume下的conf目录,执行“vi example.conf”,内容如下。# a1就是agent的名称# r1就是source的名称,k1是sink的名称,c1是channel的名称a1.sources = r1a1.sinks = k1a1.channels = c1# source的具...原创 2018-08-22 16:08:12 · 329 阅读 · 0 评论 -
大数据入门之Hadoop生态系统(3) -- Hadoop和HDFS环境搭建
1.前置要求Windows用户:VMware虚拟机 Centos6.4。(要求主机和虚拟机能够相互通信,具体请查看网上教程)Linux、Mac用户:可以直接在本地搭建环境。JDK1.8(具体的安装步骤,网上都有很多,注意我们所有的东西都是安装在虚拟机上的,注意配置到系统环境变量中)2.Hadoop环境(伪分布式环境搭建)、HDFS环境搭建下载我们Hadoop使用的版本是:h...原创 2018-08-19 21:02:03 · 893 阅读 · 0 评论 -
大数据入门之Hadoop生态系统(12) -- HBase环境搭建和简单使用
1.前置要求Hadoop版本2.5.0+(这里我们使用Hadoop-2.6.0-cdh5.7.0,具体搭建请移步大数据入门之Hadoop生态系统(3) -- Hadoop和HDFS环境搭建)。2.安装部署安装Zookeeper前面说过了Zookeeper的作用:RegionServer会注册到Zookeeper中,提供RegionServer的状态信息,使得Master能够随时感知...原创 2018-08-21 16:32:15 · 324 阅读 · 0 评论 -
大数据入门之Hadoop生态系统(11) -- HBase概念
1.HBase概述HBase是一个分布式的、面向列的开源数据库。它是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase就是一款基于列的、可以高效地查询海量数据的非关系型数据库。2.HBase架构RegionServer:读写HDFS中的数据,管理表中的数...原创 2018-08-21 13:48:06 · 842 阅读 · 0 评论 -
大数据入门之Hadoop生态系统(10) -- Hive环境搭建和简单使用
1.Hive环境搭建下载我们先把Hive的安装包下载到Linux系统中,下载地址:http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz。这里我们选择和前面Hadoop一样的cdh5.7.0的版本。然后,我们需要把压缩包解压到“~/app/”目录下(个人习惯),然后在“/etc/profile”中配置Hive的...原创 2018-08-20 22:59:27 · 342 阅读 · 0 评论 -
大数据入门之Hadoop生态系统(9) -- Hive概念
1.Hive概述Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句(HQL)快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive的数据源可以是MySQL、Oracle、文件...原创 2018-08-20 20:16:37 · 369 阅读 · 0 评论 -
大数据入门之分布式日志收集框架Flume(1) -- Flume介绍以及环境搭建
1.Flume概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。2.Flume架构及核心组件Flume里面有三大组件:Source、Channel、Sink。Source:收集数据(比如从W...原创 2018-08-22 14:41:08 · 464 阅读 · 0 评论 -
大数据入门之Hadoop生态系统(2) -- HDFS概念
通过大数据入门之Hadoop生态系统(1),我们大致地了解了HDFS的概念,这里我们具体地看一下HDFS的实现原理与架构分析。1.HDFS架构HDFS采用的是Master/Slave架构(1个Master带多个Slave)。一个HDFS集群通常由一个Master(NameNode)和多个Slave(DataNode)构成。一个文件会被拆分成多个Block(默认每个数据块是128M),如...原创 2018-08-19 16:20:01 · 604 阅读 · 0 评论 -
大数据入门之分布式计算框架Spark(2) -- Spark SQL
1.Spark SQL概述一个运行在Spark上执行sql的处理框架,可以用来处理结构化的数据【外部数据源(访问hive、json、parquet等文件的数据)】。Spark SQL提供了SQL的API、DateFrame和DataSet的API2.Spark SQL架构 前端可以有不同种的访问方式,Hive AST传过来的就是一个字符串(解析成抽象语法树),在Catal...原创 2019-08-01 18:57:24 · 594 阅读 · 0 评论