- 博客(25)
- 收藏
- 关注
原创 @Cacheable源码分析——各种参数和最后拼接的key的关系
1.使用具体使用需要先引入相关依赖,然后使用注解在方法上即可。@Cacheable(cacheManager = "myCacheManager", value = "myValue", keyGenerator = "myKeyGenerator")这里主要讲解几个参数:1.cacheManager,缓存管理器,这里可以设置缓存的过期时间,可以设置写缓存的时候是否需要加锁。2.value,对于缓存key的标识3.keyGenerator:key生成器,可以拼接方法名+参数名称
2021-04-15 11:39:56
3213
原创 大数据入门之分布式计算框架Spark(4) -- Spark Streaming整合Flume、Kafka
1.概述从AppServer产生log4j,Flume通过hostname/port收集日志信息,利用KafkaSink发送给Kafka,Kafka通过两种模式,传给Spark Streaming,完成各个业务维度的统计和分析,统计结果入库。2.整合流程vimstreaming.conf(仅供测试)agent1.sources=avro-sourceagent1.channe...
2019-08-06 22:31:39
421
原创 大数据入门之分布式计算框架Spark(3) -- Spark Streaming
1.概述Spark Streaming将不同的数据源,经过处理之后,结果输出到外部文件系统。特点:低延时;能从错误中高效地恢复过来;能够运行在成百上千的节点上;能够将批处理、机器学习、图计算等子框架综合使用工作原理: 粗粒度:Spark Streaming接收到实时数据流,把数据按照指定的时间段切成一片片小的数据块,然后把小的数据块传给Spark Engine处理。 ...
2019-08-06 19:52:39
282
原创 大数据入门之分布式计算框架Spark(2) -- Spark SQL
1.Spark SQL概述一个运行在Spark上执行sql的处理框架,可以用来处理结构化的数据【外部数据源(访问hive、json、parquet等文件的数据)】。Spark SQL提供了SQL的API、DateFrame和DataSet的API2.Spark SQL架构 前端可以有不同种的访问方式,Hive AST传过来的就是一个字符串(解析成抽象语法树),在Catal...
2019-08-01 18:57:24
592
原创 大数据入门之分布式计算框架Spark(1) -- Spark初次见面
1.Spark概念 Spark是一个基于内存的分布式计算框架。 效率高:因为是基于内存的,所以在数据处理过程中,数据不会落地,而是存入内存中,效率较MR更高 易用:提供了很多算子,简化开发流程 通用性:Spark之上,还有Spark SQL、Spark Streaming、MLlib、GraphX这几个子框架去处理各种应用场景 运行在各个地方:Sp...
2019-08-01 11:58:59
508
1
原创 Java面试-Linux
1.Linux体系结构 体系结构主要分为用户态(用户上层活动)和内核态 内核:本质是一段管理计算机硬件设备的程序 系统调用:内核的访问接口 公用函数库:系统调用的组合 Shell:命令解释器,可编程2.如何查找特定的文件? find path [options] params f...
2019-03-25 20:52:23
1005
原创 Java面试-Redis
1.为什么Redis能这么快 完全基于内存,绝大部分请求是纯粹的内存操作,执行效率高 数据结构简单,对数据操作也简单 采用单线程,单线程也能处理高并发请求,想多核也可启动多实例 使用I/O复用模型,非阻塞IO 1.1 多路I/O复用模型 FD:文件描述符(一个打开的文件通过唯一的描述符进行引用,该描述...
2019-03-24 21:17:04
224
原创 Java面试-数据库
1.如何设计一个关系型数据库分为两个模块。第一是存储(文件系统);第二是程序实例(存储管理、缓存机制、SQL解析、日志管理、权限划分、容灾机制、索引管理、锁管理)2.索引 2.1 为什么要使用索引 快速查询数据,避免全表扫描 2.2 什么样的信息能成为索引 主键、唯一键以及普通键等 2.3 索引的数据结构 ...
2019-03-23 22:11:56
171
原创 Java面试-计算机网络
1.OSI七层模型 物理层:定义了物理设备的标准,如网线的类型、传输介质速率。传输比特流(网卡)。 数据链路层:如何格式化数据进行传输,控制对物理介质的访问,提供错误检测和纠正。将比特数据转换成帧(交换机)。 网络层:将网络地址翻译成对应的物理地址,并决定将数据如何从发送方路由到接收方(路由器)。此层的数据是数据包。TCP/IP中的IP协议。...
2019-03-21 19:37:25
489
原创 大数据入门之分布式消息队列Kafka(2) -- Kafka Java API编程使用与Flume整合
1.前置要求JDK1.8Maven3.5.22.Java API编程实现打开IDEA,选择构建一个maven项目,首先我们修改pom.xml文件。 <properties> <scala.version>2.11.8</scala.version> <kafka.version>0.8.2....
2018-08-23 10:30:18
343
原创 大数据入门之分布式消息队列Kafka(1) -- Kafka介绍以及环境搭建
1.Kafka概述Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。2.Ka...
2018-08-23 00:18:09
763
原创 大数据入门之分布式日志收集框架Flume(2) -- Flume简单使用
1.需求:从指定网络端口采集数据输出到控制台用Flume就是要写配置文件,所以我们在flume下的conf目录,执行“vi example.conf”,内容如下。# a1就是agent的名称# r1就是source的名称,k1是sink的名称,c1是channel的名称a1.sources = r1a1.sinks = k1a1.channels = c1# source的具...
2018-08-22 16:08:12
325
原创 大数据入门之分布式日志收集框架Flume(1) -- Flume介绍以及环境搭建
1.Flume概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。2.Flume架构及核心组件Flume里面有三大组件:Source、Channel、Sink。Source:收集数据(比如从W...
2018-08-22 14:41:08
459
原创 大数据入门之Hadoop生态系统(12) -- HBase环境搭建和简单使用
1.前置要求Hadoop版本2.5.0+(这里我们使用Hadoop-2.6.0-cdh5.7.0,具体搭建请移步大数据入门之Hadoop生态系统(3) -- Hadoop和HDFS环境搭建)。2.安装部署安装Zookeeper前面说过了Zookeeper的作用:RegionServer会注册到Zookeeper中,提供RegionServer的状态信息,使得Master能够随时感知...
2018-08-21 16:32:15
318
原创 大数据入门之Hadoop生态系统(11) -- HBase概念
1.HBase概述HBase是一个分布式的、面向列的开源数据库。它是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase就是一款基于列的、可以高效地查询海量数据的非关系型数据库。2.HBase架构RegionServer:读写HDFS中的数据,管理表中的数...
2018-08-21 13:48:06
839
原创 大数据入门之Hadoop生态系统(10) -- Hive环境搭建和简单使用
1.Hive环境搭建下载我们先把Hive的安装包下载到Linux系统中,下载地址:http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz。这里我们选择和前面Hadoop一样的cdh5.7.0的版本。然后,我们需要把压缩包解压到“~/app/”目录下(个人习惯),然后在“/etc/profile”中配置Hive的...
2018-08-20 22:59:27
342
原创 大数据入门之Hadoop生态系统(9) -- Hive概念
1.Hive概述Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句(HQL)快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive的数据源可以是MySQL、Oracle、文件...
2018-08-20 20:16:37
366
原创 大数据入门之Hadoop生态系统(8) -- MapReduce词频统计Java编程实现
1.前置要求IDEA,JDK1.7+,Maven3.3.9+我们在编程之前,先准备一份hello.txt文件(放在虚拟机Linux系统下),用来后续的编程测试,内容随便写点就行,单词和单词之间以空格分隔。hadoop welcomehadoop hdfs mapreducehadoop hdfs2.代码编写package com.imooc.hadoop.mapredu...
2018-08-20 17:24:48
1243
原创 大数据入门之Hadoop生态系统(7) -- MapReduce概念
1.MapReduce概述MapReduce是面向大数据并行处理的计算模型、框架和平台。2.MapReduce编程模型,通过wordcount词频统计分析举例这里我们通过一张图来进行分析。Input:就是我们输入的文件的中的单词。Splitting:我们按照行来拆分成三个文件,我们有三个作业对三个拆分的文件进行并行处理。Mapping:按照指定的分隔符,把每个输入文件拆...
2018-08-20 15:56:43
333
原创 大数据入门之Hadoop生态系统(6) -- YARN环境搭建
1.前置要求Windows用户:VMware虚拟机 Centos6.4。(要求主机和虚拟机能够相互通信,具体请查看网上教程)Linux、Mac用户:可以直接在本地搭建环境。JDK1.8(具体的安装步骤,网上都有很多,注意我们所有的东西都是安装在虚拟机上的,注意配置到系统环境变量中)hadoop-2.6.0-cdh5.7.0(具体部署步骤,请移步大数据入门之Hadoop生态系统(3)...
2018-08-20 10:42:16
539
原创 大数据入门之Hadoop生态系统(5) -- YARN概念
1.YARN概述YARN 是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。通俗来说:不同计算框架可以共享同一个HDFS集群上的数据,享受整体的资源调度。2.YARN的架构以及执行流程(1)ResourceManager(简称RM):整个集群同一时间提供服务的RM...
2018-08-20 00:00:00
426
原创 大数据入门之Hadoop生态系统(4) -- HDFS shell命令以及Java API操作
1.前置要求大数据入门之Hadoop生态系统(3) -- Hadoop和HDFS环境搭建前面已经搭建好了Hadoop和HDFS的环境,接下来我们用shell命令对文件系统进行操作。2.HDFS shell常用命令常用的有:ls、mkdir、put、get、rm,和Linux的命令差不多。我们首先启动HDFS,启动方式前面也说过了。因为我们前面已经配置了Hadoop的环境变量。所...
2018-08-19 22:57:46
402
原创 大数据入门之Hadoop生态系统(3) -- Hadoop和HDFS环境搭建
1.前置要求Windows用户:VMware虚拟机 Centos6.4。(要求主机和虚拟机能够相互通信,具体请查看网上教程)Linux、Mac用户:可以直接在本地搭建环境。JDK1.8(具体的安装步骤,网上都有很多,注意我们所有的东西都是安装在虚拟机上的,注意配置到系统环境变量中)2.Hadoop环境(伪分布式环境搭建)、HDFS环境搭建下载我们Hadoop使用的版本是:h...
2018-08-19 21:02:03
889
原创 大数据入门之Hadoop生态系统(2) -- HDFS概念
通过大数据入门之Hadoop生态系统(1),我们大致地了解了HDFS的概念,这里我们具体地看一下HDFS的实现原理与架构分析。1.HDFS架构HDFS采用的是Master/Slave架构(1个Master带多个Slave)。一个HDFS集群通常由一个Master(NameNode)和多个Slave(DataNode)构成。一个文件会被拆分成多个Block(默认每个数据块是128M),如...
2018-08-19 16:20:01
597
原创 大数据入门之Hadoop生态系统(1) -- Hadoop概述
1.大数据概述 近些年来,大数据这个词频繁出现在我们的生活中。那么大数据到底是什么呢,让我们一起来看一下。 通俗来说。大数据是一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。大数据包括了以Hadoop和Spark为代表的基础大数据框架。还包括了数据挖掘、数据分析、实时数据处理、离线数据处理、利用机器学习算法进行预测分析等技术。...
2018-08-19 14:49:34
727
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人