
个人复习
梦想不会灭
把每一件简单的事情做好,就是不简单;把每一件平凡的事情做好,就是不平凡!相信自己,创造奇迹~~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Mysql如何创建索引
1.添加PRIMARY KEY(主键索引)mysql>ALTER TABLE table_name ADD PRIMARY KEY ( column )2.添加UNIQUE(唯一索引)mysql>ALTER TABLE table_name ADD UNIQUE (column)3.添加INDEX(普通索引)mysql>ALTER TABLE table_name ...原创 2019-11-28 18:11:42 · 405 阅读 · 0 评论 -
HDFS的读写流程
读取流程/下载1.客户端发起RPC请求到NameNode2.NameNode收到请求之后会校验这个文件是否存在3.如果文件存在,NameNode就会读取元数据,同时给DataNode一个信号4.客户端就会向NameNode要第一个Block的地址5.NameNode在收到请求之后会读取元数据,然后将第一个Block的地址放入队列中返回给客户端6.客户端收到队列之后从中选择一个较近的节点...原创 2019-11-28 11:36:03 · 155 阅读 · 0 评论 -
Hbase和传统数据库的区别以及HBase的优缺点
Hbase和传统数据库的区别1.数据类型:Hbase只有简单的数据类型,只保留字符串;传统数据库有丰富的数据类型。2.数据操作:Hbase只有简单的插入、查询、删除、清空等操作,表和表之间是分离的,没有复杂的表和表之间的关系;传统数据库通常有各式各样的函数和连接操作。3.存储模式:Hbase是基于列存储的,每个列族都由几个文件保存,不同列族的文件是分离的,这样的好处是数据即是索引,访问查询涉...原创 2019-11-27 15:56:46 · 4752 阅读 · 0 评论 -
Hive中创建表的三种方式
Hive中创建表的语句1.普通创建创建外部表删除表后数据删除,元数据还在create EXTERNAL(外部表) table 表名称(字段信息)row format delimited fields terminated by '分隔符' lines terminated by '\n'创建管理表删除表后数据删除,元数据也删除create table 表名称(字段信息)row ...原创 2019-11-27 15:25:20 · 1509 阅读 · 0 评论 -
Mysql数据库的索引和视图
一、 Mysql的索引1.什么是Mysql的索引?索引就像是书的目录,是与表或视图关联的磁盘上结构,可以加快从表或视图中检索行的速度。索引中包含由表或视图中的一列或多列生成的键。这些键存储在一个结构(BTree)中,使SQL可以快速有效地查找与键值关联的行。2.索引的原理索引的原理大致概括为以空间换时间,数据库在未添加索引的时候进行查询默认的是进行全量搜索,也就是进行全局扫描,有多少条数据...原创 2019-11-26 20:35:48 · 271 阅读 · 0 评论 -
简单了解GC垃圾回收
如何判断数据是垃圾数据?1.引用计数算法为对象添加引用计数器,当计数为0时,被标记为垃圾对象,可以被回收。优点:原理简单,实现方便,性能较高。2.可达性分析法判断对象和GC ROOTS是否有相连的引用链,如果没有,则标记为垃圾对象GC ROOTS对象 都是常用的有用的对象1)虚拟机栈(栈帧中的本地变量表)中引用的对象。2)方法区中类静态属性引用的对象。3)方法区中常量引用的对象。...原创 2019-11-26 20:00:15 · 725 阅读 · 0 评论 -
CAP理论的理解
在分布式系统中,有一个基础理论叫做CAPC:Consistence 系统数据一致性A:Avalibility 系统可用性P:Partition Tolerance分区容忍度1.由于分布式的系统,技术结构复杂,节点是集群,分区Partition会由于网络波动,故障,天灾人祸等各种原因,常态得到出现,分区是常态。2.数据一致性的要求:可以根据需求和业务的逻辑而定,可能不要求一致性,也可能是要...原创 2019-11-26 19:22:38 · 295 阅读 · 0 评论 -
ElasticSearch的基本结构
全文检索包括:信息采集:通过网络资源获取大量的网页信息数据信息整理:整理全文数据库使用信息搜索服务:web应用(最前端客户使用)全文检索的定义:全文数据库是全文检索系统的主要构成部分。所谓全文数据库是将一个完整的信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。全文数据库不仅存储了信息,而且还有对全文数据进行词、字、段落等更深层次的编辑、加工的功能,而且所有全文数据库...原创 2019-11-26 18:54:16 · 709 阅读 · 0 评论 -
BTA 常问的 Java基础39道常见面试题
1.八种基本数据类型的大小,以及他们的封装类2.引用数据类型3.Switch能否用string做参数4.equals与==的区别5.自动装箱,常量池6.Object有哪些公用方法7.Java的四种引用,强弱软虚,用到的场景8.Hashcode的作用1、hashCode的存在主要是用于查找的快捷性,如Hashtable,HashMap等,hashCode是用来在散列存储结构中确定对...原创 2019-11-15 20:19:25 · 540 阅读 · 1 评论 -
Hadoop 的三种调度器FIFO、Capacity Scheduler、Fair Scheduler
目前Hadoop有三种比较流行的资源调度器:FIFO 、Capacity Scheduler、Fair Scheduler。目前hadoop2.7默认使用的是Capacity Scheduler容量调度器。一、FIFO(先入先出调度器)hadoop1.x使用的默认调度器就是FIFO。FIFO采用队列方式将一个一个job任务按照时间先后顺序进行服务。比如排在最前面的job需要若干maptask和...原创 2019-11-23 14:51:47 · 870 阅读 · 0 评论 -
Yarn中Job的执行流程
1.客户端将job提交给ResourceManager2.ResourceManager在受到job任务之后会等待NodeManager的心跳3.ResourceManager收到NodeManager的心跳之后会将job交给这个NodeManager,同时在这个NodeManager上开启一个ApplicationMaster,将job分配给这个ApplicationMaster4.App...原创 2019-11-23 16:41:19 · 727 阅读 · 0 评论 -
Hadoop 中的文件格式
1 SequenceFileSequenceFile是Hadoop API 提供的一种二进制文件,它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。Hive 中的SequenceFile 继承自Hadoop API 的SequenceF...原创 2019-11-24 18:42:26 · 183 阅读 · 0 评论 -
YARN中Container是什么?
在最基本的层面上,Container是单个节点上如RAM、CPU和磁盘等物理资源的集合。单个节点上(或者单个大节点)可以有多个Container。系统中的每个节点可以认为是由内存(如512MB或者1GB)和CPU的最小容量的多个Container组成。ApplicationMaster可以请求任何Container来占据最小容量的整数倍的资源。因此Container代表了集群中单个几点上的一组资...原创 2019-11-24 22:28:27 · 1869 阅读 · 0 评论 -
Hadoop中常用的调度器
hadoop中常用的调度器有三种:1、Fifo:默认的调度器,它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业。2、计算能力调度器Capacity schedular:支持多个队列,每个队列可配置一定的资源量,每个队列采用FIFO调度策略,为了防止同一个作业独占队列中的资源,该调度器会对同一用户提交的作业所占资源进行限定。调度时,首先按照以下策略选择一个合适队列:计算每个正在运行...原创 2019-11-24 22:24:18 · 909 阅读 · 0 评论 -
ETL概述
什么是ETL?ETL就是讲业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,这个过程也就是ETL。通常,ETL是BI项目的一个很重要的环节,一般花费时间至少占据整个项目时间的1/3。ETL设计的好坏直接关系到珍格BI项目的成败。ETL主要分为三个部分:抽取(extract)、交互转换(transform)、加载(load)实现ETL,首先要实现ETL转换的过程,体现为一下几个方面:...原创 2019-11-24 22:36:52 · 759 阅读 · 0 评论 -
MapReduce的shuffle过程
Map端的Shuffle:1.map方法在处理完成数据之后会将结果写出到MapTask自带的缓冲区,每一个MapTask自带一个缓冲区。2.数据在缓冲区中进行分区,排序,如果指定了Combiner,那么数据在缓冲区中还会进行合并combine(在缓冲区中的排序是将完全无序的数据进行排序,是快速排序)。3.缓冲区是维系在内存中的,默认是100M。4.当缓冲区的使用达到一定限度(溢写阈值0.8...原创 2019-11-25 12:26:33 · 312 阅读 · 0 评论 -
数据库和数据仓库的区别
数据库和数据仓库的区别1.数据量:数据库的数据量<=GB,数据仓库的数据量>=TB2.数据种类:数据库中的数据种类比较单一,是结构化的,数据仓库的数据种类是多样的,结构化,半结构化,非结构化的3.数据来源:数据库的数据来源比较单一,数据仓库的数据来源有数据库,日志,爬虫,埋点等等4.事务:数据库提供了完整的事务(ACID),数据仓库是弱/无事务的5.数据冗余性:数据库精简冗余...原创 2019-11-25 15:08:49 · 666 阅读 · 0 评论 -
Hive四大表类型内部表、外部表、分区表和桶表
一、概述总体上Hive有四种表:外部表,内部表(管理表),分区表,桶表。分别对应不同的需求。下面主要讲解各种表的适用情形、创建和加载数据方法。二、具体内容1.内部表自己建表插入原本在HDFS上不存在的数据就是内部表创建内部表和加载数据create table emp_inner(empno int,ename string,job string,mgr int,hiredat...原创 2019-11-25 16:10:56 · 1739 阅读 · 0 评论 -
HDFS分布式存储系统的优缺点
优点:1.高容错性数据自动保存多个副本副本丢失后,自动恢复2.适合批处理移动计算而非数据数据位置暴露给计算框架(Block偏移量)3.适合大数据处理GB,TB,甚至PB级别的数据百万规模以上的文件数量10K+节点4.可构建在廉价机器上通过多副本提高可靠性提供了容错和恢复机制缺点:1.低延迟数据访问比如毫秒级低延迟与高吞吐率2.小文件存储占用NameNode大量...原创 2019-11-26 10:32:37 · 866 阅读 · 0 评论 -
HBase中数据的读写流程
HBase的读写流程在0.96版本前后是不同的,在0.96版本之前如下图所示:流程:客户端访问Zookeeper寻找并返回-ROOT-文件的位置,然后在请求读写返回来的-ROOT-文件,读取成功返回.meta文件的位置,然后请求读取.meta文件,返回要操作的HRegionServer的位置,最后访问HRegionServer进行具体的操作。在0.96版本以后如下图所示流程:客户端访问Z...原创 2019-11-26 11:37:12 · 222 阅读 · 0 评论 -
大数据Hive工作原理
用户提交查询等任务给Driver。编译器获得该用户的任务Plan。编译器Compiler根据用户任务去MetaStore中获取需要的Hive的元数据信息。编译器Compiler得到元数据信息,对任务进行编译,先将HiveQL转换为抽象语法树,然后将抽象语法树转换成查询块,将查询块转化为逻辑的查询计划,重写逻辑查询计划,将逻辑计划转化为物理的计划(MapReduce), 最...原创 2019-11-23 19:17:46 · 301 阅读 · 0 评论