自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Spark SQL-DataFrame

一、Spark SQL 介绍Spark SQL是Spark一个重要的模块。提供结构化的数据进行处理。同时可以为Spark任务提供优化。基于RDD之上的;提供数据SChema和统一的数据接口可以优化Spark任务支持Hive的SQL语句基本上可以利用RDD的所有优势Spark DataFrame spark1.3.0提出:分布式数据集合的结构化表示,具有自己模式的SchemaSpark DataSet Spark1.6.0提出:分布式数据集合的结构化表示,具有自己模式的Schema,并且可

2021-01-27 23:32:10 158 1

原创 spark RDD介绍

一、RDD介绍RDD(Resilient Distrobuted Dataset)是spark最基本的数据结构,是分布再集群各个不同节点的不可变的数据集合。RDD 是spark处理过程中数据的逻辑表示RDD在spark应用的不同阶段的数据结构表示Resilient弹性的,可以通过RDD Lineage图(DAG)进行重新计算,具有很好的容错性DAG在spark 程序中如何工作:(1)编译器编译好程序代码(2)Spark创建由各个RDD组成的操作算子图,形成DAG(3)当有Action算

2021-01-26 00:12:26 3124

原创 Spark基础介绍

一、spark生态系统文本计数的例子:Layer1:数据可以存储在HDFS上Layer2:Spark Dag计算读取HDFS的数据Layer2:Spark需要跑在集群上,集群的资源调配依靠集群资源管理器Yarn负责Layer3:用户可以写spark代码或者是spark sql语句来创建spark job来读取文本二、架构...

2021-01-17 00:40:14 126

原创 Hive详解

一、Hive的特点1.基本特点(1)可扩展(计算和存储都可以扩展)(2)关系式(跟传统关系型数据库类似)(3)SQL语言为查询接口(4)为OLAP设计(Online Analytical Processing)2.传统关系式数据库 VS Hive二、Hive数据单元DatabasesTables:内部表:数据和表的定义绑定外部表:数据和表的定义分开,删除表,数据仍然存在Views:视图Columns:列Partitions:分区Buckets:(1)Databases1

2021-01-10 15:19:05 477

原创 Hive

一、Hive简介(1)传统关系式数据库 VS Hive (Hive也是关系式数据库)(2)概念基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并且可以提供用户HQL语言查询(类似于SQL查询功能)(3)Hive架构(4)工作原理...

2021-01-04 23:32:17 85

原创 Hadoop简介

一、hadoop生态系统常见的大数据生态系统数据存储层:HDFS等计算层:Map Reduce应用层:Hadoop CLI,Hive Sql文本计数的例子:Layer1:数据可以存储在HDFS上Layer2:Map Reduce Job计算读取HDFS的数据Layer2:Map Reduce Job需要跑在集群上,集群的资源调配依靠集群资源管理器Yarn负责Layer3:用户可以写Hadoop命令行或者是Hive Sql 语句来创建Map Reduce Job来读取文本二、Hadoo

2021-01-03 22:36:25 87

原创 分布式计算与Map Reduce

一、分布式计算1、定义:一个分布式计算系统是通过若干个网络互连的计算机组成的软硬件计算系统,并且这些计算机互相配合完成一个共同任务。多个处理器共享内存(c);每个处理器有属于自己的内存(b)。优点:可扩展、性能好、容错性好(系统故障后,仍然可以恢复任务)缺点:多台机器管理二、Map Reduce1.抽象架构2.系统架构Job Client:用户编写的Map Reduce程序通过JobClient提交给JobTrackerJob Tracker:负责资源监控和作业调度,并且监控所有Ta

2021-01-03 18:43:27 201 2

原创 元数据管理

一、元数据简介(1)作用:1)存储真正数据的描述信息2)存储真正数据的位置和操作信息3)为用户提供真正的数据信息接口(2)存储系统的元数据1)传统数据库(mysql):数据库中表的信息,表的属性以及属性的类别等2)分布式存储系统:数据的位置,数据的编辑记录,数据的存储目录等3)Hive:数据仓库中表的信息,表的属性以及表中数据的位置信息等二、分布式存储系统的元数据管理1.中心节点管路中心节点管理元数据是通过单个节点去管理元数据,该节点会存储元数据,也会向真正的数据节点发送指令进行相关

2021-01-03 15:45:03 828

原创 HDFS详解

1.简介HDFS是Hadoop生态下的分布式文件系统,专门存储超大数据文件,为整个Hadoop生态圈提供来基础带存储服务。1)由GFS发展而来。2)大部分大数据计算引擎支持与HDFS的交互2.设计原则1)硬件故障:HDFS中的硬件故障应该是常态,并不是意外。因为一个HDFS可能包含大量带服务器,每个节点可能会存在硬件故障。所以,HDFS需要自动检测故障、快速和自动恢复数据。2)流数据访问:HDFS是被设计用于批量处理,而非普通带应用程序带的用户交互。设计重点应该在于支持高带吞吐量。3)大数据集

2020-12-24 00:30:23 870

原创 分布式文件系统

分布式文件系统1.文件系统的定义:文件系统是一种存储和组织计算机数据的方法,利用抽像的文件和目录替了电脑硬盘或主光盘使用数据块的概念。如果用户直接从硬盘读取数据,没有文件系统的帮助,那么一切会变得极其复杂,可以说文件系统是数据存储是物理设备和用户之间的一种媒介。2.定义:文件系统件硬盘空间以块为单位进行划分,每个文件都占据若干块,然后在通过一个文件控制块(File Control Block)记录每个文件占据的硬盘数据块假设每个block块5kb,那么8个数据块就是40kB。3.单机式文件系统

2020-12-21 23:40:30 372

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除