
大数据
茴香豆的茴有六种写法
这个作者很懒,什么都没留下…
展开
-
ZAB协议
zookeeper依赖zab协议来实现分布式数据一致性.基于该协议,zookeeper实现了一种主备模式的系统架构来保持ZooKeeper为高可用的一致性协调框架,自然的ZooKeeper也有着一致性算法的实现,ZooKeeper使用的是ZAB协议作为数据一致性的算法, ZAB(ZooKeeper Atomic Broadcast ) 全称为:原子消息广播协议;ZAB可以说是在Paxos算法基础上...转载 2020-03-12 16:29:40 · 990 阅读 · 0 评论 -
SparkSql学习
SparkSQL简介什么是SparkSQL:spark SQL是spark的一个模块,主要用于进行结构化数据的处理。它提供的最核心的编程抽象就是DataFrame。SparkSQL的作用:提供一个编程抽象(DataFrame) 并且作为分布式 SQL查询引擎DataFrame:它可以根据很多源进行构建,包括:结构化的数据文件,hive中的表,外部的关系型数据库,以及RDD...原创 2019-06-02 18:03:32 · 3429 阅读 · 0 评论 -
RDD基本操作
RDD的创建进行Spark核心编程时,首先要做的第一件事,就是创建一个初始的RDD。该RDD中,通常就代表和包含了Spark应用程序的输入源数据。然后在创建了初始的RDD之后,才可以通过Spark Core提供的transformation算子,对该RDD进行转换,来获取其他的RDD。Spark Core提供了三种创建RDD的方式,包括:使用程序中的集合创建RDD;使用本地文件创建RDD;使用...原创 2019-06-02 16:24:37 · 5113 阅读 · 0 评论 -
spark系列一:spark的基本工作原理与RDD
目录spark的基本介绍Spark相比Hadoop MapReduce的优势:spark架构及生态: Spark的架构中的基本组件:spark的核心编程:RDD:wordcount程序以及原理分析前言:最近学习中华石杉老是的spark课程,并查阅了一些资料,将课程笔记记录一下方便后续学习spark的基本介绍Apache Spark是一个围绕速度、易...原创 2019-06-02 15:33:05 · 3747 阅读 · 0 评论 -
zookeeper入门
zookeeper的选举机制1)半数机制:集群中半数以上机器存活,集群可用。所以Zookeeper适合安装奇数台服务器。2)Zookeeper虽然在配置文件中并没有指定Master和Slave。但是,Zookeeper工作时,是有一个节点为Leader,其他则为Follower,Leader是通过内部的选举机制临时产生的。3)以一个简单的例子来说明整个选举的过程。假设有五台服务器组...原创 2019-05-30 21:55:49 · 3742 阅读 · 0 评论 -
ElasticSearch系列一(什么是ElasticSearch)
目录es的安装与启动索引的相关操作快速查看集群中有哪些索引简单的索引操作创建索引:删除索引:ES的CRUD操作(1)新增商品:新增文档,建立索引(2)查询商品:检索文档(3)修改商品:替换文档修改商品:更新文档删除商品:删除文档几种搜索方式1、query string search2、query DSL3、query fi...原创 2019-05-27 18:02:09 · 3657 阅读 · 0 评论 -
Hadoop
1.hadoop1和hadoop2的区别2.HDFS架构1.NameNode:存储文件的元数据,比如文件名、文件目录结构、文件属性、以及每个文件的块列表和所在的DataNode等。2.DataNode: 在本地文件系统中存储文件块数据,以及块数据的校验和3.SecondaryNameNode:用来监控HDFS状态和辅助后台运行,并非 NameNode 的热备。当NameNode...原创 2017-08-25 16:25:13 · 465 阅读 · 0 评论 -
Kafka
1.kafka的基本架构1)Producer :消息生产者,就是向kafka broker发消息的客户端;2)Consumer :消息消费者,向kafka broker取消息的客户端;3)Topic :可以理解为一个队列;4) Consumer Group (CG):这是kafka用来实现一个topic消息的广播(发给所有的consumer)和单播(发给任意一个consumer...原创 2019-03-21 23:37:10 · 3470 阅读 · 0 评论 -
分布式操作系统
1.什么是分布式操作系统分布式操作系统属于分布式软件系统其中的一部分,主要负责负责管理分布式处理系统资源和控制分布式程序运行。分布式操作系统共享资源、加强通信、通过负载平衡提高系统的效率,扩充了系统能力。2.分布式系统的优点 ①更经济—分布式操作系统有较高的性能价格比。 ②速度更快—分布式操作系统平均响应时间比大型机系统短。 ③分布式操作系统对固有分布性问原创 2017-06-09 21:42:35 · 2310 阅读 · 0 评论 -
hadoop入门
hadoop核心1.HDFS: Hadoop Distributed File System 分布式文件系统2.YARN: Yet Another Resource Negotiator 资源管理调度系统3.Mapreduce:分布式运算框架-------------------------------HDFS的架构1.主从结构主节点, namenode从节点,有很多个:...原创 2019-04-15 22:11:38 · 3881 阅读 · 0 评论