✔✔✔✔-优快云博客

原创 jupyter 使用快捷方式自动打开chrome浏览器操作页面

1. 创建一个文件作为jupyter的启动路径，作为jupyter的工作目录2. jupyter快捷方式上右键属性，配置路径3.打开cmd，在命令行中输入jupyter notebook --generate-config ，输入y4.打开上图中文件，ctrl+f 搜索NotebookApp.browser5. 在jupyter_notebook_config.py文件中配置浏览器import webbrowser# 配置chrome.exe文件路径,注意使用\\.

2021-02-27 14:00:29 704

原创 Flume简介

一、Flume是什么 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。简单来说，flume是一个分布式的实时数据采集系统。flume最主要的作用就是，实时读取服务器本地磁盘中的数据，上传到hdfs。 flume的核心是，搞清楚采集，收集，读取的数据从哪里来，配置合适类型的source；根据数据目的地，配置合适的sink；在送到目的地之前，会先缓存数据(channel),...

2020-10-06 13:56:29 1732

原创 Impala学习笔记

目录一、Impala 概述1.1 什么是 Impala2.2 Impala 的功能2.3 Impala 的优缺点2.4 关系数据库和impala2.5Hive，Hbase和Impala二、Impala 架构三、Impala的操作命令3.1Impala的外部shell3.2Impala的外部shell四、Impala 的 SQL 操作4.1Impala数据类型4.2 数据库操作4.3 Impala 表操作4.3.1 创建表4.3.2 分区...

2020-10-06 10:25:00 1337

原创 Phoenix学习笔记

目录一、Phoenix是什么二、Phoenix命令操作2.1 基本命令2.2 表操作2.2.1 创建表2.2.2 显示所有表2.2.3 删除表2.3 数据操作2.3.1 全字段插入2.3.2 部分字段插入2.3.3 删除数据2.4 HBase 表映射2.4.1 视图映射2.4.2 表映射三、Phoenix 索引3.1 Phoenix 索引介绍3.2 配置hbase支持Phoenix创建二级索引3.2覆盖索引3.3本地索引与全局..

2020-10-05 20:55:40 551

原创 HBase原理及优化

目录一、HBase 原理之写流程二、HBase 原理之读流程三、HBase 原理之数据Flush流程四、HBase 原理之数据合并流程五、Java API 操作 HBase5.1 环境准备5.2 HBase API5.2.1 获取Configuration对象5.2.2 判断表是否存在5.2.3 创建表5.2.4 删除表5.2.5 向表中插入数据5.2.6 删除一行&多行数据5.2.7 获取所有数据5.2.8 获取某一行数据，指定列族，..

2020-10-05 17:05:39 485

原创 HBase入门篇

目录一、HBase概述1.1 HBase的定义1.2 HBase的特点1.3 HBase机制原理图1.4HBase中的角色1.4.1 HMaster1.4.2 RegionServer1.4.3 其他组件二、HBase Shell操作2.1HBase Shell基本操作2.1HBase 数据表操作三、HBase数据结构3.1 HBase RowKey设计3.2 Column Family3.3 Time Stamp3.4 命名空间一、...

2020-10-05 16:26:22 323

原创 Hive调优与总结

目录一、Hive调优1.1 Fetch抓取1.2 本地模式1.3 严格模式二、Hive要点总结一、Hive调优1.1 Fetch抓取 Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fet...

2020-10-05 11:58:40 169

原创 Hive学习之HQL（DDL、DML、DQL）

目录一、DDL数据定义1 创建数据库2 查询数据库（1）显示数据库（2）查看数据库详情（3）切换当前数据库3 删除数据库4 创建表1 内部表（管理表）1．理论2．案例实操2 外部表1．理论2．管理表和外部表的使用场景3．案例实操5 分区表1 分区表基本操作2 分区表注意事项6 修改表1 重命名表2 增加/修改列信息7 删除表二、DML数据操作1 数据导入1 向表中装载数据（Load）2 通过查询语句..

2020-10-05 10:54:39 1540

原创 Hive入门篇

目录一、数据仓库介绍1、数据仓库的特点2、数据仓库的基础架构二、Hive基本概念1. Hive是什么2. Hive的优缺点3. Hive和数据库比较4. Hive的架构原理三、Hive数据类型1. 基本数据类型2. 类型转化总结一、数据仓库介绍数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的、时变的。数据仓库是所有操作环境和外部数据源的快照集合。1、数据仓库的特点面向主题的：数据仓库都是...

2020-10-04 20:49:30 297

原创动物园铲屎官Zookeeper——实战篇

目录一、客户端命令行操作1．启动客户端2．显示所有操作命令3．查看当前znode中所包含的内容4．查看当前节点数据并能看到更新次数等数据5．创建普通节点6．获得节点的值7．创建短暂节点8．创建带序号的节点9．修改节点数据值10．节点的值变化监听11．节点的子节点变化监听（路径变化）12．删除节点13．递归删除节点14．查看节点状态二、API应用1、Idea环境搭建3、Java客户端操作（带监听）三、监听服务器动态上下线案例1..

2020-10-04 15:42:10 186

原创动物园的铲屎官Zookeeper——原理篇

目录前言一、Zookeeper是什么二、Zookeeper集群特点三、Zookeeper的数据结构1. Znode类型2. stat结构体三、Zookeeper内部原理1. 监听器原理2. 写数据流程前言hadoop生态圈中的动物有点点多，所以我们的zookeeper光荣的担任了铲屎官这一工作，鼓掌~~~~。一、Zookeeper是什么 Zookeeper是一个开源的，分布式的，为分布式应用提供协调服务的Apache项目。 ...

2020-10-04 15:13:53 468

原创 MapReduce框架原理之Shuffle机制

前言Mapreduce确保每个reducer的输入都是按key排序的。系统执行排序的过程（即将mapper输出作为输入传给reducer 的这个过程）称为shuffle（洗牌）。一、Partiton分区把map任务输出的kv放到不同的分区文件中，相同分区的数据由一个reduce task来处理。从而达到reduce并行把结果写到不同文件的目的。1、默认partition分区public class HashPartitioner<K, V> extends Parti...

2020-09-20 11:42:43 482

原创 MapReduce框架原理之ReduceTask工作机制

一、Reduce Task 并行度决定机制reduce task的并行度，也就是同时开启了几个reduce task。分为两种情况：1、如果我们自己定义了分区器，我们能够确定自己的分区器能够形成几个物理分区，加入我们要生成5个分区，那么我们要再driver中设置与分区数量相等的reduce task数量：//默认值是1，手动设置为5job.setNumReduceTasks(5);2、如果我们采用默认的分区器，也就是HashPartitioner，那么只需要根据实际情况在dr...

2020-09-19 16:23:46 824

原创 MapReduce框架原理之MapTask工作机制

一、MapTask并行度决定机制maptask并行度决定map阶段任务处理的并发度，进而影响整个job的处理速度。一个job的map阶段MapTask并行度（个数），由客户端提交job时的切片个数决定。例如，切两个切片，就会生成两个map task，切3个切片，就会生成3个map task。如图所示：二、MapTask工作机制MapTask工作机制如图所示：（1）Read阶段：Map Task通过用户编写的RecordReader，从输入InputSplit中...

2020-09-19 15:10:59 715

原创 MapReduce框架原理之InputFormat数据输入

前言我们在指定driver类的main方法向yarn提交任务的时候需要对数据进行切片，数据切片是逻辑上的，并不会对磁盘上的文件进行真正的拆分存储提示：以下是本篇文章正文内容，下面案例可供参考一、FileInputFormat切片机制（默认的切片机制）FileInputFormat是mr中默认的切片机制。1、切片原理（1）遍历整个目录，对每个文件进行单独的切片处理。（2）先拿到文件的大小，文件大小与128M的1.1倍进行比较，也就是与128*1.1=140.8M进行比较，如果...

2020-09-19 14:26:53 581

原创 MapReduce框架原理之MapReduce工作流程

文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言MapReduce工作流程详解一、MapReduce工作流程图二、MapReduce工作流程详解1.引入库代码如下（示例）：import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import warnings warn..

2020-09-19 09:47:19 636

原创 DataNode工作机制

DataNode工作机制，如图所示：（1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。（2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。（3）心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。..

2020-09-05 16:29:18 102

原创 NameNode和SecondaryNameNode工作机制

一、NN和2NN工作机制NN和2NN工作机制，如图所示（1）第一阶段：NameNode启动a)第一次启动NameNode格式化后，创建fsimage和edits文件。如果不是第一次启动，直接加载编辑日志（位于磁盘上，存储的是生成元数据的步骤，执行后会生成元数据）和镜像文件(位于磁盘上，存储的是文件的元数据)到内存。b)客户端向namenode发出对元数据进行增删改的请求。Namenode在接收这些请求的时候，并不是直接写到内存里面，因为写到内存的话，断电会丢失，因此将这些请求分为一个个小步骤写入到

2020-09-05 16:29:05 193

qq_44110741的博客