- 博客(25)
- 收藏
- 关注
原创 jupyter 使用快捷方式自动打开chrome浏览器操作页面
1. 创建一个文件作为jupyter的启动路径,作为jupyter的工作目录2. jupyter快捷方式上右键属性,配置路径3.打开cmd,在命令行中输入jupyter notebook --generate-config ,输入y4.打开上图中文件,ctrl+f 搜索NotebookApp.browser5. 在jupyter_notebook_config.py文件中配置浏览器import webbrowser# 配置chrome.exe文件路径,注意使用\\.
2021-02-27 14:00:29
704
原创 Flume简介
一、Flume是什么 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 简单来说,flume是一个分布式的实时数据采集系统。flume最主要的作用就是,实时读取服务器本地磁盘中的数据,上传到hdfs。 flume的核心是,搞清楚采集,收集,读取的数据从哪里来,配置合适类型的source;根据数据目的地,配置合适的sink;在送到目的地之前,会先缓存数据(channel),...
2020-10-06 13:56:29
1732
原创 Impala学习笔记
目录一、Impala 概述1.1 什么是 Impala2.2 Impala 的功能2.3 Impala 的优缺点2.4 关系数据库和impala2.5Hive,Hbase和Impala二、Impala 架构三、Impala的操作命令3.1Impala的外部shell3.2Impala的外部shell四、Impala 的 SQL 操作4.1Impala数据类型4.2 数据库操作4.3 Impala 表操作4.3.1 创建表4.3.2 分区...
2020-10-06 10:25:00
1337
原创 Phoenix学习笔记
目录一、Phoenix是什么二、Phoenix命令操作2.1 基本命令2.2 表操作2.2.1 创建表2.2.2 显示所有表2.2.3 删除表2.3 数据操作2.3.1 全字段插入2.3.2 部分字段插入2.3.3 删除数据2.4 HBase 表映射2.4.1 视图映射2.4.2 表映射三、Phoenix 索引3.1 Phoenix 索引介绍3.2 配置hbase支持Phoenix创建二级索引3.2覆盖索引3.3本地索引与全局..
2020-10-05 20:55:40
551
原创 HBase原理及优化
目录一、HBase 原理之写流程二、HBase 原理之读流程三、HBase 原理之数据Flush流程四、HBase 原理之数据合并流程五、Java API 操作 HBase5.1 环境准备5.2 HBase API5.2.1 获取Configuration对象5.2.2 判断表是否存在5.2.3 创建表5.2.4 删除表5.2.5 向表中插入数据5.2.6 删除一行&多行数据5.2.7 获取所有数据5.2.8 获取某一行数据,指定列族,..
2020-10-05 17:05:39
485
原创 HBase入门篇
目录一、HBase概述1.1 HBase的定义1.2 HBase的特点1.3 HBase机制原理图1.4HBase中的角色1.4.1 HMaster1.4.2 RegionServer1.4.3 其他组件二、HBase Shell操作2.1HBase Shell基本操作2.1HBase 数据表操作三、HBase数据结构3.1 HBase RowKey设计3.2 Column Family3.3 Time Stamp3.4 命名空间一、...
2020-10-05 16:26:22
323
原创 Hive调优与总结
目录一、Hive调优1.1 Fetch抓取1.2 本地模式1.3 严格模式二、Hive要点总结一、Hive调优1.1 Fetch抓取 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。 在hive-default.xml.template文件中hive.fet...
2020-10-05 11:58:40
169
原创 Hive学习之HQL(DDL、DML、DQL)
目录一、DDL数据定义1 创建数据库2 查询数据库(1)显示数据库(2)查看数据库详情(3) 切换当前数据库3 删除数据库4 创建表1 内部表(管理表)1.理论2.案例实操2 外部表1.理论2.管理表和外部表的使用场景3.案例实操5 分区表1 分区表基本操作2 分区表注意事项6 修改表1 重命名表2 增加/修改列信息7 删除表二、DML数据操作1 数据导入1 向表中装载数据(Load)2 通过查询语句..
2020-10-05 10:54:39
1540
原创 Hive入门篇
目录一、数据仓库介绍1、数据仓库的特点2、数据仓库的基础架构二、Hive基本概念1. Hive是什么2. Hive的优缺点3. Hive和数据库比较4. Hive的架构原理三、Hive数据类型1. 基本数据类型2. 类型转化总结一、数据仓库介绍 数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的、时变的。数据仓库是所有操作环境和外部数据源的快照集合。1、数据仓库的特点 面向主题的:数据仓库都是...
2020-10-04 20:49:30
297
原创 动物园铲屎官Zookeeper——实战篇
目录一、客户端命令行操作1.启动客户端2.显示所有操作命令3.查看当前znode中所包含的内容4.查看当前节点数据并能看到更新次数等数据5.创建普通节点6.获得节点的值7.创建短暂节点8.创建带序号的节点9.修改节点数据值10.节点的值变化监听11.节点的子节点变化监听(路径变化)12.删除节点13.递归删除节点14.查看节点状态二、API应用1、Idea环境搭建3、Java客户端操作(带监听)三、监听服务器动态上下线案例1..
2020-10-04 15:42:10
186
原创 动物园的铲屎官Zookeeper——原理篇
目录前言一、Zookeeper是什么二、Zookeeper集群特点三、Zookeeper的数据结构1. Znode类型2. stat结构体三、Zookeeper内部原理1. 监听器原理2. 写数据流程前言hadoop生态圈中的动物有点点多,所以我们的zookeeper光荣的担任了铲屎官这一工作,鼓掌~~~~。一、Zookeeper是什么 Zookeeper是一个开源的,分布式的,为分布式应用提供协调服务的Apache项目。 ...
2020-10-04 15:13:53
468
原创 MapReduce框架原理之Shuffle机制
前言Mapreduce确保每个reducer的输入都是按key排序的。系统执行排序的过程(即将mapper输出作为输入传给reducer 的这个过程)称为shuffle(洗牌)。一、Partiton分区把map任务输出的kv放到不同的分区文件中,相同分区的数据由一个reduce task来处理。从而达到reduce并行把结果写到不同文件的目的。1、默认partition分区public class HashPartitioner<K, V> extends Parti...
2020-09-20 11:42:43
482
原创 MapReduce框架原理之ReduceTask工作机制
一、Reduce Task 并行度决定机制reduce task的并行度,也就是同时开启了几个reduce task。分为两种情况:1、如果我们自己定义了分区器,我们能够确定自己的分区器能够形成几个物理分区,加入我们要生成5个分区,那么我们要再driver中设置与分区数量相等的reduce task数量://默认值是1,手动设置为5job.setNumReduceTasks(5);2、如果我们采用默认的分区器,也就是HashPartitioner,那么只需要根据实际情况在dr...
2020-09-19 16:23:46
824
原创 MapReduce框架原理之MapTask工作机制
一、MapTask并行度决定机制maptask并行度决定map阶段任务处理的并发度,进而影响整个job的处理速度。一个job的map阶段MapTask并行度(个数),由客户端提交job时的切片个数决定。例如,切两个切片,就会生成两个map task,切3个切片,就会生成3个map task。如图所示:二、MapTask工作机制MapTask工作机制如图所示:(1)Read阶段:Map Task通过用户编写的RecordReader,从输入InputSplit中...
2020-09-19 15:10:59
715
原创 MapReduce框架原理之InputFormat数据输入
前言我们在指定driver类的main方法向yarn提交任务的时候需要对数据进行切片,数据切片是逻辑上的,并不会对磁盘上的文件进行真正的拆分存储提示:以下是本篇文章正文内容,下面案例可供参考一、FileInputFormat切片机制(默认的切片机制)FileInputFormat是mr中默认的切片机制。1、切片原理(1)遍历整个目录,对每个文件进行单独的切片处理。(2)先拿到文件的大小,文件大小与128M的1.1倍进行比较,也就是与128*1.1=140.8M进行比较,如果...
2020-09-19 14:26:53
581
原创 MapReduce框架原理之MapReduce工作流程
文章目录前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言MapReduce工作流程详解一、MapReduce工作流程图二、MapReduce工作流程详解1.引入库代码如下(示例):import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import warnings warn..
2020-09-19 09:47:19
636
原创 DataNode工作机制
DataNode工作机制,如图所示:(1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。(3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用。..
2020-09-05 16:29:18
102
原创 NameNode和SecondaryNameNode工作机制
一、NN和2NN工作机制NN和2NN工作机制,如图所示(1)第一阶段:NameNode启动a)第一次启动NameNode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编辑日志(位于磁盘上,存储的是生成元数据的步骤,执行后会生成元数据)和镜像文件(位于磁盘上,存储的是文件的元数据)到内存。b)客户端向namenode发出对元数据进行增删改的请求。Namenode在接收这些请求的时候,并不是直接写到内存里面,因为写到内存的话,断电会丢失,因此将这些请求分为一个个小步骤写入到
2020-09-05 16:29:05
193
原创 HDFS的数据流
1、HDFS写数据流程HDFS写数据流程,如图所示:(1)client(客户端)向hdfs上传文件,首先向NameNode请求上传文件,NameNode会做一些验证,比如检查目标文件是否已存在,父目录是否存在。(2)NameNode经过验证后,向客户端返回是否可以上传。(3)如果客户端收到可以上传的回复,则会向namenode请求第一个 block上传到哪几个datanode服务器上。(4)NameNode返回客户端可用的3个datanode的节点地址,分别为datanode1、datanode
2020-09-05 16:28:51
123
原创 Hadoop序列化
目录前言一、序列化概述1.什么是序列化2.为什么要序列化3.为什么不用java的序列化Serialization二、常用数据序列化类型三、自定义bean对象实现序列化接口(Writable)四、序列化案例实操1.需求2.数据准备3.思路分析4.代码实现总结前言Hadoop不使用java的序列化serilazable,而是自己开发了一套序列化机制Writable一、序列化概述1.什么是序列化 序列化就是将内存中的对象转换成字节序列(..
2020-09-05 16:24:21
428
原创 MapReduce入门讲解及案例
文章目录前言二、MapReduce的优缺点1.优点2.缺点三、MapReduce的核心编程思想四、MapReduce编程规范(八股文)1.Mapper阶段2.Reduce阶段3.Driver阶段五、WordCount案例实操1.需求2.数据准备3.分析4. 代码实现5.本地测试6.集群上测试总结前言hadoop由四部分组成:hdfs(分布式文件系统),MapReduce(一个分布式的离线并行计算程序框架框架),yarn(作业..
2020-09-05 15:05:50
858
原创 HDFS概述
一、HDFS是什么HDFS是一个分布式文件管理系统。——用来管理多个服务器上所有文件的东东什么是文件管理系统:就是对文件进行管理和维护的系统。例如:在开始菜单右键打开文件资源管理器,这就是windows为我们用户提供的一个可视化的文件管理系统,通过它我们可以很方便的找到文件,对文件进行维护和管理。什么是分布式:多个系统(可以简单的理解为多台服务器)联合在一起完成某项工作。特点:HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改,如果发现文件错误,可以删除重新上传。二、HDFS的优缺点
2020-07-26 10:27:56
284
原创 Linux基本常用命令
1 帮助命令2 文件目录类3 时间日期类4 用户管理命令5 用户组管理命令6 文件权限类8 磁盘分区类9 搜索查找类10 进程线程类11 压缩和解压类12 后台服务管理类13 crond系统定时任务
2020-07-12 16:15:09
509
原创 javax.servlet.ServletException: Servlet execution threw an exception org.apache.tomcat.websocket.se
javax.servlet.ServletException: Servlet execution threw an exception org.apache.tomcat.websocket.server.WsFilter.doFilter(WsFilter.java:52)idea2019.3.2 链接mysql数据库报错如下图解决方法第一步从tomcat中移除项目打开tomcat配置页面点击deployment选中项目并移除第二步idea重新构建项目file–>project
2020-06-14 17:28:21
9580
14
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人