- 博客(17)
- 资源 (2)
- 收藏
- 关注
原创 Airflow Scheduler源码解读
文章目录1.Scheduler的启动和停止命令1.1 Scheduler启动命令1.2 Scheduler停止命令2.Scheduler程序源码2.1 cli.scheduler(): 接受命令行中的airflow scheduler命令2.2 BaseJob.run(): 向job表中新增SchdulerJob记录并调用子类的处理逻辑2.3 SchdulerJob._execute(): SchdulerJob的具体执行逻辑2.3.1 list_py_file_paths(self.subdir): 找到
2020-12-14 01:21:26
2115
2
原创 Presto数据查询引擎入门分享(PPT+Q&A)
PPT的内容是去年在部门内部做的关于Presto入门分享,主要涉及的内容如下图所示:由于优快云不支持嵌入iframe,所以具体的内容放在腾讯文档上面了:Presto数据查询引擎入门分享Presto中有很多的基本概念,只有理解好这些基本概念,我们才能更好的理解Presto,下面是我梳理的各种概念的脑图:接下来的部分是关于当时分享后的一些Q&A:1.Presto的task是...
2020-03-23 14:18:38
1065
3
翻译 Presto: SQL on Everything(全文翻译)
原论文地址:https://prestosql.io/paper一、引言Presto作为一个分布式查询引擎,于2013年开始就已经在facebook的生产环境中运行。并且如今已经在诸如Uber、Netflix、Airbnb、Bloomberg以及LinkedIn这样的大公司中使用。像Qubole、Treasure Data、Starburst Data等公司也提供了基于Presto的商业版产品...
2020-03-11 14:14:28
2117
2
原创 MapReuce中对于文本文件的数据分片以及读取分片的源码分析
InputFormat抽象类InputFormat主要用于描述输入数据的格式(这里我们只分析新API,即org.apache.hadoop.mapreduce.lib.input.InputFormat),提供以下两个功能:数据切分:按照某个策略将输入数据切分成若干个split,以便确定MapTask个数以及对应的split;为Mapper提供输入数据:读取给定的split的数据,解析成一...
2019-03-31 15:57:36
415
原创 Storm学习笔记(一)-- 实时流式计算概述
一、实时流式计算概述下面主要通过如下4个问题来阐述什么是实时流式计算:1.什么是实时流式计算?实时计算:响应时间受到时间约束的计算时间约束往往很短,已秒、毫秒为单位软实时 vs. 硬实时流式计算:在不断产⽣的数据流上的计算数据流不断产⽣,没有尽头,计算结果也不断产⽣/更新数据流由基本数据单元组成,计算基于基本数据单元处理实时流式计算:在不断产⽣的数据流上的实时计算...
2019-03-26 00:19:01
703
原创 Java常用的List、Map、Set集合整理
文章目录一、List1.1 ArrayList1.2 LinkedList1.3 Vector二、Map三、Set如下所示的为Java集合的框架图:下面我们主要介绍其中的List、Map以及Set以及各类型常用的类。一、List特性:允许重复元素的存在,数据的插入顺序是有序的。如下demo所示:public class ListDemo { public static voi...
2019-03-17 21:46:04
267
1
原创 Spring AOP 概述
一、适用场景下面先看一个性能监控的代码示例:public class ForumService { private TransactionManager transManager; private PerformanceMonitor pmonitor; private TopicDao topicDao; private ForumDao forumDao;...
2019-03-07 00:11:29
145
原创 HBase的基本概念和术语
HBase – Hadoop Database,是一个高可靠性(HDFS和ZooKeeper保证)、高性能、面向列、可伸缩(通过增加结点实现)、实时读写的分布式数据库。它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务,它主要用来存储非结构化和半结构化的松散数据(列存 NoSQL 数据库) 。...
2019-03-04 23:11:09
2371
原创 Hive学习笔记(四)-- Hive参数优化总结
一、通用参数优化1.1 启用数据压缩1.2 Job执行优化1.3 选择合适的引擎1.4 MapReduce参数优化Map阶段优化Reduce阶段优化Shuffle阶段优化二、Join优化2.1 Map Join2.2 Bucket Map Join...
2019-02-28 21:01:06
1241
原创 Hive学习笔记(三)-- Hive的运行原理
以下内容是结合小象学院的hive视频整理的学习笔记各个组件:1. Hive CLI:查询处理器2. MetaStore:元数据信息3. YARN:计算平台4. HDFS:数据存储注:很多第三方组件一般只需要获得hive metaStore信息以及HDFS上的数据之后,就可以自己进行计算。处理流程:根据MetaStore中的信息,将sql解析成MR任务,在提交给yarn去执行;...
2019-02-27 20:12:33
2974
原创 使用maven-shade-plugin插件解决Phoenix依赖中的Guava版本冲突问题
一、问题描述在自定义查询项目中本来存在Guava 20.0版本的引用,为了使自定义查询支持Phoenix,在自定义查询的pom.xml文件中引入了如下依赖:<dependency> <groupId>org.apache.phoenix</groupId> <artifactId>phoenix-core&lt
2019-02-24 18:30:08
2600
原创 通过设置可变参数来完成Jmeter对接口的压测
文章目录一、摘要二、背景三、正文场景1:使用固定的参数来对服务端接口发起请求步骤1:新建线程组步骤2:添加Http请求步骤3:设置接口以及接口参数来段服务端发起请求步骤4:并添加查看结果数查看请求是否发送成功步骤5:查看服务端日志来记录查询时间场景2:使用可变参数来对服务端接口发起请求步骤1:新建一个java工程,并将代码打成可执行的jar包步骤2:新建如场景1中的步骤新建http请求步骤3:添加...
2019-02-24 17:55:02
2434
原创 删除hive的部分分区后,Presto查询数据失败,但是Hive查询却有数据
文章目录1.异常信息2.原因3.解决方案1.异常信息查询使用presto查询hive表,显示partition location dose not exist: hdfs:\xxxx2.原因对hive数据分区进行了物理删除,但是hive查询时可以屏蔽该错误,但是Presto查询的时候不能屏蔽该错误,而是将该错误抛出。3.解决方案手动删除hive的元数据中的分区信息,如下所示:alt...
2019-02-17 11:33:30
4071
原创 配置好Hive之后,启动Hive出现org.apache.hadoop.hive.ql.metadata.HiveException: MetaException异常
文章目录1.异常信息2.原因3.解决方案1.异常信息2.原因没有hive的元数据表。3.解决方案1)在配置hive-site.xml的jdbc的url时,在连接中加上createDatabaseIfNotExist=true2)使用该命令创建hive元数据表schematool -initSchema -dbType mysql...
2019-02-17 11:17:26
8275
原创 配置好Hive之后,启动Hive出现java.sql.SQLException: null异常
文章目录1.异常信息2.原因3.解决方案1.异常信息安装完hive配置好hive-site.xml文件之后报错java.sql.SQLException: null, message from server: “Host ‘master1’ is not allowed to connect to this MySQL server”2.原因因为安装好mysql之后没有给相应的ip配置...
2019-02-17 11:06:14
1615
原创 Hive学习笔记(二)-- Hive数据定义语言(DDL)
文章目录Hive数据定义语言(DDL)1.创建内部表语句2.创建外部表3.使用不同的文件格式4.行存储与列存储5.如何创建带压缩的ORC表:步骤Hive数据定义语言(DDL)Hive的官方提供的建表语法如下所示:LanguageManual DDLCREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name ...
2019-02-15 20:57:37
339
1
原创 Hive学习笔记(一)-- Hive简介及基本概念
Hive简介Hive是什么hive是一个构建在Hadoop之上的数据仓库和传统的数据仓库一样的点主要用来访问和管理数据同样提供了类sql查询语言和传统的数据仓库不一样的点可以处理超大规模的数据可以扩展和容错性非常强Hive可以做什么传统的数据仓库任务ETL报表生成Ad-hoc(点对点)数据分析大规模数据分析批处理程序Hive典型的应用场景日志分析统计一...
2019-02-15 15:24:48
421
Java 8实战
2017-10-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人