
大数据
瀛999
努力学习
展开
-
OLAP分析引擎Druid配置文件详解(五):MiddleManager配置文件
摘要: 本文是Druid配置文件系列博文的第五篇,我们将继续逐个介绍Druid的五大组件,本文将开始介绍Data Server中的middle manager和peon组件。以下配置都在middleManager/runtime.properties文件中。MiddleManager Process Config这些配置在其他组件中也都有,这里不太详细介绍,如需了解请查看之前的一篇博文Coordinator配置文件MiddleManager ConfigurationMiddle man翻译 2020-07-12 16:38:45 · 1404 阅读 · 0 评论 -
OLAP分析引擎Druid配置文件详解(四):Overlord配置文件
本文是Druid配置文件系列博文的第四篇,我们将继续逐个介绍Druid的五大组件,前文已经介绍了Coordinator组件的配置文件,本文是第二个组件Overlord的介绍。翻译 2020-05-24 17:24:00 · 1057 阅读 · 0 评论 -
OLAP分析引擎Druid配置文件详解(三):coordinator配置文件
摘要: 本文是Druid配置文件系列博文的第三篇,之前的文章已经介绍了Druid配置文件整体的组织结构以及公共配置文件,接下来将逐个介绍Druid的五大组件,本文是第一个组件Coordinator的介绍。以下配置都在coordinator/runtime.properties文件中。Coordinator Process Config属性含义备注是否需要修改dr...翻译 2020-04-12 19:46:57 · 1108 阅读 · 0 评论 -
OLAP分析引擎Druid配置文件详解(二):公共配置文件common.runtime.properties
摘要: 本文是Druid配置文件系列博文的第二篇,在前一篇中介绍了Druid配置文件的组织结构,这一篇开始详细介绍各个配置文件中参数、意义、候选值等相关说明。本文主要介绍公共配置文件common.runtime.properties。common.runtime.properties配置文件参数介绍 本文会对common.runtime.properties中的参数分组进行介绍。1....翻译 2020-04-07 17:38:23 · 1297 阅读 · 0 评论 -
OLAP分析引擎Druid配置文件详解(一):文件组织形式
本文和接下来的几篇博文旨在介绍OLAP分析引擎Druid的配置文件,帮助使用的Druid的新手对Druid集群进行配置以满足基本需求,当然本系列博文也会对已经使用了Druid一段时间的用户有一些帮助,帮助这些用户根据自己的使用情况修改Druid配置,进一步提高性能和节省资源。本文的主要内容是Druid配置文件推荐组织形式。翻译 2020-04-07 10:55:45 · 350 阅读 · 0 评论 -
Druid源码分析之send metrics
基本介绍:什么是Metric?metric就是Druid运行过程中产生的一些指标,如查询时间、查询成功数量、JVM参数、任务成功数等。Metric有什么用?对Druid进行异常监控报警,对指标数据进行分析等。Metric发送到哪?发送位置可以配置,包括日志、http等。send metric流程(以查询为例):查询并得到查询结果 生成QueryMetrics,里面...原创 2019-12-15 15:27:16 · 753 阅读 · 0 评论 -
Spark SQL使用简介(3)--加载和保存数据
加载和存储数据val usersDF = spark.read.load("examples/src/main/resources/users.parquet")usersDF.select("name", "favorite_color").write.save("namesAndFavColors.parquet")可以在加载和存储数据的时候选择数据源,对于内置数据源可以用他们的简...翻译 2018-08-03 11:03:19 · 1494 阅读 · 0 评论 -
Spark SQL使用简介(2)--UDF(用户自定义函数)
内建的DataFrame函数提供了正常的聚合函数,如count(), countDistinct(), avg(), max(), min(),我们也可以自己定义聚合函数,无类型的用户定义聚合函数按如下方式定义:import org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.expressions.Mut...翻译 2018-08-02 23:48:31 · 711 阅读 · 0 评论 -
Hive严格模式
Hive提供了一个严格模式,用如下方式设置:hive> set hive.mapred.mode=strict;这种模式是为了防止一些可能产生意想不到的不好的结果的查询执行,在这种模式下,以下三种查询被禁止:1.带有分区的表的查询如果对一个有分区的Hive表进行查询,除非where条件里包含分区字段,否则无法执行。进行这个限制的原因是,通常分区表数据量很大,不进行筛选可...原创 2018-08-14 12:28:50 · 750 阅读 · 0 评论 -
Spark SQL使用简介(1)--基本使用
Spark SQL可以执行SQL查询,也可以从Hive中读数据。DataFrame = Dataset<Row>首先创建 SparkSessionimport org.apache.spark.sql.SparkSessionval spark = SparkSession .builder() .appName("Spark SQL basic exampl...翻译 2018-08-01 21:03:17 · 451 阅读 · 0 评论 -
MapReduce实现基本SQL操作的原理
Join的实现原理select u.name, o.orderid from order o join user u on o.uid = u.uid;在map阶段的输出中给每个value一个tag,用于区分数据来源,在shuffle过程将具有相同key的数据合并在一起,在reduce阶段对key相同的不同来源的数据进行join。Group By的实现原理 select r...转载 2018-07-27 20:43:06 · 998 阅读 · 1 评论 -
Spark MLlib学习(1)--基本统计
Correlation支持的方法有Pearson相关系数和spearman相关系数。Pearson相关系数皮尔逊相关系数用来衡量定距变量的线性关系,取值范围是-1到1,接近0的变量相关性小,接近1或-1的变量相关性大。spearman相关系数斯皮尔曼相关性系数,通常也叫斯皮尔曼秩相关系数。“秩”,可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进...翻译 2018-08-03 17:09:10 · 698 阅读 · 0 评论 -
MapReduce过程
MapReduce由两个阶段组成,map阶段和reduce阶段:map阶段:1.从hdfs上读取文件,将文件的每一行解析成一个<K,V>对。2.对解析后的<K,V>对执行用户实现的map函数。3.对2所得结果进行分区。分区过程将在接下来学习Partitioner4.对不同分区中的数据进行排序和分组。5.(可选)对每个组的数据进行本地合并。该过程接下来...转载 2018-07-20 11:51:05 · 361 阅读 · 0 评论 -
Spark的ShuffleManager
ShuffleManager的主要职责是shuffle过程的执行、计算和处理。包括HashShuffleManager和SortShuffleManager。1.2版本以前的Spark使用HashShuffleManager,1.2版本以后使用SortShuffleManager。1.未经优化的HashShuffleManager在shuffle write阶段,也就是一个stage结束之...原创 2018-07-20 14:01:23 · 531 阅读 · 0 评论 -
MapReduce之shuffle过程
shuffle的主要职责是将map任务产生的输出,按照partitioner组件制定的规则,分发给reduce任务。主要分为3个过程,map端的spill过程,reduce端的copy和sort过程。1.spill过程map任务不断地以<K,V>对的形式把结果输出到内存的一个数据结构中,这个数据结构叫Kvbuffer,是一个字节数组。Kvbuffer不仅存数据,也保存对...转载 2018-07-20 17:21:42 · 209 阅读 · 0 评论