卡其色的夏日-优快云博客

Spark性能优化调优基本原则基本概念和原则首先，要搞清楚Spark的几个基本概念和原则，否则系统的性能调优无从谈起：每一台host上面可以并行N个worker，每一个worker下面可以并行M个executor，task们会被分配到executor上面去执行。Stage指的是一组并行运行的task，stage内部是不能出现shuffle的，因为shuffle的就像篱笆一样阻止了并行task的运行，遇到shuffle就意味着到了stage的边界。CPU的core数量..

2021-01-04 20:34:46 1144

原创 Hadoop优化

Hadoop企业优化6.1 MapReduce 跑的慢的原因Mapreduce 程序效率的瓶颈在于两点：1）计算机性能CPU、内存、磁盘健康、网络2）I/O 操作优化（1）数据倾斜（2）map和reduce数设置不合理（3）map运行时间太长，导致reduce等待过久（4）小文件过多（5）大量的不可分块的超大文件（6）spill次数过多（7）merge次数过多等。6.2 MapReduce优化方法MapReduce优化方法主要从六个方面考虑：数据输入、

2021-01-04 20:31:04 213

原创 Hive企业级优化

Hive企业级调优9.1 Fetch抓取Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老版本hive默认是minimal，该属性修改为more以后，在全局查找、字段查找、limit查

2021-01-04 20:25:39 170

原创关于Centos7.5 1804重新安装yum和python问题

2020-11-17 20:55:50 4052 1

原创 bash: jps: command not found

解决方案1:没有配置jdk,配置好以后,记得source环境变量即可解决方案2:群发脚本出现的问题,做个软链接即可1）在/usr/local/bin目录下创建脚本xcall.sh[root@bigdata111bin]$ vim xcall.sh2）在脚本中编写如下内容#! /bin/bashfor i in bigdata111bigdata112bigdata113doecho --------- $i ----------ssh ...

2020-10-14 17:09:58 539

原创微服务架构之Docker

微服务之Docker一.Docker简介1.Docker是什么1.1 Docker的出现2010年，几个搞IT的年轻人，在美国旧金山成立了一家名叫“dotCloud”的公司。这家公司主要提供基于PaaS的云计算技术服务。就是和LXC(Linux container)有关的容器技术。后来改名为——Docker 一款产品从开发到上线，从操作系统，到运行环境，再到应用配置。作为开发+运维之间的协作我们需要关心很多东西，这也是很多互联网公司都不得不面对的问题，特别是各种版本的迭代之后，不同

2020-08-19 13:45:11 615

原创 ELK7.6.2运维架构专题

ELK运维架构专题第一章 Logstash 简介一、 Logstash简介Logstash 是一个实时数据收集引擎，可收集各类型数据并对其进行分析，过滤和归纳。按照自己条件分析过滤出符合数据导入到可视化界面。它可以实现多样化的数据源数据全量或增量传输，数据标准格式处理，数据格式化输出等的功能，常用于日志处理。工作流程分为三个阶段：（1）input数据输入阶段，可接收oracle、mysql、postgresql、file等多种数据源；　　（2）filter数据标准格式化阶段，可过.

2020-08-19 13:37:50 538

原创 2.大数据技术之_第三章到第五章：SparkSQL数据源

第3章 SparkSQL数据源3.1 通用加载/保存方法3.1.1 手动指定选项Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作，也可以被注册为临时表。把DataFrame注册为临时表之后，就可以对该DataFrame执行SQL查询。Spark SQL的默认数据源为Parquet格式。数据源为Parquet文件时，Spark SQL可以方便的执行所有的操作。修改配置项spark.sql.sources.default，可修改默认

2020-08-19 13:23:59 385

原创 1.大数据技术之SparkSQL_SparkSQL基础和SparkSQL编程

第1章 Spark SQL概述1什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生，它是将Spark SQL转换成RDD，然后提交到集群执行，执行效.

2020-08-19 13:21:51 489

原创 5.大数据技术之SparkCore_第三到五章:键值对RDD数据分区/读取保存/RDD编程进阶

Spark目前支持Hash分区和Range分区，用户也可以自定义分区，Hash分区为当前的默认分区，Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数注意：(1)只有Key-Value类型的RDD才有分区的，非Key-Value类型的RDD分区的值是None(2)每个RDD的分区ID范围：0~numPartitions-1，决定这个值是属于那个分区的。3.1 获取RDD分区可以通过使用RDD的partitioner 属性来获

2020-08-19 12:26:09 285

原创 4.大数据技术之SparkCore_第二章:Action算子操作

2.4 Action2.4.1 reduce(func)案例1. 作用：通过func函数聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据。2. 需求：创建一个RDD，将所有元素聚合得到结果（1）创建一个RDD[Int]scala> val rdd1 = sc.makeRDD(1 to 10,2)rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[85] at makeRDD at <consol

2020-08-19 12:16:48 669

原创 3.大数据技术之SparkCore_第二章:RDD编程

2.1 编程模型在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后，就可以调用actions触发RDD的计算，action可以是向应用程序返回结果(count, collect等)，或者是向存储系统保存数据(saveAsTextFile等)。在Spark中，只有遇到action，才会执行RDD的计算(即延迟计算)，这样在运行时可以通过管道的方式传输多个转换。要使用Spark，开发者需要编写一个Driver程序，...

2020-08-19 12:12:37 362

原创 2.大数据技术之SparkCore_第一章:RDD概述

第1章 RDD概述1.1 什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.2 RDD的属性一组分区（Partition），即数据集的基本组成单位; 一个计算每个分区的函数; RDD之间的依赖关系; 一个Partitioner，即RDD的分片函数; 一个列表，存储存取每个Partition的优先位置（prefe.

2020-08-19 12:03:03 166

原创 1.大数据技术之Spark基础

第1章 Spark概述什么是Spark Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。项目是用Scala进行编写。 Spark内置模块 Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distribu...

2020-08-19 12:00:38 494

原创 11.大数据技术之Scala_十八章：并发编程Akka（终）

十八并发编程Akka18.1 Akka 介绍1) Akka 是 JAVA 虚拟机 JVM 平台上构建高并发、分布式和容错应用的工具包和运行时，你可以理解成 Akka 是编写并发程序的框架。2) Akka 用 Scala 语言写成，同时提供了 Scala 和 JAVA 的开发接口。3) Akka 主要解决的问题是：可以轻松的写出高效稳定的并发程序，程序员不再过多的考虑线程、锁和资源竞争等细节。18.2 Actor 模型用于解决什么问题1) 处理并发问题关键是要保证共享数据的一致性和

2020-08-19 11:35:00 219

原创 10.大数据技术之Scala_十七章：高级类型

十七高级类型17.1 类型与类的区别在Java里，一直到jdk1.5之前，我们说一个对象的类型(type)，都与它的class是一一映射的，通过获取它们的class对象，比如 String.class, int.class, obj.getClass() 等，就可以判断它们的类型(type)是不是一致的。而到了jdk1.5之后，因为引入了泛型的概念，类型系统变得复杂了，并且因为jvm选择了在运行时采用类型擦拭的做法(兼容性考虑)，类型已经不能单纯的用class来区分了，比如 List&lt..

2020-08-18 16:04:58 199

原创 9.大数据技术之Scala_十五章到十六章：隐式转换/文件和正则表达式

十五隐式转换15.1 隐式转换隐式转换函数是以implicit关键字声明的带有单个参数的函数。这种函数将会自动应用，将值从一种类型转换为另一种类型。 implicit def a(d: Double) = d.toInt //不加上边这句你试试 val i1: Int = 3.5 println(i1) 15.2 利用隐式转换丰富类库功能如果需要为一个类增加一个方法，可以通过隐式转换来实现。比如想为File增加一个read方法，可以如下定义：..

2020-08-18 16:03:38 170

原创 8.大数据技术之Scala_十三到十四章：注释及类型参数

十三注解注解就是标签。标签是用来标记某些代码需要特殊处理的。处理的手段可以在代码运行时操作，也可以在编译期操作。13.1 什么可以被注解1)可以为类，方法，字段局部变量，参数，表达式，类型参数以及各种类型定义添加注解 @Entity class Student @Test def play() {} @BeanProperty var username = _ def doSomething(@NotNull message: String) ...

2020-08-18 16:01:55 256

原创 7.大数据技术之Scala_十二章：特质

十二特质12.1 不允许多重集成所有的面向对象的语言都不允许直接的多重继承，因为会出现“deadly diamond of death”问题。Scala提供了特质（trait），特质可以同时拥有抽象方法和具体方法，一个类可以实现多个特质。12.2 当做接口使用的特质特质中没有实现的方法就是抽象方法。类通过extends继承特质，通过with可以继承多个特质。 trait Logger { def log(msg: String) } ...

2020-08-18 16:00:37 157

原创 6.大数据技术之Scala_十章到十一章:包和引用/继承

十包和引用10.1 包/作用域在Java和Scala中管理项目可以使用包结构，C和C#使用命名空间。对于package，有如下几种形式：1) 形式体现： package com.nick.impatient.people class Person{ val name = "Nick" def play(message: String): Unit ={ } } 等同于： package com.nic...

2020-08-18 15:59:13 184

原创 5.大数据技术之Scala_七章到九章:高阶函数/类/对象

七高阶函数7.1 作为参数的函数函数作为一个变量传入到了另一个函数中，那么该作为参数的函数的类型是：function1，即：（参数类型） => 返回类型 def plus(x: Int) = 3 +x val result1 = Array(1, 2, 3, 4).map(plus(_)) println(result1.mkString(",")) 尖叫提示：带有一个参数的函数的类型是function1，带有两个是function2，以此类推...

2020-08-18 15:56:50 167

原创 4.大数据之Scala_六章:模式匹配

六模式匹配6.1 switch与default等效的是捕获所有的case_ 模式。如果没有模式匹配，抛出MatchError，每个case中，不用break语句。可以在match中使用任何类型，而不仅仅是数字。 var result = 0; val op : Char = '-' op match { case '+' => result = 1 case '-' => result = -1 case _...

2020-08-18 15:53:39 157

原创 3.大数据技术之Scala_五章:数据结构

五数据结构5.1 数据结构特点Scala同时支持可变集合和不可变集合，不可变集合从不可变，可以安全的并发访问。两个主要的包：不可变集合：scala.collection.immutable可变集合： scala.collection.mutableScala优先采用不可变集合，对于几乎所有的集合类，Scala都同时提供了可变和不可变的版本。不可变集合继承层次：可变集合继承层次：5.2 数组 Array1) 定长数组 //定义...

2020-08-18 15:52:03 176

原创 2.大数据技术之Scala_四章:控制结构和函数

四控制结构和函数4.1 ifelse表达式scala中没有三目运算符，因为根本不需要。scala中ifelse表达式是有返回值的，如果if或者else返回的类型不一样，就返回Any类型（所有类型的公共超类型）。例如：ifelse返回类型一样 val a3 = 10 val a4 = if(a3 > 20){ "a3大于20" }else{ "a3小于20" } println(a4)...

2020-08-18 15:47:38 152

原创 1.大数据技术之Scala_一章到三章

一 Scala简述统计世界top100大学计算机系年级前三名，从初中开始编程，学过20多种语言，最后认为Scala最难。好了，我们开始享受这个过程把：）。二 Scala安装与配置2.1 安装Scala需要Java运行时库，安装Scala需要首先安装JVM虚拟机，推荐安装JDK1.8。在http://www.scala-lang.org/下载Scala2.11.8程序安装包根据不同的操作系统选择不同的安装包，下载完成后，将安装包解压到安装目录。将scala安装目录下的bin...

2020-08-18 15:45:08 184

原创 Elasticsearch 7.6.2 基本搭建配置及 JavaAPI 增删改查

基本搭建配置=================================基本环境配置==================================配置linux系统环境（参考：http://blog.youkuaiyun.com/satiling/article/details/59697916）（1）编辑limits.conf 添加类似如下内容[itstar@bigdata111 elasticsearch-5.6.1]$ sudo vi /etc/security/limits.conf

2020-06-27 19:59:49 2421 1

微服务之Docker.pdf

01_大数据技术之Spark基础解析.pdf

大数据技术之Scala.pdf

空空如也