- 博客(44)
- 资源 (3)
- 收藏
- 关注
原创 Spark性能优化
Spark性能优化 调优基本原则 基本概念和原则 首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起:每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们会被分配到executor上面去执行。Stage指的是一组并行运行的task,stage内部是不能出现shuffle的,因为shuffle的就像篱笆一样阻止了并行task的运行,遇到shuffle就意味着到了stage的边界。CPU的core数量..
2021-01-04 20:34:46
1144
原创 Hadoop优化
Hadoop企业优化6.1 MapReduce 跑的慢的原因Mapreduce 程序效率的瓶颈在于两点:1)计算机性能CPU、内存、磁盘健康、网络2)I/O 操作优化(1)数据倾斜(2)map和reduce数设置不合理(3)map运行时间太长,导致reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)spill次数过多(7)merge次数过多等。6.2 MapReduce优化方法MapReduce优化方法主要从六个方面考虑:数据输入、
2021-01-04 20:31:04
213
原创 Hive企业级优化
Hive企业级调优9.1 Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查
2021-01-04 20:25:39
170
原创 关于Centos7.5 1804重新安装yum和python问题
1.卸载现有的Python,强制删除已安装程序及其关联:rpm -qa|grep python|xargs rpm -ev --allmatches --nodeps2.强制删除Python所有残余文件:whereis python| xargs rm -frv3.卸载现有的yum:rpm -qa| grep yum| xarg4.强制删除所有残余文件:whereis yum| xargs rm -frv5. 检查CentOS 7内核版本:cat /e...
2020-11-17 20:55:50
4052
1
原创 bash: jps: command not found
解决方案1:没有配置jdk,配置好以后,记得source环境变量即可解决方案2:群发脚本出现的问题,做个软链接即可1)在/usr/local/bin目录下创建脚本xcall.sh[root@bigdata111bin]$ vim xcall.sh2)在脚本中编写如下内容#! /bin/bashfor i in bigdata111bigdata112bigdata113doecho --------- $i ----------ssh ...
2020-10-14 17:09:58
539
原创 微服务架构之Docker
微服务之Docker一.Docker简介1.Docker是什么1.1 Docker的出现2010年,几个搞IT的年轻人,在美国旧金山成立了一家名叫“dotCloud”的公司。这家公司主要提供基于PaaS的云计算技术服务。就是和LXC(Linux container)有关的容器技术。后来改名为——Docker 一款产品从开发到上线,从操作系统,到运行环境,再到应用配置。作为开发+运维之间的协作我们需要关心很多东西,这也是很多互联网公司都不得不面对的问题,特别是各种版本的迭代之后,不同
2020-08-19 13:45:11
615
原创 ELK7.6.2运维架构专题
ELK运维架构专题第一章 Logstash 简介一、 Logstash简介Logstash 是一个实时数据收集引擎,可收集各类型数据并对其进行分析,过滤和归纳。按照自己条件分析过滤出符合数据导入到可视化界面。它可以实现多样化的数据源数据全量或增量传输,数据标准格式处理,数据格式化输出等的功能,常用于日志处理。工作流程分为三个阶段:(1)input数据输入阶段,可接收oracle、mysql、postgresql、file等多种数据源; (2)filter数据标准格式化阶段,可过.
2020-08-19 13:37:50
538
原创 2.大数据技术之_第三章到第五章:SparkSQL数据源
第3章 SparkSQL数据源3.1 通用加载/保存方法3.1.1 手动指定选项Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。Spark SQL的默认数据源为Parquet格式。数据源为Parquet文件时,Spark SQL可以方便的执行所有的操作。修改配置项spark.sql.sources.default,可修改默认
2020-08-19 13:23:59
385
原创 1.大数据技术之SparkSQL_SparkSQL基础和SparkSQL编程
第1章 Spark SQL概述1什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效.
2020-08-19 13:21:51
489
原创 5.大数据技术之SparkCore_第三到五章:键值对RDD数据分区/读取保存/RDD编程进阶
Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数注意:(1)只有Key-Value类型的RDD才有分区的,非Key-Value类型的RDD分区的值是None(2)每个RDD的分区ID范围:0~numPartitions-1,决定这个值是属于那个分区的。3.1 获取RDD分区可以通过使用RDD的partitioner 属性来获
2020-08-19 12:26:09
285
原创 4.大数据技术之SparkCore_第二章:Action算子操作
2.4 Action2.4.1 reduce(func)案例1. 作用:通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。2. 需求:创建一个RDD,将所有元素聚合得到结果(1)创建一个RDD[Int]scala> val rdd1 = sc.makeRDD(1 to 10,2)rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[85] at makeRDD at <consol
2020-08-19 12:16:48
669
原创 3.大数据技术之SparkCore_第二章:RDD编程
2.1 编程模型在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count, collect等),或者是向存储系统保存数据(saveAsTextFile等)。在Spark中,只有遇到action,才会执行RDD的计算(即延迟计算),这样在运行时可以通过管道的方式传输多个转换。要使用Spark,开发者需要编写一个Driver程序,...
2020-08-19 12:12:37
362
原创 2.大数据技术之SparkCore_第一章:RDD概述
第1章 RDD概述1.1 什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.2 RDD的属性一组分区(Partition),即数据集的基本组成单位; 一个计算每个分区的函数; RDD之间的依赖关系; 一个Partitioner,即RDD的分片函数; 一个列表,存储存取每个Partition的优先位置(prefe.
2020-08-19 12:03:03
166
原创 1.大数据技术之Spark基础
第1章 Spark概述 什么是Spark Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。项目是用Scala进行编写。 Spark内置模块 Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distribu...
2020-08-19 12:00:38
494
原创 11.大数据技术之Scala_十八章:并发编程Akka(终)
十八 并发编程Akka18.1 Akka 介绍1) Akka 是 JAVA 虚拟机 JVM 平台上构建高并发、分布式和容错应用的工具包和运行时,你可以 理解成 Akka 是编写并发程序的框架。2) Akka 用 Scala 语言写成,同时提供了 Scala 和 JAVA 的开发接口。3) Akka 主要解决的问题是:可以轻松的写出高效稳定的并发程序,程序员不再过多的考虑线程、锁和资源竞争等细节。18.2 Actor 模型用于解决什么问题1) 处理并发问题关键是要保证共享数据的一致性和
2020-08-19 11:35:00
219
原创 10.大数据技术之Scala_十七章:高级类型
十七 高级类型17.1 类型与类的区别在Java里,一直到jdk1.5之前,我们说一个对象的类型(type),都与它的class是一一映射的,通过获取它们的class对象,比如 String.class, int.class, obj.getClass() 等,就可以判断它们的类型(type)是不是一致的。而到了jdk1.5之后,因为引入了泛型的概念,类型系统变得复杂了,并且因为jvm选择了在运行时采用类型擦拭的做法(兼容性考虑),类型已经不能单纯的用class来区分了,比如 List<..
2020-08-18 16:04:58
199
原创 9.大数据技术之Scala_十五章到十六章:隐式转换/文件和正则表达式
十五 隐式转换15.1 隐式转换隐式转换函数是以implicit关键字声明的带有单个参数的函数。这种函数将会自动应用,将值从一种类型转换为另一种类型。 implicit def a(d: Double) = d.toInt //不加上边这句你试试 val i1: Int = 3.5 println(i1) 15.2 利用隐式转换丰富类库功能如果需要为一个类增加一个方法,可以通过隐式转换来实现。比如想为File增加一个read方法,可以如下定义:..
2020-08-18 16:03:38
170
原创 8.大数据技术之Scala_十三到十四章:注释及类型参数
十三 注解注解就是标签。标签是用来标记某些代码需要特殊处理的。处理的手段可以在代码运行时操作,也可以在编译期操作。13.1 什么可以被注解1)可以为类,方法,字段局部变量,参数,表达式,类型参数以及各种类型定义添加注解 @Entity class Student @Test def play() {} @BeanProperty var username = _ def doSomething(@NotNull message: String) ...
2020-08-18 16:01:55
256
原创 7.大数据技术之Scala_十二章:特质
十二 特质12.1 不允许多重集成所有的面向对象的语言都不允许直接的多重继承,因为会出现“deadly diamond of death”问题。Scala提供了特质(trait),特质可以同时拥有抽象方法和具体方法,一个类可以实现多个特质。12.2 当做接口使用的特质特质中没有实现的方法就是抽象方法。类通过extends继承特质,通过with可以继承多个特质。 trait Logger { def log(msg: String) } ...
2020-08-18 16:00:37
157
原创 6.大数据技术之Scala_十章到十一章:包和引用/继承
十 包和引用10.1 包/作用域在Java和Scala中管理项目可以使用包结构,C和C#使用命名空间。对于package,有如下几种形式:1) 形式体现: package com.nick.impatient.people class Person{ val name = "Nick" def play(message: String): Unit ={ } } 等同于: package com.nic...
2020-08-18 15:59:13
184
原创 5.大数据技术之Scala_七章到九章:高阶函数/类/对象
七 高阶函数7.1 作为参数的函数函数作为一个变量传入到了另一个函数中,那么该作为参数的函数的类型是:function1,即:(参数类型) => 返回类型 def plus(x: Int) = 3 +x val result1 = Array(1, 2, 3, 4).map(plus(_)) println(result1.mkString(",")) 尖叫提示:带有一个参数的函数的类型是function1,带有两个是function2,以此类推...
2020-08-18 15:56:50
167
原创 4.大数据之Scala_六章:模式匹配
六 模式匹配6.1 switch与default等效的是捕获所有的case_ 模式。如果没有模式匹配,抛出MatchError,每个case中,不用break语句。可以在match中使用任何类型,而不仅仅是数字。 var result = 0; val op : Char = '-' op match { case '+' => result = 1 case '-' => result = -1 case _...
2020-08-18 15:53:39
157
原创 3.大数据技术之Scala_五章:数据结构
五 数据结构5.1 数据结构特点Scala同时支持可变集合和不可变集合,不可变集合从不可变,可以安全的并发访问。两个主要的包:不可变集合:scala.collection.immutable可变集合: scala.collection.mutableScala优先采用不可变集合,对于几乎所有的集合类,Scala都同时提供了可变和不可变的版本。不可变集合继承层次:可变集合继承层次:5.2 数组 Array1) 定长数组 //定义...
2020-08-18 15:52:03
176
原创 2.大数据技术之Scala_四章:控制结构和函数
四 控制结构和函数4.1 ifelse表达式scala中没有三目运算符,因为根本不需要。scala中ifelse表达式是有返回值的,如果if或者else返回的类型不一样,就返回Any类型(所有类型的公共超类型)。例如:ifelse返回类型一样 val a3 = 10 val a4 = if(a3 > 20){ "a3大于20" }else{ "a3小于20" } println(a4)...
2020-08-18 15:47:38
152
原创 1.大数据技术之Scala_一章到三章
一 Scala简述统计世界top100大学计算机系年级前三名,从初中开始编程,学过20多种语言,最后认为Scala最难。好了,我们开始享受这个过程把:)。二 Scala安装与配置2.1 安装Scala需要Java运行时库,安装Scala需要首先安装JVM虚拟机,推荐安装JDK1.8。在http://www.scala-lang.org/下载Scala2.11.8程序安装包根据不同的操作系统选择不同的安装包,下载完成后,将安装包解压到安装目录。将scala安装目录下的bin...
2020-08-18 15:45:08
184
原创 Elasticsearch 7.6.2 基本搭建配置 及 JavaAPI 增删改查
基本搭建配置=================================基本环境配置==================================配置linux系统环境(参考:http://blog.youkuaiyun.com/satiling/article/details/59697916)(1)编辑limits.conf 添加类似如下内容[itstar@bigdata111 elasticsearch-5.6.1]$ sudo vi /etc/security/limits.conf
2020-06-27 19:59:49
2421
1
转载 Java面试题
相关概念面向对象的三个特征封装,继承,多态。这个应该是人人皆知。有时候也会加上抽象。多态的好处允许不同类对象对同一消息做出响应,即同一消息可以根据发送对象的不同而采用多种不同的行为方式(发送消息就是函数调用)主要有以下优点:可替换性:多态对已存在代码具有可替换性。可扩充性:增加新的子类不影响已经存在的类结构。接口性:多态是超类通过方法签名,向子类提供一个公共接口,由子类来完善或者重写它来实现的。灵...
2018-05-16 20:02:11
497
原创 Zookeeper的内部原理
3.1选举机制1 )半数机制(Paxos 协议):集群中半数以上机器存活,集群可用。所以zookeeper 适合装在奇数台机器上。2)Zookeeper虽然在配置文件中并没有指定master 和slave 。但是,zookeeper工作时,是有一个节点为leader,其他则为follower,Leader是通过内部的选举机制临时产生的。3)以一个简单的例子来说明整个选举的过程。假设有五台服务器组成...
2018-05-08 19:23:33
225
原创 Kafka的安装及配置
2.2 Kafka集群部署 1)解压安装包[itstar@hadoop102 software]$ tar -zxvfkafka_2.11-0.11.0.2.tgz -C /opt/module/2)修改解压后的文件名称[itstar@hadoop102 module]$ mvkafka_2.11-0.11.0.2/ kafka3)在/opt/module/kafka目录下创建logs文件夹[it...
2018-05-08 15:53:32
391
原创 Apache hadoop集群安装的三种方式:本地、伪分布、完全分布
四 Hadoop运行模式1)官方网址(1)官方网站:http://hadoop.apache.org/(2)各个版本归档库地址 https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/(3)hadoop2.7.2版本详情介绍http://hadoop.apache.org/docs/r2.7.2/2)Hadoop运行模式(1)本地模式(...
2018-05-08 15:40:29
4087
转载 Java基础面试题
1,一个 “的.java” 源文件中是否可以包括多个类(不是内部类)?有什么限制? 可以有多个类,但只能有一个public的类,并且public的类名必须与文件名相一致。2,Java有没有goto? java中的保留字,现在没有在java中使用。 3,说说&和&&的区别。 &&:短路与逻辑 &和&&都可以用作逻辑与的运算符,表示逻辑与(and...
2018-05-06 17:23:19
154
原创 Sqoop问题:MySQL导入HBase,预留空值字段的处理
结论:从mysql导入到HBase中,预留字段不会显示,但存在---------------------------------------------------MySQL 导入 HBase---------------------------------------------------上图是有预留字段的数据表MySQL 导入 HBasebin/sqoop import \-Dorg.ap...
2018-05-02 23:56:48
1857
转载 Sqoop一些常用命令及参数
五、Sqoop一些常用命令及参数5.1、常用命令列举这里给大家列出来了一部分Sqoop操作时的常用参数,以供参考,需要深入学习的可以参看对应类的源代码。序号 命令 类 说明 1 import ImportTool 将数据导入到集群 2 export ExportTool 将集群数据导出 3 codegen CodeGenTool 获取数据库中某张表数据生成Java并打包Ja...
2018-05-02 23:31:56
1535
转载 Sqoop的简单案例应用
四、Sqoop的简单使用案例4.1、导入数据在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,叫做:导入,即使用import关键字。4.1.1、RDBMS到HDFS1) 确定Mysql服务开启正常2) 在Mysql中新建一张表并插入一些数据$ mysql -uroot -p000000 mysql> create da...
2018-05-02 23:30:30
204
原创 Sqoop之简介、原理与安装
一、Sqoop简介Apache Sqoop(TM)是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。Sqoop于2012年3月孵化出来,现在是一个顶级的Apache项目。请注意,1.99.7与1.4.6不兼容,且没有特征不完整,它并不打算用于生产部署。二、Sqoop原理将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce...
2018-05-02 23:28:31
184
转载 Zookeeper
二 ZooKeeper(☆☆☆)2.1 请简述ZooKeeper的选举机制假设有五台服务器组成的zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就是没有历史数据,在存放数据量这一点上,都是一样的。假设这些服务器依序启动,来看看会发生什么。(1)服务器1启动,此时只有它一台服务器启动了,它发出去的报没有任何响应,所以它的选举状态一直是LOOKING状态。(2)服务器2启动,它与...
2018-04-30 20:57:04
856
转载 Hadoop之企业案例分析
1.7 企业案例分析(☆☆☆☆)1.7.1 海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的 IP 取出来,逐个写入到一个大文件中。注意到IP 是 32 位的,最多有个 2^32 个 IP。同样可以采用映射的方法, 比如模 1000,把整个大文件映射为1000 个小文件,再找出每个小文中出现频率最大的 IP(可以采用 hash_map进行频率统计,然后再找...
2018-04-30 20:55:17
607
转载 Hadoop之企业运维
1.6 企业运维相关(☆☆☆☆)1.6.1 Hadoop会有哪些重大故障,如何应对?至少给出 5个。1)namenode单点故障:通过zookeeper搭建HA高可用,可自动切换namenode。2)ResourceManager单点故障:可通过配置YARN的HA,并在配置的namenode上手动启动ResourceManager作为Slave,在Master 故障后,Slave 会自动切换为Ma...
2018-04-30 20:53:35
273
转载 Hadoop之优化
1.5 优化(☆☆☆☆☆)1.5.1 mapreduce跑的慢的原因(☆☆☆☆☆)Mapreduce 程序效率的瓶颈在于两点:1)计算机性能 CPU、内存、磁盘健康、网络2)I/O 操作优化(1)数据倾斜(2)map和reduce数设置不合理(3)reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)spill次数过多(7)merge次数过多等。1.5.2 mapre...
2018-04-30 20:52:38
975
01_大数据技术之Spark基础解析.pdf
2020-08-19
大数据技术之Scala.pdf
2020-08-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人