自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 资源 (3)
  • 收藏
  • 关注

原创 chat 2DB 基本使用情况

自然语言生成式SQL

2023-11-28 16:33:55 1074

原创 Spark性能优化

Spark性能优化 调优基本原则 基本概念和原则 首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起:每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们会被分配到executor上面去执行。Stage指的是一组并行运行的task,stage内部是不能出现shuffle的,因为shuffle的就像篱笆一样阻止了并行task的运行,遇到shuffle就意味着到了stage的边界。CPU的core数量..

2021-01-04 20:34:46 1144

原创 Hadoop优化

Hadoop企业优化6.1 MapReduce 跑的慢的原因Mapreduce 程序效率的瓶颈在于两点:1)计算机性能CPU、内存、磁盘健康、网络2)I/O 操作优化(1)数据倾斜(2)map和reduce数设置不合理(3)map运行时间太长,导致reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)spill次数过多(7)merge次数过多等。6.2 MapReduce优化方法MapReduce优化方法主要从六个方面考虑:数据输入、

2021-01-04 20:31:04 213

原创 Hive企业级优化

Hive企业级调优9.1 Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查

2021-01-04 20:25:39 170

原创 关于Centos7.5 1804重新安装yum和python问题

1.卸载现有的Python,强制删除已安装程序及其关联:rpm -qa|grep python|xargs rpm -ev --allmatches --nodeps2.强制删除Python所有残余文件:whereis python| xargs rm -frv3.卸载现有的yum:rpm -qa| grep yum| xarg4.强制删除所有残余文件:whereis yum| xargs rm -frv5. 检查CentOS 7内核版本:cat /e...

2020-11-17 20:55:50 4052 1

原创 bash: jps: command not found

解决方案1:没有配置jdk,配置好以后,记得source环境变量即可解决方案2:群发脚本出现的问题,做个软链接即可1)在/usr/local/bin目录下创建脚本xcall.sh[root@bigdata111bin]$ vim xcall.sh2)在脚本中编写如下内容#! /bin/bashfor i in bigdata111bigdata112bigdata113doecho --------- $i ----------ssh ...

2020-10-14 17:09:58 539

原创 微服务架构之Docker

微服务之Docker一.Docker简介1.Docker是什么1.1 Docker的出现2010年,几个搞IT的年轻人,在美国旧金山成立了一家名叫“dotCloud”的公司。这家公司主要提供基于PaaS的云计算技术服务。就是和LXC(Linux container)有关的容器技术。后来改名为——Docker 一款产品从开发到上线,从操作系统,到运行环境,再到应用配置。作为开发+运维之间的协作我们需要关心很多东西,这也是很多互联网公司都不得不面对的问题,特别是各种版本的迭代之后,不同

2020-08-19 13:45:11 615

原创 ELK7.6.2运维架构专题

ELK运维架构专题第一章 Logstash 简介一、 Logstash简介Logstash 是一个实时数据收集引擎,可收集各类型数据并对其进行分析,过滤和归纳。按照自己条件分析过滤出符合数据导入到可视化界面。它可以实现多样化的数据源数据全量或增量传输,数据标准格式处理,数据格式化输出等的功能,常用于日志处理。工作流程分为三个阶段:(1)input数据输入阶段,可接收oracle、mysql、postgresql、file等多种数据源;   (2)filter数据标准格式化阶段,可过.

2020-08-19 13:37:50 538

原创 2.大数据技术之_第三章到第五章:SparkSQL数据源

第3章 SparkSQL数据源3.1 通用加载/保存方法3.1.1 手动指定选项Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。Spark SQL的默认数据源为Parquet格式。数据源为Parquet文件时,Spark SQL可以方便的执行所有的操作。修改配置项spark.sql.sources.default,可修改默认

2020-08-19 13:23:59 385

原创 1.大数据技术之SparkSQL_SparkSQL基础和SparkSQL编程

第1章 Spark SQL概述1什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效.

2020-08-19 13:21:51 489

原创 5.大数据技术之SparkCore_第三到五章:键值对RDD数据分区/读取保存/RDD编程进阶

Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数注意:(1)只有Key-Value类型的RDD才有分区的,非Key-Value类型的RDD分区的值是None(2)每个RDD的分区ID范围:0~numPartitions-1,决定这个值是属于那个分区的。3.1 获取RDD分区可以通过使用RDD的partitioner 属性来获

2020-08-19 12:26:09 285

原创 4.大数据技术之SparkCore_第二章:Action算子操作

2.4 Action2.4.1 reduce(func)案例1. 作用:通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。2. 需求:创建一个RDD,将所有元素聚合得到结果(1)创建一个RDD[Int]scala> val rdd1 = sc.makeRDD(1 to 10,2)rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[85] at makeRDD at <consol

2020-08-19 12:16:48 669

原创 3.大数据技术之SparkCore_第二章:RDD编程

2.1 编程模型在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count, collect等),或者是向存储系统保存数据(saveAsTextFile等)。在Spark中,只有遇到action,才会执行RDD的计算(即延迟计算),这样在运行时可以通过管道的方式传输多个转换。要使用Spark,开发者需要编写一个Driver程序,...

2020-08-19 12:12:37 362

原创 2.大数据技术之SparkCore_第一章:RDD概述

第1章 RDD概述1.1 什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.2 RDD的属性一组分区(Partition),即数据集的基本组成单位; 一个计算每个分区的函数; RDD之间的依赖关系; 一个Partitioner,即RDD的分片函数; 一个列表,存储存取每个Partition的优先位置(prefe.

2020-08-19 12:03:03 166

原创 1.大数据技术之Spark基础

第1章 Spark概述 什么是Spark Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。项目是用Scala进行编写。 Spark内置模块 Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distribu...

2020-08-19 12:00:38 494

原创 11.大数据技术之Scala_十八章:并发编程Akka(终)

十八 并发编程Akka18.1 Akka 介绍1) Akka 是 JAVA 虚拟机 JVM 平台上构建高并发、分布式和容错应用的工具包和运行时,你可以 理解成 Akka 是编写并发程序的框架。2) Akka 用 Scala 语言写成,同时提供了 Scala 和 JAVA 的开发接口。3) Akka 主要解决的问题是:可以轻松的写出高效稳定的并发程序,程序员不再过多的考虑线程、锁和资源竞争等细节。18.2 Actor 模型用于解决什么问题1) 处理并发问题关键是要保证共享数据的一致性和

2020-08-19 11:35:00 219

原创 10.大数据技术之Scala_十七章:高级类型

十七 高级类型17.1 类型与类的区别在Java里,一直到jdk1.5之前,我们说一个对象的类型(type),都与它的class是一一映射的,通过获取它们的class对象,比如 String.class, int.class, obj.getClass() 等,就可以判断它们的类型(type)是不是一致的。而到了jdk1.5之后,因为引入了泛型的概念,类型系统变得复杂了,并且因为jvm选择了在运行时采用类型擦拭的做法(兼容性考虑),类型已经不能单纯的用class来区分了,比如 List&lt..

2020-08-18 16:04:58 199

原创 9.大数据技术之Scala_十五章到十六章:隐式转换/文件和正则表达式

十五 隐式转换15.1 隐式转换隐式转换函数是以implicit关键字声明的带有单个参数的函数。这种函数将会自动应用,将值从一种类型转换为另一种类型。 implicit def a(d: Double) = d.toInt //不加上边这句你试试 val i1: Int = 3.5 println(i1) 15.2 利用隐式转换丰富类库功能如果需要为一个类增加一个方法,可以通过隐式转换来实现。比如想为File增加一个read方法,可以如下定义:..

2020-08-18 16:03:38 170

原创 8.大数据技术之Scala_十三到十四章:注释及类型参数

十三 注解注解就是标签。标签是用来标记某些代码需要特殊处理的。处理的手段可以在代码运行时操作,也可以在编译期操作。13.1 什么可以被注解1)可以为类,方法,字段局部变量,参数,表达式,类型参数以及各种类型定义添加注解 @Entity class Student @Test def play() {} @BeanProperty var username = _ def doSomething(@NotNull message: String) ...

2020-08-18 16:01:55 256

原创 7.大数据技术之Scala_十二章:特质

十二 特质12.1 不允许多重集成所有的面向对象的语言都不允许直接的多重继承,因为会出现“deadly diamond of death”问题。Scala提供了特质(trait),特质可以同时拥有抽象方法和具体方法,一个类可以实现多个特质。12.2 当做接口使用的特质特质中没有实现的方法就是抽象方法。类通过extends继承特质,通过with可以继承多个特质。 trait Logger { def log(msg: String) } ...

2020-08-18 16:00:37 157

原创 6.大数据技术之Scala_十章到十一章:包和引用/继承

十 包和引用10.1 包/作用域在Java和Scala中管理项目可以使用包结构,C和C#使用命名空间。对于package,有如下几种形式:1) 形式体现: package com.nick.impatient.people class Person{ val name = "Nick" def play(message: String): Unit ={ } } 等同于: package com.nic...

2020-08-18 15:59:13 184

原创 5.大数据技术之Scala_七章到九章:高阶函数/类/对象

七 高阶函数7.1 作为参数的函数函数作为一个变量传入到了另一个函数中,那么该作为参数的函数的类型是:function1,即:(参数类型) => 返回类型 def plus(x: Int) = 3 +x val result1 = Array(1, 2, 3, 4).map(plus(_)) println(result1.mkString(",")) 尖叫提示:带有一个参数的函数的类型是function1,带有两个是function2,以此类推...

2020-08-18 15:56:50 167

原创 4.大数据之Scala_六章:模式匹配

六 模式匹配6.1 switch与default等效的是捕获所有的case_ 模式。如果没有模式匹配,抛出MatchError,每个case中,不用break语句。可以在match中使用任何类型,而不仅仅是数字。 var result = 0; val op : Char = '-' op match { case '+' => result = 1 case '-' => result = -1 case _...

2020-08-18 15:53:39 157

原创 3.大数据技术之Scala_五章:数据结构

五 数据结构5.1 数据结构特点Scala同时支持可变集合和不可变集合,不可变集合从不可变,可以安全的并发访问。两个主要的包:不可变集合:scala.collection.immutable可变集合: scala.collection.mutableScala优先采用不可变集合,对于几乎所有的集合类,Scala都同时提供了可变和不可变的版本。不可变集合继承层次:可变集合继承层次:5.2 数组 Array1) 定长数组 //定义...

2020-08-18 15:52:03 176

原创 2.大数据技术之Scala_四章:控制结构和函数

四 控制结构和函数4.1 ifelse表达式scala中没有三目运算符,因为根本不需要。scala中ifelse表达式是有返回值的,如果if或者else返回的类型不一样,就返回Any类型(所有类型的公共超类型)。例如:ifelse返回类型一样 val a3 = 10 val a4 = if(a3 > 20){ "a3大于20" }else{ "a3小于20" } println(a4)...

2020-08-18 15:47:38 152

原创 1.大数据技术之Scala_一章到三章

一 Scala简述统计世界top100大学计算机系年级前三名,从初中开始编程,学过20多种语言,最后认为Scala最难。好了,我们开始享受这个过程把:)。二 Scala安装与配置2.1 安装Scala需要Java运行时库,安装Scala需要首先安装JVM虚拟机,推荐安装JDK1.8。在http://www.scala-lang.org/下载Scala2.11.8程序安装包根据不同的操作系统选择不同的安装包,下载完成后,将安装包解压到安装目录。将scala安装目录下的bin...

2020-08-18 15:45:08 184

原创 Elasticsearch 7.6.2 基本搭建配置 及 JavaAPI 增删改查

基本搭建配置=================================基本环境配置==================================配置linux系统环境(参考:http://blog.youkuaiyun.com/satiling/article/details/59697916)(1)编辑limits.conf 添加类似如下内容[itstar@bigdata111 elasticsearch-5.6.1]$ sudo vi /etc/security/limits.conf

2020-06-27 19:59:49 2421 1

转载 Java面试题

相关概念面向对象的三个特征封装,继承,多态。这个应该是人人皆知。有时候也会加上抽象。多态的好处允许不同类对象对同一消息做出响应,即同一消息可以根据发送对象的不同而采用多种不同的行为方式(发送消息就是函数调用)主要有以下优点:可替换性:多态对已存在代码具有可替换性。可扩充性:增加新的子类不影响已经存在的类结构。接口性:多态是超类通过方法签名,向子类提供一个公共接口,由子类来完善或者重写它来实现的。灵...

2018-05-16 20:02:11 497

原创 Zookeeper的内部原理

3.1选举机制1 )半数机制(Paxos 协议):集群中半数以上机器存活,集群可用。所以zookeeper 适合装在奇数台机器上。2)Zookeeper虽然在配置文件中并没有指定master 和slave 。但是,zookeeper工作时,是有一个节点为leader,其他则为follower,Leader是通过内部的选举机制临时产生的。3)以一个简单的例子来说明整个选举的过程。假设有五台服务器组成...

2018-05-08 19:23:33 225

原创 Kafka的安装及配置

2.2 Kafka集群部署 1)解压安装包[itstar@hadoop102 software]$ tar -zxvfkafka_2.11-0.11.0.2.tgz -C /opt/module/2)修改解压后的文件名称[itstar@hadoop102 module]$ mvkafka_2.11-0.11.0.2/ kafka3)在/opt/module/kafka目录下创建logs文件夹[it...

2018-05-08 15:53:32 391

原创 Apache hadoop集群安装的三种方式:本地、伪分布、完全分布

四 Hadoop运行模式1)官方网址(1)官方网站:http://hadoop.apache.org/(2)各个版本归档库地址 https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/(3)hadoop2.7.2版本详情介绍http://hadoop.apache.org/docs/r2.7.2/2)Hadoop运行模式(1)本地模式(...

2018-05-08 15:40:29 4087

转载 Java基础面试题

1,一个 “的.java” 源文件中是否可以包括多个类(不是内部类)?有什么限制?  可以有多个类,但只能有一个public的类,并且public的类名必须与文件名相一致。2,Java有没有goto?  java中的保留字,现在没有在java中使用。 3,说说&和&amp;&amp;的区别。  &amp;&amp;:短路与逻辑  &和&amp;&amp;都可以用作逻辑与的运算符,表示逻辑与(and...

2018-05-06 17:23:19 154

原创 Sqoop问题:MySQL导入HBase,预留空值字段的处理

结论:从mysql导入到HBase中,预留字段不会显示,但存在---------------------------------------------------MySQL 导入 HBase---------------------------------------------------上图是有预留字段的数据表MySQL 导入 HBasebin/sqoop import \-Dorg.ap...

2018-05-02 23:56:48 1857

转载 Sqoop一些常用命令及参数

五、Sqoop一些常用命令及参数5.1、常用命令列举这里给大家列出来了一部分Sqoop操作时的常用参数,以供参考,需要深入学习的可以参看对应类的源代码。序号 命令 类 说明 1 import ImportTool 将数据导入到集群 2 export ExportTool 将集群数据导出 3 codegen CodeGenTool 获取数据库中某张表数据生成Java并打包Ja...

2018-05-02 23:31:56 1535

转载 Sqoop的简单案例应用

四、Sqoop的简单使用案例4.1、导入数据在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,叫做:导入,即使用import关键字。4.1.1、RDBMS到HDFS1) 确定Mysql服务开启正常2) 在Mysql中新建一张表并插入一些数据$ mysql -uroot -p000000 mysql&gt; create da...

2018-05-02 23:30:30 204

原创 Sqoop之简介、原理与安装

一、Sqoop简介Apache Sqoop(TM)是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。Sqoop于2012年3月孵化出来,现在是一个顶级的Apache项目。请注意,1.99.7与1.4.6不兼容,且没有特征不完整,它并不打算用于生产部署。二、Sqoop原理将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce...

2018-05-02 23:28:31 184

转载 Zookeeper

二 ZooKeeper(☆☆☆)2.1 请简述ZooKeeper的选举机制假设有五台服务器组成的zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就是没有历史数据,在存放数据量这一点上,都是一样的。假设这些服务器依序启动,来看看会发生什么。(1)服务器1启动,此时只有它一台服务器启动了,它发出去的报没有任何响应,所以它的选举状态一直是LOOKING状态。(2)服务器2启动,它与...

2018-04-30 20:57:04 856

转载 Hadoop之企业案例分析

1.7 企业案例分析(☆☆☆☆)1.7.1 海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的 IP 取出来,逐个写入到一个大文件中。注意到IP 是 32 位的,最多有个 2^32 个 IP。同样可以采用映射的方法, 比如模 1000,把整个大文件映射为1000 个小文件,再找出每个小文中出现频率最大的 IP(可以采用 hash_map进行频率统计,然后再找...

2018-04-30 20:55:17 607

转载 Hadoop之企业运维

1.6 企业运维相关(☆☆☆☆)1.6.1 Hadoop会有哪些重大故障,如何应对?至少给出 5个。1)namenode单点故障:通过zookeeper搭建HA高可用,可自动切换namenode。2)ResourceManager单点故障:可通过配置YARN的HA,并在配置的namenode上手动启动ResourceManager作为Slave,在Master 故障后,Slave 会自动切换为Ma...

2018-04-30 20:53:35 273

转载 Hadoop之优化

1.5 优化(☆☆☆☆☆)1.5.1 mapreduce跑的慢的原因(☆☆☆☆☆)Mapreduce 程序效率的瓶颈在于两点:1)计算机性能       CPU、内存、磁盘健康、网络2)I/O 操作优化(1)数据倾斜(2)map和reduce数设置不合理(3)reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)spill次数过多(7)merge次数过多等。1.5.2 mapre...

2018-04-30 20:52:38 975

微服务之Docker.pdf

一.Docker简介 二.Docker安装部署 三. Docker案例实战 四. 容器数据卷 五、Dockerfile 上传到阿里云

2020-08-19

01_大数据技术之Spark基础解析.pdf

在我博客中的三个基础章节 第 1 章 Spark 概述 第 2 章 Spark 第 3 章 案例 实操 从Spark入门到Spark的第一个基础案例

2020-08-19

大数据技术之Scala.pdf

我的博客中第一章到第十八章的内容 1.Scala 简述 2.Scala 安装与配置 3.Scala 基础 4.控制结构和函数 5.数据结构 6.模式匹配 7.高阶函数 8.类 9.对象 10.包和引用 11.继承 12.特质 13.注解 14.类型参数 15.隐式转换 16.文件和正则表达式 17.高级类型 18.并发编程 Akka

2020-08-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除