自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 收藏
  • 关注

原创 Flink 自定义Source 读取Mysql

object CustomSource { def main(args: Array[String]): Unit = { val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment val stringDataStream: DataStream[Provi...

2019-12-20 15:22:58 968

原创 Spark on Yarn分析

Spark所有的任务,都是由Spark-submit来提交的。所以我们从这个类看起。SparkSubmitoverride def main(args: Array[String]): Unit = { //配置启动参数 val appArgs = new SparkSubmitArguments(args) //是否打印参数,我们不用在意这个 if (appA...

2019-11-28 11:58:05 298

原创 Elasticsearch KeyWord和Text

今天写代码的时候遇到一个问题我们可以看到我们的gender有两个属性F、M但是我们下面这样写代码并查不到数据看别人这样写,又能查到数据出于对求知的欲望,研究了一下为什么有了以下结论。Elasticsearch两大数据类型ES有两个数据类型,keyword和text。keyword表示不会被自动分词,而text会自动分词分词后的字母会全部转为小写。而我数据正好是通过自动导入的,于...

2019-11-22 20:21:21 1708

原创 Spark 复习

简介Spark是一种基于内存的快、通用、可扩展的大数据分析引擎特点快Spark与Map Reduce相比,基于内存的运行要快100倍,基于硬盘的运算要快10倍以上。其中间结果可以缓存在内存中,达到复用的目的。易用Spark支持Java、Python、Scala的API,还支持超过80种高级算法,使用户可以快速的构建不同的应用。而且Spark支持交互式的Python和Scalal...

2019-11-17 15:35:07 395

原创 Kafka ISR和offset小结

Kafka小结使用Kafka的好处解耦允许你独立的扩展或修改两边的处理过程,只要确保她们遵守同样的接口约束可恢复性系统的一部分组件失效时,不会影响整个系统。并且即使一个处理消息的进程挂掉,新加入的消息也可以在系统恢复后被处理(通过每个消费者组对于主题保留的offset)缓冲有助于控制和优化数据流经过系统的速度,解决生产消息和消费消息的处理速度不一致问题。去峰值&am...

2019-11-14 16:58:38 490

原创 正则表达式?=和?!

表达式描述(?= re)前向肯定定界符(?!re)前向否定界定符(描述看着不明白?别急。)(?<=)(?<! )这两个名字不重要了,后面有举例说明用法public class RegularDemo { /** * TODO (?=) 举例zzy(?=shuai) 就是当zzy后面跟着shuai的时候才匹配zzy...

2019-11-11 20:29:08 356

原创 正则表达式(?:)的作用

表达式描述(?: re)匹配 re,不捕获匹配的文本,也不给此分组分配组号public class RegularDemo { /** * TODO (?:) */ public static void main(String[] args) { String info="axjiozzy892908...

2019-11-11 19:59:59 1159

原创 Scala 你猜我是怎么理解闭包?

什么是闭包闭包 就是一个函数和与其相关的引用环境组成的一个整体直白点说,闭包就是一个函数用了它作用域之外的变量( 单纯理解的话理解到这里就够了,至于到底怎么做到用作用域之外的变量,就是语法的问题了 ),就像下面的例子//闭包基础例子object Closures { var n: Int=10 def add10(i: Int): Int= { //讲道理这个{}括...

2019-10-30 19:26:50 267

原创 Scala 隐式转换

什么是隐式转换我理解的隐式转换是一种能像装饰器设计模式一样,对原有功能进行增强的语法。当原有函数不具备某些我们想要的功能时,我们或许可以通过隐式转换来解决这样的问题。比如我们想得到一杯果汁,却只有一个苹果的时候装饰器设计模式用一个榨汁机把苹果榨成果汁给用户。隐式转换将苹果转换成果汁给用户。例一import java.io.{File}import scala.io....

2019-10-29 20:09:19 190

原创 Scala基础笔记

变量声明声明变量一定要初始化基本语法//var|val 变量名 [:变量类型] = 变量值scala> var a:Int = 2a: Int = 2scala> val a:Int = 2a: Int = 2//也可以让编译器自动判断类型scala> var s="123"s: String = 123//判断后类型固定scala> var...

2019-10-28 18:04:03 177

原创 SpringBoot读取Resource下文件的几种方式

ClassPathResource classPathResource = new ClassPathResource("static/test.txt");InputStream inputStream =classPathResource.getInputStream();InputStream inputStream = Thread.currentThread().getContex...

2019-10-25 17:48:33 1127

原创 hive:存储格式和压缩算法

存储格式(hive自带的存储格式)aba1b1a2b2a3b3什么是按行存储?a1b1a2b2a3b3什么是按列存储?a1a2a3b1b2b3两者存储的形式不同,造成了不用的应用场景。行存储更费空间,而且如果查询一整行数据的情况多的时候,因为按行存储,整行的元素都在附近,读取效率就更高。反之,如果查询的只是几个字段,按列效率会更高,而且按列存储...

2019-10-11 21:39:55 682

原创 拉链表和流水表

拉链表和流水表都是为了记录数据的历史信息。只是数据粒度的不同。流水表精确到每天的每一条变化都记录其历史。而拉链表的粒度可控,一般选择每天为粒度,即每天的最终变化才记录。所以理解了拉链表,自然就知道流水表了。下面通过一个例子理解一下拉链表2019-9-10用户id金额时间0015002019-9-10 12:00:000026002019-9-10 7...

2019-10-10 11:06:04 1064

原创 用Vue整合Echarts做数据展示:整合Axios,前后端交互

之前整合Echarts的时候,数据是写死的。为了达到动态的效果,我们只能通过后端生产数据,然后让前端展示。npm i axios --save定义交互接口config.js和char.jsconfig.jsimport axios from "axios"// 定义后端地址const SERVER_BASE = "http://127.0.0.1:8080/api"/...

2019-10-04 15:45:21 5011

原创 用Vue整合Echarts做数据展示:整合Echarts

在终端中输入:npm install echarts --save在main.js中引入echarts// The Vue build version to load with the `import` command// (runtime-only or standalone) has been set in webpack.base.conf with an alias.imp...

2019-10-04 15:24:51 1153

原创 用Vue整合Echarts做数据展示:整合ElementUI+router实现侧边导航栏

新增aside.vue组件还是从ElementUI用户指南中copy过来的,只做了一点修改,加了点样式<template> <div class="aside"> <el-menu default-active="2" class="menu" @open="handleOpen" ...

2019-10-04 15:09:52 1062 2

原创 用Vue整合Echarts做数据展示:整合ElementUI,实现布局

ElementUI官网Element开发指南安装ElementUI【ctrl+`】打开终端 输入 npm i element-ui -S在main.js中为我们的项目引入ElementUI// The Vue build version to load with the `import` command// (runtime-only or standalone) has b...

2019-10-04 14:25:09 5414

原创 用Vue整合Echarts做数据展示:第一个Vue Demo 以及项目结构

Vue Democmd 下 进去任意你想的目录 vue init webpack echarts_demo(蓝色部分是项目的名字)Use ESLint to lint your code? 建议选no。严格模式下代码挺难写的。 等待加载就好了用VScode打开文件夹,查看一下项目结构添加下面的代码(为了项目跑起来就直接打开网页,记得保存!!!【ctrl+s】)【ctr...

2019-10-04 12:20:22 1241

原创 用Vue整合Echarts做数据展示:环境的准备

总的来说需要两个东西:node.jsVScode(可替代的有很多,Hbuilder、webstorm、sublime等都行)cnpm(可选,为了快一点)第一步 node.js安装下载地址选择自己需要的安装就好,这里拿windows举例下载安装即可,中途勾选上add to path就好。安装好后,检查一下Node是否安装成功第二步 npm安装与配置新版的node.js 自...

2019-10-04 10:42:18 698

原创 Git常用指令基础

添加git add . #将本地仓库的所有文件放入缓存区git add <file name> #将本地仓库的某个文件放入缓存区git add <file name> <file name> #将多个文件放入缓存区 中间空格分隔git add <dir name> #将某个目录放入缓存区删除git rmgit checkout如果...

2019-10-04 09:52:19 217 1

原创 CentOS6.8 安装Hue 4.2.0

CentOS6.8 安装Hue 4.2.0我也不知道为什么我这么坎坷。不知道还有谁会遇到我一样的问题。前提环境准备环境:python2.6.6 如果是python2.7.5+你会发现你的问题会少很多。但是奈何我是2.6.6,还不会改。jdk1.8maven3.6mysql5.7Hue下载地址,里面找你想下载的版本就行了1. 将jdk与maven配置到环境变量2. yum -...

2019-09-26 18:53:58 381

原创 Azkaban 运行DataX

.projectazkaban-flow-version: 2.0.flownodes: - name: job_mysql_to_hive type: command config: command: /usr/local/bin/python /opt/moudle/datax/bin/datax.py mysql2hive.json...

2019-09-26 12:00:16 1658

原创 Azkaban执行Sqoop任务

Azkaban执行Sqoop任务只能调度Sqoop的脚本.project文件azkaban-flow-version: 2.0.flownodes: - name: insert_RDS_sales_order_data type: command config: command: /opt/moudle/sqoop/bin/sqoop --optio...

2019-09-26 10:56:08 2078

原创 Mysql 报错performance_schema.session_variables 不存在

因为需要升级了一下MySQL,外面用navicat连接时出现这个错误执行以下命令就好了mysql_upgrade -u root -p123456 --force A MySQL server restart is required.

2019-09-25 10:38:19 1647 2

原创 Flume容错机制 : Sink Processor

Sink Processors是作用在sink组件上的容错机制。通过调度Sink Groups(就是分了组的Sinks),可以做到负载均衡(load_balance Processors)和类似HDFS中Namenode高可用(Failover Processors )那样的目的。Failover Sink ProcessorNameDefaultDescriptions...

2019-09-21 18:22:26 668

原创 如何理解Flume hdfs sink的roll和round

roll相关roll相关的字段作用对象是文件字段默认值说明rollInterval30每隔30秒截断一个文件。设置为0表示不会因为时间间隔截断文件rollSize1024文件字节数超过1024截断一个文件。设置为0就不因为文件大小截断文件rollCount10每10个event截断一个文件。设置为0就不因为event数量截断文件别的都好理解。...

2019-09-21 12:40:03 2319

原创 Flume使用

Flume使用exec可配置项(官网搬过来的)Name Default Descriptionchannels – type – 组件类型,必须是execcommand – 要执行的指令shell – A shell ...

2019-09-21 11:06:16 294

原创 sqoop job 实现自动增量导入

sqoop job 实现自动增量导入普通的增量导入# 这个问题在于我们每次再增量导入的时候就要手动去更改--last-value \的值。# 否则就每次都是全量导入。显得不灵活bin/sqoop import \--connect jdbc:mysql://hadoop001:3306/learn \--username root --password 123456 \--tabl...

2019-09-20 10:37:34 893 4

原创 sqoop从mysql导入数据到hive

sqoop从mysql导入数据到hive环境:hadoop 2.7.2hive 2.3.6sqoop 1.4.7安装Sqoopsqoop-1.4.7下载地址下载下来解压后配置cd $SQOOP_HOME/confmv sqoop-env-template.sh sqoop-env.sh vi sqoop-env.sh#根据你的实际情况配置#Set path to w...

2019-09-19 21:12:36 2327

原创 Hive2.3.6更换TEZ引擎

Hive2.3.6更换TEZ引擎前提环境1. hadoop 我的是2.7.12. hive 我的是2.3.6Tez环境准备下载Tez的安装包解压环境准备进去Tez安装目录下的conf目录[root@hadoop001 conf]# vi tez-site.xml<?xml version="1.0" encoding="UTF-8"?>&lt...

2019-09-18 20:36:47 1150

原创 DataX 阿里离线数据同步工具

DataX 阿里离线数据同步工具下载地址: datax下载地址官方指南:Quick Start介绍DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。datax其实就像Flume一样~,它们两个的架构都一样...

2019-09-18 18:54:35 1278

原创 Git Win10下闪退解决方案

​ 盗版系统,本来好好的突然git就闪退 了。查了很多资料总结出下面几种解决方法。方式1:从别的电脑拉取新的null.sys文件覆盖原来的文件null.sys 路径:C:\Windows\System32\drivers从别的电脑拉一个过来,覆盖以后以管理员身份运行cmd,输入sc start null方式2:修改注册表\HKEY_LOCAL_MACHINE\SYSTEM\Contr...

2019-09-18 09:05:44 2318 2

原创 HIve1.x升级到2.x且保留元数据

HIve1.x升级到2.x,且保留元数据下载源码包或者编译过的二进制包都无所谓(源码的就自己编译一下)。先备份原来的hivemv hive-1.2.1/ hive-1.2.1-back/解压新版的hive到相同的目录并更名为hive-1.2.1(原来hive的名称,为了不去修改环境变量什么的,这样方便点)升级元数据,hive已经为我们准备好了升级元数据的脚本了,我们只需...

2019-09-17 21:06:48 428

原创 Flume介绍

Flume介绍Flume是什么是一个分布式的高效的海量日志数据收集工具。是一个分布式、可靠、可用的高效的日志数据收集、聚合、移动的工具。Hadoop总体的业务流程特点以及优势Fulme可以将数据存储到任何集中的存储器中,比如HDFS、HBase可以对数据生产者和数据接收容器之间做个均衡,保证二者的平衡。Flume的管道是基于事务的,保证了数据在传输和接收时的一致...

2019-09-15 15:48:33 248

原创 log4j1.2.15 依赖 jmxri-1.2.1 jmxtools-1.2.1

log4j1.2.15依赖 jmxri-1.2.1 jmxtools-1.2.1​ 今天换成阿里的Maven镜像后发现尝试导Zookeeper的依赖出现了log4j依赖文件。缺少jmxri-1.2.1.jar jmxtools-1.2.1.jar。虽然没有这两个jar好像还是能够用Zookeeper。​ 出于强迫症还是去找了一下这两个jar。链接:https://pan.baidu.com...

2019-09-12 12:40:08 593 1

原创 HDFS DataNode节点服役退役

新节点服役前期准备准备一台新的虚拟机环境和集群机器环境相同修改主机IP和主机名称删除hadoop目录下的data 和log文件夹配置hdfs和yarn对于新节点的SSH免密登陆新节点配置在namenode节点上 etc/hadoop/目录下新建dfs.hosts文件(文件名任意) 输入以下内容。hadoop104是新服务节点hadoop101hadoop102h...

2019-09-11 20:59:38 822

原创 Hive中自定义函数

实现定义一个类,继承UDF,然后写evaluate方法查看UDF类,会发现并没有这个方法(版本1.2.1))),所以说重写有点牵强~源码中这样写到:Implement one or more methods named {@code evaluate} which will be called by Hive (the exact way in which Hive resolves...

2019-09-11 19:54:33 289 2

原创 Hive基础

Hive基础hive不能使用关键字、数字开始的字符串来命名库和表,尽量不要使用特殊符号。同时不区分大小写。基本语法创建表-- EXTERNAL 外部表-- 默认是创建内部表-- 内部表删除时会删除元数据和HDFS中表对应的目录,而外部表只会删除元数据不会删除对应的目录数据create [EXTERNAL] table if not exists db_name.table_name...

2019-09-09 17:22:58 493

原创 MapReduce一次Map读n行数据

MR题目:如何一次Map读n行数据输入数据{"name":"ta","age":12,"sex":1}{"name":"la","age":13,"sex":2}{"name":"la","age":13,"sex":2}{"name":"la","age":13,"sex":2}{"name":"la","age":13,"sex":2}{...

2019-09-08 09:40:32 783 2

原创 Win10 将某个软件加入鼠标右键启动

Win10 将某个软件加入鼠标右键启动以VSCode为例子; 这一部分是将VSCode加入文件上的鼠标右击事件; 就是把鼠标放在文件上时右击会出现这个应用; E:\\Microsoft VS Code\\Code.exe是我VSCode安装目录Windows Registry Editor Version 5.00[HKEY_CLASSES_ROOT\*\shell\VSCode]...

2019-09-07 09:34:58 1117 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除