自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 收藏
  • 关注

原创 rancher下管理flink

rancher管理flink

2021-12-02 10:05:02 2433

原创 springBoot简单的注解缓存

1.引入依赖<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-cache</artifactId></dependency>2.在启动类上加注解@EnableCaching3.在要做缓存的service的实现类上加注解 @Cacheable(cacheNames = {"quer

2020-09-11 15:33:50 228

原创 根据名称将其转换为经纬度坐标

public static String getGeocoderLatitude(String address){ BufferedReader in = null; String lng =""; String lat =""; try { address = URLEncoder.encode(address, "UTF-8"); URL tirc = new URL("http://api.

2020-08-24 16:42:11 662

原创 误删Linux系统自带python、yum

查看系统:cat /etc/redhat-release7.5.1804对应版本包下载wget http://vault.centos.org/7.5.1804/os/x86_64/Packages/lvm2-python-libs-2.02.177-4.el7.x86_64.rpmwget http://vault.centos.org/7.5.1804/os/x86_64/Packages/libxml2-python-2.9.1-6.el7_2.3.x86_64.rpmwget http:/

2020-08-19 17:21:56 409

原创 DataFrame map操作报错

错误解决记录:error: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases错误信息

2020-07-14 16:28:12 408

原创 spring boot和第三方组件mybatis的集成

spring boot和第三方组件的集成1.mybatis1.导入jar <!--和mybatis集成所需要的依赖--> <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.44&l

2020-07-13 08:49:10 261

原创 Spring Boot概述、环境搭建与注解

Spring Boot1.spring boot引言Spring Boot是由Pivotal团队提供的全新框架,其设计目的是用来简化新Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置,从而使开发人员不再需要定义样板化的配置。通过这种方式,Spring Boot致力于在蓬勃发展的快速应用开发领域(rapid application development)成为领导者。spring boot=spring+springmvc2.spring boot的特点创建独立的spr

2020-07-10 08:46:35 122

原创 Java中,科学计数法转为一般数值问题

从页面传值到controller时候,数值过大,接收的值转为科学计数法,导致数据无法解析。记录一下科学计数法转为一般数值: public static void main(String[] args) { double s = 2.2261615626E9; BigDecimal bd = new BigDecimal(s); double zyCost1 = Double.parseDouble(bd.toPlainString());

2020-07-02 13:51:07 1210

原创 Zookeeper ACL

Zookeeper ACL7.1 Shell 操作zookeeper本身提供了ACL机制,表示为scheme: id:permissions,第一个字段表示采用哪一种机制,第二个id表示用户,permissions表示相关权限(如只读,读写,管理等)。7.1 .1 scheme :id 介绍world: 它下面只有一个id, 叫anyone, world:anyone代表任何人,zookeeper中对所有人有权限的结点就是属于world:anyone的auth: 它不需要id, 只要是通过a

2020-07-02 09:11:38 158

原创 Zookeeper的API操作

Java API操作6.1 原生 API1)Maven依赖 <!-- https://mvnrepository.com/artifact/org.apache.zookeeper/zookeeper --> <dependency> <groupId>org.apache.zookeeper</groupId> <artifactId>zookeeper</artifac

2020-07-01 08:48:33 411

原创 ZooKeeper概述与基本使用

一、概述ZooKeeper是一个分布式应用所涉及的分布式的、开源的协调服务。是Google的Chubby的开源实现Zookeeper最早起源于雅虎的研究院的一个研究小组。在当时,研究人员发现,在雅虎内部很多大型的系统需要依赖一个类似的系统进行分布式协调,但是这些系统往往存在分布式单点问题。所以雅虎的开发人员就试图开发一个通用的无单点问题的分布式协调框架。在立项初期,考虑到很多项目都是用动物的名字来命名的(例如著名的Pig项目),雅虎的工程师希望给这个项目也取一个动物的名字。时任研究院的首席科学家Rag

2020-06-30 08:54:45 253

原创 HBase的java操作、MapReduce on Hbase

Java API4.1 依赖<!-- https://mvnrepository.com/artifact/org.apache.hbase/hbase-client --><dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.2.4</versio

2020-06-29 08:51:50 247

原创 HBase 架构认知

HBase 架构6.1 名词解释(1)ZooKeeperHBase 通过ZK来做Master 的高可用,如果Master异常,通过竞争选举产生新的Master 提供服务HBase 通过ZK 来做 RegionServer的监控,当RegionServer异常时,调用的相关的容错机制元数据的入口和集群配置的维护工作,通过zk做外部统一入口(2)HMaster为RegionServer分配Region维护整个集群的负载均衡维护集群的元数据信息发现失效的Region,将失效的Region

2020-06-28 08:58:50 247

原创 HBase列存储、shell命令操作

一、概述Hbase全称为Hadoop Database(基于HDFS的数据库),设计来源Google 的bigtable,Hbase 仿照 bigtable设计基于HDFS上的一款数据库。1.1 CAP原则CAP原则又称之为CAP原理,指的是在分布式系统当中,一致性、可用性、分区容错性,三者不可兼得HBase 是保证CP1.2 什么是基于列式存储?HBase 是基于列式存储的NoSql这个概念和RDBMS作对比,传统的数据库对数据的操作单位是一行(若干字段)select username

2020-06-24 09:02:39 349

原创 flink启动后,中断,异常报错

主要错误信息:org.apache.flink.runtime.jobmanager.scheduler.NoResourceAvailableException.org.apache.flink.runtime.client.JobExecutionException: Job execution failed.org.apache.flink.client.program.ProgramInvocationException: Job failed. (JobID: a7cd7ebac30659c

2020-06-22 13:39:04 6835 3

原创 Hive QL操作

Hive QL操作6.1 SELECT…FROM 语句SELECT是SQL中的射影算子,FROM子句标识了从哪个表、视图或嵌套查询中选择记录。对于一个给定的记录,SELECT指定了要保存的列以及输出函数需要调用的一个或多个列(例如,像count(*)这样的聚合函数)6.1.1使用正则表达式指定列create table logs( uuid string, userid string , fromUrl string , dateString string,

2020-06-22 09:08:40 314

原创 Hive表分类,内部表、外部表、分区表简介

Hive表分类5.1 管理表(内部表)内部表与数据库中的Table在概念上是类似的,每一个内部Table在Hive中都有一个相应目录存储数据,所有的Table数据(不包括External Table)都保存在这个目录中。删除表时,元数据与数据都会被删除。5.2 外部表在创建表的时候可以指定external关键字创建外部表,外部表对应的文件存储在location指定的目录下,向该目录添加新文件的同时,该表也会读取到该文件(当然文件格式必须跟表定义的一致),删除外部表的同时并不会删除location指定

2020-06-19 08:42:54 534

原创 Hive概述与表操作

一、概述由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,Hive 将用户的HiveQL 语句通过解释器转换为提交到Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。 Hive 并非为联机事务处理

2020-06-18 08:48:47 367

原创 spark 结构化流的Window

Window Operations on Event Time基于事件时间的窗口操作​ 滑动event-time时间窗口的聚合在StructuredStreaming上很简单,并且和分组聚合非常相似。在分组聚合中,为用户指定的分组列中的每个唯一值维护聚合值(例如计数)。在基于窗口的聚合的情况下,为每一个event-time窗口维护聚合值。​ 想象一下,quickexample中的示例被修改,现在stream中的每行包含了生成的时间。我们不想运行word count,而是要在10分钟的窗口内计数单词

2020-06-09 09:06:07 649 1

原创 spark 结构化流,创建流式DataFrame和流式Datasets

创建流式DataFrame和流式DatasetsStreaming DataFrames可以通过SparkSession.readStream()返回的DataStreamReader接口(Scala / Java / Python文档)创建。Input Sources常见的内置SourcesFile source : 读取指定目录下的文件作为流数据,支持的文件格式有:text、csv、json、parquet、orc等Kafka source(常用): 从kafka读取数据Socket so

2020-06-08 08:44:31 523

原创 Spark Structured Streaming 结构化流

Spark Structured Streaming 结构化流Structured Streaming是一个构建在Spark SQL基础上可靠具备容错处理的流处理引擎。Structured Streaming提供快速,可扩展,容错,端到端的精确一次流处理,而无需用户推理流式传输。流数据处理的三种语义:最少一次(at least once): 流数据中的记录最少会被处理一次(1-n)最多一次(at most once): 流数据中的记录最多会被处理一次(0-1)精确一次(at exactly o

2020-06-05 08:48:43 234

原创 SparkStreaming的检查点Checkpointing

Checkpointing一个流处理应用必须能够全天候工作,因此必须能够适应与应用逻辑无关的错误(如:系统错误、JVM崩溃、etc)。为了解决这个问题,Spark Streaming需要将足够的信息检查(checkpoint)到容错存储系统,以便它可以从故障中恢复。检查点有两种类型的数据:元数据检查点(Metadata checkpointing):将流应用的信息保存到容错的存储系统HDFS中,元数据包含:Configuration: 流应用的配置信息DStream operations:DSt

2020-06-03 08:56:48 334

原创 mysql各种编码正确,有警告,可能导致字符串中文不能查询到数据

Fri May 29 16:20:07 CST 2020 WARN: Establishing SSL connection without server’s identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection must be established by default if explicit option isn’t set

2020-05-29 16:23:13 282

原创 SparkStream的DStream转换算子

DStream转换算子DStream的转换算子类似于RDD,一些常用的算子如下:TransformationMeaningmap(func)Return a new DStream by passing each element of the source DStream through a function func.flatMap(func)Similar to map, but each input item can be mapped to 0 or mor

2020-05-25 09:26:27 338

原创 MapReduce入门程序

四、MapReduce4.1 概述MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。MapRed

2020-05-22 14:13:14 177

原创 Spark Streaming的Source与kafka集成

DStream(离散数据流)DStream是Spark Streaming中的一个基本抽象。表现为一段连续的数据流(本质上是一组连续RDD的集合)。一个DStream中的一个RDD含有固定间隔的数据集。**应用于DStream的任何操作都转换为底层RDD上的操作。**如:第一个Spark Streaming案列Input DStream And ReceiversInput DStream表示从数据源接受的数据构建的DStream对象。构建Input DStream通常有两种方式Basic

2020-05-22 11:12:28 314

原创 springboot向数据库插入数据,中文变成问号

数据库乱码问题:java.sql.SQLException: Incorrect string value: ‘\xF0\x9F\x92\x94’ for column ‘name’ at row 11.第一步file->setting->editor->code style->file encodings都改为utf-8 ,勾上下面那个选项。2.第二步打开my.cnf文件[root@spark ~]# vim /etc/my.cnf文件里添加:[client]

2020-05-21 13:13:46 1890 1

原创 nested exception is org.apache.ibatis.binding.BindingException

idea的maven项目:Springboot+mybatis时,报错 org.apache.ibatis.binding.BindingException。解决如下:1.看target目录下,dao包下的dao.class文件是否生成对应的dao.xml文件,如过没有,在pom.xml文件中的中添加如下配置。 <resources> <resource> <directory>src/main/jav

2020-05-21 09:57:23 1263

原创 Spark Streaming第一个示例

Spark Streaminghttp://spark.apache.org/docs/latest/streaming-programming-guide.html#overviewSpark Streaming是Spark Core的进一步扩展,可以实现数据流的可扩展、高吞吐、容错处理。Spark Streaming处理的数据可以来源于多种方式,比如Kafka、Flume、Kinesis或者TCP传输等,这些流数据经过Spark Streaming进行复杂的处理加工。最终,将处理的结果保存到文件系统

2020-05-21 08:52:07 133

原创 Spark SQL的数据导入导出

指的是和第三方存储系统的读写操作JSONval df = spark.read.json("file:///G:\\IDEA_WorkSpace\\scala-workspace\\spark-day9\\src\\main\\resources")df.createTempView("t_user")spark.sql("select id,name from t_user").write.format("json").save("file:///D://result")Paquet.

2020-05-21 08:50:17 1879

原创 Flum的拦截器、通道选择器、Sink Group的使用

Interceptor(拦截器)注:Flume中拦截器组件是建立在Source和Channel之间的一个可选组件,主要的作用是对采集到的Events(事件对象)进行预处理增强功能。Timestamp在Events事件头中添加一个时间戳信息a1.sources.r1.interceptors = i1a1.sources.r1.interceptors.i1.type = timestampHost在Events事件头中添加一个Host/IP信息a1.sources.r1.inte

2020-05-20 09:10:21 371

原创 Spark SQL的纯SQL语句以及自定义函数

df.createGlobalTempView() // 对DF创建全局的临时视图,它产生的表,可以多个spark session共享,它的生命周期和spark application绑定df.createTempView() // 对DF创建局部的临时视图,它产生的表,仅供创建spark session使用,其它的spark session无法获取单行查询package com.baizhi.sqlimport org.apache.spark.sql.SparkSessionob.

2020-05-20 09:05:40 1340

原创 算法7:给出一个 32 位的有符号整数,你需要将这个整数中每位上的数字进行反转

//给出一个 32 位的有符号整数,你需要将这个整数中每位上的数字进行反转。 //// 示例 1: //// 输入: 123//输出: 321// //// 示例 2: //// 输入: -123//输出: -321// //// 示例 3: //// 输入: 120//输出: 21// //// 注意: //// 假设我们的环境只能存储得下 32 位的有符号整数,则其数值范围为 [−231, 231 − 1]。请根据这个假设,如果反转后整数溢出那么就返回 0。

2020-05-19 10:47:05 1338

原创 Spark的SQL操作详解

DataFrame操作(untyped)printSchema()object DataframeOperationTest { def main(args: Array[String]): Unit = { val sparkSql = SparkSession.builder().appName("df operation").master("local[*]").getOrCreate() import sparkSql.implicits._ val rdd = s

2020-05-19 08:51:56 565

原创 Flum的案例channel和Sink组件

Simple Example收集网络端口产生的访问数据,并且输出到服务的控制台窗口准备配置文件[root@HadoopNode00 flume]# cd apache-flume-1.7.0-bin/[root@HadoopNode00 apache-flume-1.7.0-bin]# vi conf/simple.properties[root@HadoopNode00 apache-flume-1.7.0-bin]# vi conf/simple.properties# example.

2020-05-19 08:48:03 246

原创 Flum的语法详解以及source

一、概述大数据需要解决的三个问题:采集、存储、计算另外一个比较主流的大数据处理的技能栈ElasticSerach Stack: ElasticSearch(存储)、Kibana(计算结果的可视化展示)、Logstash(数据采集和简单处理)**Apache Flume是一个分布式、可靠的、高可用的数据采集、聚合系统,将海量的日志数据从不同的数据源移动到一个中央的存储系统中。**用一句话总结:Flume不生产数据,它只是数据的搬运工。二、语法详解# example.conf: A single-

2020-05-18 08:47:28 459 1

原创 SparkSQL概述以及创建Dataset

一、概述http://spark.apache.org/docs/latest/sql-programming-guide.htmlSpark SQL是Spark中一个模块,用以对结构化数据进行处理。SparkSQL在RDD之上抽象出来Dataset/Dataframe 这两个类提供了类似RDD的功能,也就意味用户可以使用map、flatMap、filter等高阶算子,同时也通过了基于列的命名查询,也就是说Dataset/DataFrame提供了两套操作数据的API,这些API可以给Saprk引擎要提供

2020-05-18 08:42:09 532

原创 Flink的Window(窗口计算)

Window(窗口计算)窗口计算是流计算的核心,通过使用窗口对无限的流数据划分成固定大小的 buckets,然后基于落入同一个bucket(窗口)中的元素执行计算。Flink将窗口计算分为两大类。一类基于keyed-stream窗口计算。stream .keyBy(...) <- 分组 .window(...) <- 必须: "assigner" 窗口分配器 [.trigger(...)]

2020-05-16 09:03:45 1631

原创 Flink的操作算子Operator

OperatorDataStream TransformationsDatastream -> DatasteamMapTakes one element and produces one element. A map function that doubles the values of the input stream:dataStream.map { x => x * 2 }FlatMapTakes one element and produces zero, one, o

2020-05-15 09:50:34 921

原创 Flink的Data Sink以及自定义Data Sink

Data SinkData sinks负责消费Data Stream的数据,将数据写出到外围系统,例如:文件/网络/NoSQL/RDBMS/Message Queue等。Flink底层也预定义了一些常用的Sinks,同时用户也可以根据实际需求定制Data Sink通过集成SinkFunction或者RichSinkFunction。File Based(测试)writeAsText()|writeAsCsv(…)|writeUsingOutputFormat() at-least-once//1

2020-05-15 08:45:38 299

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除