- 博客(53)
- 资源 (2)
- 收藏
- 关注

原创 简单spring boot+log4j+flume+kafka的日志实现
简单spring boot+log4j+flume+kafka的日志实现 在安装好zookeeper、Kafka、flume的情况下1.springboot的pom.xml导入依赖 <dependency> <groupId>org.apache.flume.flume-ng-clients</groupId> <artifactId>flume-ng-log4jappender</ar
2020-08-08 15:41:13
685
原创 Docker网络
Docker网络一、理解Docker0所有容器在不指定网络的情况下,都是docker0路由的,docker会给我们的容器分配一个默认的可用ip。Docker使用的是Linux的桥接模式,宿主机中是一个Docker容器的网桥docker0.Docker中所有的网络接口都是虚拟的,虚拟的转发效率高。–link实现容器间通过容器名进行访问docker run -d -it --name centos03 --link centos01 centos[root@bigdata ~]# docker
2021-09-12 18:42:38
212
原创 Docker常用命令及Dockerfile
Docker常用命令及DockerFile一、帮助命令docker version # 显示Docker的版本信息docker info # 显示Docker的系统信息,包括镜像和容器的数量docker 命令 --help # 帮助命令二、镜像命令docker images[root@jiang ~]# docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEcentos lates
2021-09-05 18:34:28
462
原创 Docker安装配置及原理
Docker安装配置及原理一、Docker安装Docker官网:https://docs.docker.com/engine/install/centos/1、卸载旧的版本 sudo yum remove docker \ docker-client \ docker-client-latest \ docker-common \ docker-latest
2021-09-05 18:24:40
213
原创 Hive优化
Hive优化一、大表Join大表1、空KEY过滤有时 join 超时是因为某些 key 对应的数据太多,而相同 key 对应的数据都会发送到相同 的 reducer 上,从而导致内存不够。此时我们应该仔细分析这些异常的 key,很多情况下, 这些 key 对应的数据是异常数据,我们需要在 SQL 语句中进行过滤。例如 key 对应的字段为 空,操作如下:创建原始数据空 id 表// 创建空 id 表create table nullidtable(id bigint, t bigint, uid
2021-07-23 00:02:04
223
原创 Hive详解及常用操作命令
Hive常用操作命令一、 基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型,true或者falseTRUE FALSEFLOATfloat单精度浮点数3.14159DOUBLEdouble双精
2021-07-23 00:00:46
2776
4
原创 Hive Load数据进分桶表报错
Hive Load数据进分桶表报错一、报错如下:hive (test)> load data local inpath '/opt/modules/testdata/hive/bigtable' into table bigtable_buck2;FAILED: SemanticException Please load into an intermediate table and use 'insert... select' to allow Hive to enforce bucketin
2021-07-22 23:56:12
1226
原创 Hive数据压缩和存储
Hive数据压缩和存储一、Hadoop压缩配置1、MR支持的压缩编码压缩格式算法文件扩展名是否可切分DEFLATEDEFLATE.deflate否GzipDEFLATE.gz否bzip2bzip2.bz2是LZOLZO.lzo是SnappySnappy.snappy否为了支持多种压缩/解压缩算法,Hadoop 引入了编码/解码器,如下表所示:压缩格式对应的编码/解码器DEFLATEorg.apa
2021-07-22 23:54:23
485
原创 hive练习
Hive练习部门信息表create table if not exists dept(deptno int,dname string, loc int)row format delimited fields terminated by ',';员工信息表create table if not exists emp(empno int,ename string,job string,mgr int,hiredate string,sal double,comm double,
2021-07-22 23:48:44
1594
3
原创 ElasticSearch入门详解
ElasticSearch入门详解一、简介Elasticsearch是一个开源的分布式、RESTful 风格的搜索和数据分析引擎,它的底层是开源库Apache Lucene。Lucene 可以说是当下最先进、高性能、全功能的搜索引擎库——无论是开源还是私有 。为了解决Lucene使用时的繁复性,于是Elasticsearch便应运而生。它使用 Java 编写,内部采用 Lucene 做索引与搜索,但是它的目标是使全文检索变得更简单,简单来说,就是对Lucene 做了一层封装,它提供了一套简单一致的
2021-07-20 19:54:21
278
原创 Zookeeper及其分布式锁
Zookeeper及其分布式锁一、ZooKeeper 数据模型 znode 结构详解在 zookeeper 中,可以说 zookeeper 中的所有存储的数据是由 znode 组成的,节点也称为 znode,并以 key/value 形式存储数据。整体结构类似于 linux 文件系统的模式以树形结构存储。其中根路径以 / 开头。二、Zookeeper session 基本原理客户端与服务端之间的连接是基于 TCP 长连接,client 端连接 server 端默认的 2181 端口,也就是 se
2021-07-17 22:41:37
344
5
原创 Structured Streaming整合Kafka实时统计
Structured Streaming整合Kafka实时统计一、实时ETL启动Zookeeper和kafka# 启动zookeeperbin/zkServer.sh start# 启动kafkabin/kafka-server-start.sh -daemon config/server.properties创建主题bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --part
2021-07-12 12:18:40
717
3
原创 Spark 的 StructedStreaming
Spark 的 StructedStreaming一、Spark Streaming的不足1、基于微批,延迟高,不能做真正的实时2、DStream基于RDD,不直接支持SQL3、流批处理的API应用层不统一(流用的DStream–底层是RDD,批的用DF/DS/RDD)4、不支持EventTime事件时间注EventTime事件时间:事件真正发生的时间PorcessingTime处理时间:事件被流系统处理的时间IngestionTime摄入时间:事件到达流系统的时间如:一条错误日志10
2021-07-09 17:11:44
770
原创 SparkSQL 整合Hive
SparkSQL 整合Hive一、SparkSQL命令行界面整合Hive1、先启动Hive的metastore安装hive的目录下执行:bin/hive --server metastore &2、把hive的配置文件hive-site.xml拷贝到spark的conf3、启动spark bin目录下 的spark-sql命令4、执行sql语句二、SparkSQL代码整合Hive完整的pom依赖:<?xml version="1.0" encoding="UTF-8"?&
2021-07-08 10:07:40
310
原创 SparkSQL自定义函数
SparkSQL自定义函数一、SparkSQL自定义函数1、使用SparkSQL-UDF将数据转为大写package com.jiang.sparksqlimport org.apache.spark.SparkContextimport org.apache.spark.sql.expressions.UserDefinedFunctionimport org.apache.spark.sql.{DataFrame, Dataset, SparkSession}/* * @param
2021-07-08 10:05:49
267
原创 Spark SQL花式查询
Spark SQL花式查询一、Spark SQL花式查询1、需求:针对personDF中的数据使用SQL和DSL两种方式进行各种查询scala代码:package com.jiang.sparksqlimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SparkSession}/* * @param null** @
2021-07-07 09:56:15
521
原创 Spark SQL(RDD、DataFrame 、DataSet 相互转换)
Spark SQL(RDD、DataFrame 、DataSet 相互转换)一、Spark SQL数据抽象SparkCore的数据抽象:RDDSparkStreaming的数据抽象:DStream,底层是RDDSparkSQL的数据抽象:DataFrame和DataSet,底层是RDD1、DataFrameDataFrame = RDD - 泛型 + Schema约束(指定字段名和类型)+ SQL操作 + 优化DataFrame 就是在RDD的基础之上做了进一步的封装,支持 SQL操作Da
2021-07-06 22:59:00
1023
1
原创 Spark Streaming整合Kafka及示例
Spark Streaming整合Kafka及示例Spark和kafka整合有2中方式 : Receiver 和 Dirct主要学习Dirct方式一、Receiver二、Direct三、代码演示完整pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/X
2021-07-06 09:33:28
395
原创 Spark Streaming及示例
Spark Streaming及示例一、Spark Streaming介绍Spark Streaming是近实时(near real time)的小批处理系统 。Spark Streaming是Spark core API的扩展,支持实时数据流的处理,并且具有可扩展,高吞吐量,容错的特点。 数据可以从许多来源获取,如Kafka,Flume,Kinesis或TCP sockets,并且可以使用复杂的算法进行处理,这些算法使用诸如map,reduce,join和window等高级函数表示。 最后,处理后的数
2021-07-05 10:52:10
1504
1
原创 报java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows错误
报java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows错误解决方法:在C:/Windows/System32 添加文件:hadoop.dll各版本hadoop的 hadoop.dll下载地址:https://github.com/4ttty/winutils如果还不行再配置hadoop的环境变量各版本Hadoop的下载地址:https://archive.apache.org/dist/had
2021-07-04 21:53:15
874
2
原创 Spark内核原理
Spark内核原理一、依赖关系Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系。针对不同的转换函数,RDD之间的依赖关系分类窄依赖(narrow dependency)和宽依赖(wide dependency, 也称 shuffle dependency).1.宽依赖(有shuffle )父RDD的一个分区会被子RDD的多个分区所依赖,子RDD分区通常对应所有的父RDD分区(O(n),与数据规模有关) 。 例如 Gr
2021-07-04 09:00:15
256
原创 Spark函数算子及示例
Spark函数/算子一、集合算子1、没有key的聚合函数sumreducefoldaggregatepackage com.jiang.helloimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object RDD_aggregate_NoKey { def main(args: Array[String]): Unit = { val conf:Spark
2021-07-04 08:54:09
446
原创 Spark Scala读写Mysql
Spark Scala读写Mysql一、写操作在MySQL中 创建 bigdata_test数据库创建 user(id, name, age)表scala代码:package com.jiang.helloimport java.sql.{Connection, PreparedStatement}import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object RDD_Da
2021-07-03 11:46:13
618
原创 Spark环境搭建
Spark环境搭建一、local本地模式1.下载spark压缩包spark-3.0.1-bin-hadoop2.7.tgz。地址: http://archive.apache.org/dist/spark/2.解压并重命名# 解压到指定路径tar -zxvf spark-3.0.1-bin-hadoop2.7.tgz -C /opt/modules/# 重命名mv spark-3.0.1-bin-hadoop2.7 spark-3.0.13.测试二、Standalone-独立集群模式
2021-07-03 11:42:32
933
原创 SpringBoot整合AOP日志记录
SpringBoot整合AOP日志记录一、 指定路径日志切入点项目目录pom文件依赖<dependencies> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</artifactId> <vers
2021-06-26 18:26:46
115
原创 Kafka分布式集群部署
Kafka分布式集群部署1.集群规划在hadoop01、hadoop02和hadoop03三个节点上部署Kafka。我安装的版本是kafka_2.11-2.1.0.tgz,下载地址:http://archive.apache.org/dist/kafka2.解压安装(1)解压Kafka安装包到/opt/modules/目录下# 解压[jiang@hadoop01 software]$ tar -zxvf kafka_2.11-2.1.0.tgz -C /opt/modules/# 重命名[j
2021-05-28 22:41:23
331
原创 Zookeeper分布式集群部署
Zookeeper分布式集群部署1.集群规划在hadoop01、hadoop02和hadoop03三个节点上部署Zookeeper。我安装的版本是apache-zookeeper-3.5.7-bin.tar.gz,下载地址:http://archive.apache.org/dist/zookeeper/2.解压安装(1)解压Zookeeper安装包到/opt/modules/目录下# 解压[jiang@hadoop01 software]$ tar -zxvf apache-zookeeper
2021-05-28 22:39:38
299
原创 Hive安装Tez引擎
Hive安装Tez引擎一、前置准备要先安装好Hadoop(伪分布式或分布式集群)和Hive。简单了解用Hive直接编写MR程序,假设有4个有依赖关系的MR作业,上图中,蓝色代表MapTask,绿色代表ReduceTask,云状表示中间结果持久化到磁盘Tez可以将多个有依赖的作业转换为一个作业(DAG),这样只需要写一次HDFS,且中间节点较少,从而大大提升作业的计算性能二、更换Tez引擎1、下载并解压下载所需版本的 tez 依赖包,这里我下载版本为 apache-tez-0.9.2-bin
2021-05-25 22:57:21
396
原创 Hive安装及配置Mysql元数据库
Hive安装及配置Mysql元数据库一、Hive安装配置1、前置准备安装Hive前要先把Hadoop(伪分布式或集群模式)安装好,因为Hive是依赖于Hadoop运行的2.安装Hive下载所需版本的 Hive , 这里我下载版本为 apache-hive-2.3.0-bin.tar.gz。下载地址: http://archive.apache.org/dist/hive/解压及重命名# 解压到指定目录[jiang@hadoop01 software]$ tar -zxvf apache-hi
2021-05-25 22:47:37
1246
Springboot+Mybatis-plus实现邮箱验证注册
2020-09-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人