
大数据
文章平均质量分 70
Joker_Jiang3
码畜
展开
-
Maxwell实时同步MySQL数据到Kafka
Maxwell实时同步MySQL数据到Kafka原创 2023-03-13 22:35:03 · 1363 阅读 · 0 评论 -
Hbase分布式集群安装
Hbase分布式集群安装原创 2023-01-07 15:02:03 · 617 阅读 · 0 评论 -
Flink部署之Yarn
Flink部署之Yarn原创 2022-11-25 21:09:00 · 5590 阅读 · 0 评论 -
Hive优化
Hive优化一、大表Join大表1、空KEY过滤有时 join 超时是因为某些 key 对应的数据太多,而相同 key 对应的数据都会发送到相同 的 reducer 上,从而导致内存不够。此时我们应该仔细分析这些异常的 key,很多情况下, 这些 key 对应的数据是异常数据,我们需要在 SQL 语句中进行过滤。例如 key 对应的字段为 空,操作如下:创建原始数据空 id 表// 创建空 id 表create table nullidtable(id bigint, t bigint, uid原创 2021-07-23 00:02:04 · 225 阅读 · 0 评论 -
Hive详解及常用操作命令
Hive常用操作命令一、 基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型,true或者falseTRUE FALSEFLOATfloat单精度浮点数3.14159DOUBLEdouble双精原创 2021-07-23 00:00:46 · 2780 阅读 · 4 评论 -
Hive Load数据进分桶表报错
Hive Load数据进分桶表报错一、报错如下:hive (test)> load data local inpath '/opt/modules/testdata/hive/bigtable' into table bigtable_buck2;FAILED: SemanticException Please load into an intermediate table and use 'insert... select' to allow Hive to enforce bucketin原创 2021-07-22 23:56:12 · 1230 阅读 · 0 评论 -
Hive数据压缩和存储
Hive数据压缩和存储一、Hadoop压缩配置1、MR支持的压缩编码压缩格式算法文件扩展名是否可切分DEFLATEDEFLATE.deflate否GzipDEFLATE.gz否bzip2bzip2.bz2是LZOLZO.lzo是SnappySnappy.snappy否为了支持多种压缩/解压缩算法,Hadoop 引入了编码/解码器,如下表所示:压缩格式对应的编码/解码器DEFLATEorg.apa原创 2021-07-22 23:54:23 · 491 阅读 · 0 评论 -
hive练习
Hive练习部门信息表create table if not exists dept(deptno int,dname string, loc int)row format delimited fields terminated by ',';员工信息表create table if not exists emp(empno int,ename string,job string,mgr int,hiredate string,sal double,comm double,原创 2021-07-22 23:48:44 · 1598 阅读 · 3 评论 -
ElasticSearch入门详解
ElasticSearch入门详解一、简介Elasticsearch是一个开源的分布式、RESTful 风格的搜索和数据分析引擎,它的底层是开源库Apache Lucene。Lucene 可以说是当下最先进、高性能、全功能的搜索引擎库——无论是开源还是私有 。为了解决Lucene使用时的繁复性,于是Elasticsearch便应运而生。它使用 Java 编写,内部采用 Lucene 做索引与搜索,但是它的目标是使全文检索变得更简单,简单来说,就是对Lucene 做了一层封装,它提供了一套简单一致的原创 2021-07-20 19:54:21 · 281 阅读 · 0 评论 -
Zookeeper及其分布式锁
Zookeeper及其分布式锁一、ZooKeeper 数据模型 znode 结构详解在 zookeeper 中,可以说 zookeeper 中的所有存储的数据是由 znode 组成的,节点也称为 znode,并以 key/value 形式存储数据。整体结构类似于 linux 文件系统的模式以树形结构存储。其中根路径以 / 开头。二、Zookeeper session 基本原理客户端与服务端之间的连接是基于 TCP 长连接,client 端连接 server 端默认的 2181 端口,也就是 se原创 2021-07-17 22:41:37 · 348 阅读 · 5 评论 -
Structured Streaming整合Kafka实时统计
Structured Streaming整合Kafka实时统计一、实时ETL启动Zookeeper和kafka# 启动zookeeperbin/zkServer.sh start# 启动kafkabin/kafka-server-start.sh -daemon config/server.properties创建主题bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --part原创 2021-07-12 12:18:40 · 723 阅读 · 3 评论 -
Spark 的 StructedStreaming
Spark 的 StructedStreaming一、Spark Streaming的不足1、基于微批,延迟高,不能做真正的实时2、DStream基于RDD,不直接支持SQL3、流批处理的API应用层不统一(流用的DStream–底层是RDD,批的用DF/DS/RDD)4、不支持EventTime事件时间注EventTime事件时间:事件真正发生的时间PorcessingTime处理时间:事件被流系统处理的时间IngestionTime摄入时间:事件到达流系统的时间如:一条错误日志10原创 2021-07-09 17:11:44 · 771 阅读 · 0 评论 -
SparkSQL 整合Hive
SparkSQL 整合Hive一、SparkSQL命令行界面整合Hive1、先启动Hive的metastore安装hive的目录下执行:bin/hive --server metastore &2、把hive的配置文件hive-site.xml拷贝到spark的conf3、启动spark bin目录下 的spark-sql命令4、执行sql语句二、SparkSQL代码整合Hive完整的pom依赖:<?xml version="1.0" encoding="UTF-8"?&原创 2021-07-08 10:07:40 · 315 阅读 · 0 评论 -
SparkSQL自定义函数
SparkSQL自定义函数一、SparkSQL自定义函数1、使用SparkSQL-UDF将数据转为大写package com.jiang.sparksqlimport org.apache.spark.SparkContextimport org.apache.spark.sql.expressions.UserDefinedFunctionimport org.apache.spark.sql.{DataFrame, Dataset, SparkSession}/* * @param原创 2021-07-08 10:05:49 · 272 阅读 · 0 评论 -
Spark SQL花式查询
Spark SQL花式查询一、Spark SQL花式查询1、需求:针对personDF中的数据使用SQL和DSL两种方式进行各种查询scala代码:package com.jiang.sparksqlimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SparkSession}/* * @param null** @原创 2021-07-07 09:56:15 · 523 阅读 · 0 评论 -
Spark SQL(RDD、DataFrame 、DataSet 相互转换)
Spark SQL(RDD、DataFrame 、DataSet 相互转换)一、Spark SQL数据抽象SparkCore的数据抽象:RDDSparkStreaming的数据抽象:DStream,底层是RDDSparkSQL的数据抽象:DataFrame和DataSet,底层是RDD1、DataFrameDataFrame = RDD - 泛型 + Schema约束(指定字段名和类型)+ SQL操作 + 优化DataFrame 就是在RDD的基础之上做了进一步的封装,支持 SQL操作Da原创 2021-07-06 22:59:00 · 1027 阅读 · 1 评论 -
Spark Streaming整合Kafka及示例
Spark Streaming整合Kafka及示例Spark和kafka整合有2中方式 : Receiver 和 Dirct主要学习Dirct方式一、Receiver二、Direct三、代码演示完整pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/X原创 2021-07-06 09:33:28 · 400 阅读 · 0 评论 -
Spark Streaming及示例
Spark Streaming及示例一、Spark Streaming介绍Spark Streaming是近实时(near real time)的小批处理系统 。Spark Streaming是Spark core API的扩展,支持实时数据流的处理,并且具有可扩展,高吞吐量,容错的特点。 数据可以从许多来源获取,如Kafka,Flume,Kinesis或TCP sockets,并且可以使用复杂的算法进行处理,这些算法使用诸如map,reduce,join和window等高级函数表示。 最后,处理后的数原创 2021-07-05 10:52:10 · 1523 阅读 · 1 评论 -
Spark内核原理
Spark内核原理一、依赖关系Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系。针对不同的转换函数,RDD之间的依赖关系分类窄依赖(narrow dependency)和宽依赖(wide dependency, 也称 shuffle dependency).1.宽依赖(有shuffle )父RDD的一个分区会被子RDD的多个分区所依赖,子RDD分区通常对应所有的父RDD分区(O(n),与数据规模有关) 。 例如 Gr原创 2021-07-04 09:00:15 · 258 阅读 · 0 评论 -
Spark函数算子及示例
Spark函数/算子一、集合算子1、没有key的聚合函数sumreducefoldaggregatepackage com.jiang.helloimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object RDD_aggregate_NoKey { def main(args: Array[String]): Unit = { val conf:Spark原创 2021-07-04 08:54:09 · 450 阅读 · 0 评论 -
Spark Scala读写Mysql
Spark Scala读写Mysql一、写操作在MySQL中 创建 bigdata_test数据库创建 user(id, name, age)表scala代码:package com.jiang.helloimport java.sql.{Connection, PreparedStatement}import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object RDD_Da原创 2021-07-03 11:46:13 · 622 阅读 · 0 评论 -
Spark环境搭建
Spark环境搭建一、local本地模式1.下载spark压缩包spark-3.0.1-bin-hadoop2.7.tgz。地址: http://archive.apache.org/dist/spark/2.解压并重命名# 解压到指定路径tar -zxvf spark-3.0.1-bin-hadoop2.7.tgz -C /opt/modules/# 重命名mv spark-3.0.1-bin-hadoop2.7 spark-3.0.13.测试二、Standalone-独立集群模式原创 2021-07-03 11:42:32 · 937 阅读 · 0 评论 -
Kafka分布式集群部署
Kafka分布式集群部署1.集群规划在hadoop01、hadoop02和hadoop03三个节点上部署Kafka。我安装的版本是kafka_2.11-2.1.0.tgz,下载地址:http://archive.apache.org/dist/kafka2.解压安装(1)解压Kafka安装包到/opt/modules/目录下# 解压[jiang@hadoop01 software]$ tar -zxvf kafka_2.11-2.1.0.tgz -C /opt/modules/# 重命名[j原创 2021-05-28 22:41:23 · 337 阅读 · 0 评论 -
Zookeeper分布式集群部署
Zookeeper分布式集群部署1.集群规划在hadoop01、hadoop02和hadoop03三个节点上部署Zookeeper。我安装的版本是apache-zookeeper-3.5.7-bin.tar.gz,下载地址:http://archive.apache.org/dist/zookeeper/2.解压安装(1)解压Zookeeper安装包到/opt/modules/目录下# 解压[jiang@hadoop01 software]$ tar -zxvf apache-zookeeper原创 2021-05-28 22:39:38 · 304 阅读 · 0 评论 -
Hive安装Tez引擎
Hive安装Tez引擎一、前置准备要先安装好Hadoop(伪分布式或分布式集群)和Hive。简单了解用Hive直接编写MR程序,假设有4个有依赖关系的MR作业,上图中,蓝色代表MapTask,绿色代表ReduceTask,云状表示中间结果持久化到磁盘Tez可以将多个有依赖的作业转换为一个作业(DAG),这样只需要写一次HDFS,且中间节点较少,从而大大提升作业的计算性能二、更换Tez引擎1、下载并解压下载所需版本的 tez 依赖包,这里我下载版本为 apache-tez-0.9.2-bin原创 2021-05-25 22:57:21 · 403 阅读 · 0 评论 -
Hive安装及配置Mysql元数据库
Hive安装及配置Mysql元数据库一、Hive安装配置1、前置准备安装Hive前要先把Hadoop(伪分布式或集群模式)安装好,因为Hive是依赖于Hadoop运行的2.安装Hive下载所需版本的 Hive , 这里我下载版本为 apache-hive-2.3.0-bin.tar.gz。下载地址: http://archive.apache.org/dist/hive/解压及重命名# 解压到指定目录[jiang@hadoop01 software]$ tar -zxvf apache-hi原创 2021-05-25 22:47:37 · 1253 阅读 · 0 评论 -
hive自定义函数
hive自定义函数一、自定义UDF函数0、需求:自定义一个 UDF 实现计算给定字符串的长度,例如:hive(default)> select my_len("abcd"); 41、创建一个Maven工程导入依赖:<dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId>原创 2021-05-12 22:17:48 · 181 阅读 · 0 评论 -
Hive常用函数
Hive常用函数1、常用日期函数unix_timestamp ()::返回当前或指定日期的时间戳select unix_timestamp(); # 返回当前时间戳select unix_timestamp('2021-05-10','yy-MM-dd'); # 返回指定日期的时间戳from_unixtime():将日期转为时间戳select from_unixtime(1620604800); # 默认有时分秒#结果:2021-05-10 00:00:00select from_unix原创 2021-05-12 22:01:05 · 305 阅读 · 0 评论 -
Flink批处理之WordCount
Flink批处理之WordCount一.在Flink入门之WordCount的基础上创建工程BatchWordCount二.在FlinkDemo目录下创建data文件存放批处理的数据batchfile为text格式文件三.工程源码package com.smxy.flinkdemoimport org.apache.flink.api.scala._object BatchWordCount { def main(args: Array[String]): Unit = {//原创 2020-08-20 14:22:27 · 252 阅读 · 0 评论 -
Flink入门之WordCount(Scala语言)
Flink入门之WordCount(Scala语言)流式处理一.创建一个Maven工程1.pom.xml文件依赖<dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifactId> <vers原创 2020-08-18 23:09:19 · 802 阅读 · 0 评论 -
Flume详解
Flume详解 百度收集整理的Flume详解一.概述Flume是由cloudera软件公司产出的可分布式日志收集系统,在2009年捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出,特别是flume-ng;同时flume内部的各种组件不断丰富,用户在开发的过程中使用的便利性得到很大的改善,现已成为apache top项目之一.二.特点Flume 提供的日志收集系统,具有分布式、高可靠、高可用性等特原创 2020-08-15 16:11:10 · 333 阅读 · 0 评论 -
Hadoop分布式集群搭建
Hadoop分布式集群搭建一.分布式环境搭建之环境介绍之前的博客我已经介绍了如何在单机上搭建伪分布式的Hadoop环境,而在实际情况中,肯定都是多机器多节点的分布式集群环境,所以本文将简单介绍一下如何在多台机器上搭建Hadoop的分布式环境。我这里准备了三台虚拟机作为服务器,IP地址配置如下:192.168.150.10192.168.150.11192.168.150.122.修改三台服务器主机名为hadoop01、hadoop02、hadoop03vim /etc/hostnam原创 2020-08-13 21:04:35 · 243 阅读 · 0 评论 -
Flume安装及配置
Flume安装及配置1.安装下载地址:Flume下载连接解压到/usr/local目录下,并重命名为flume。(我的版本为1.9)2. 配置环境变量export FLUME_HOME=/usr/local/flumeexport PATH=$PATH:$FLUME_HOME/bin使环境生效 source ~/.bashrc验证版本3. 配置flume-env.sh文件的JDK路径在flume的conf目录下,复制配置文件cp flume-env.sh.template flu原创 2020-08-11 21:37:13 · 2944 阅读 · 0 评论 -
Hadoop伪分布式安装
Hadoop伪分布式安装一.配置虚拟机静态IP安装好虚拟后在菜单栏选择编辑→ 虚拟网络编辑器,打开虚拟网络编辑器对话框,选择Vmnet8 Net网络连接方式,随意设置子网IP,点击NAT设置页面,查看子网掩码和网关,后面修改静态IP会用到。检查宿主机VM8 网卡设置,打开网络和共享中心→ 更改适配器设置→,在VMware Network Adapter VMnet8上单击右键,选择属性按钮打开属性对话框。3.虚拟机配置vim /etc/sysconfig/network-sc原创 2020-08-11 20:38:54 · 553 阅读 · 0 评论 -
log4j+flume+hdfs
log4j+flume+hdfs日志简单采集存储flume+hdfs这篇博客有说一.Flume配置文件1.在flume目录下的test文件中,创建配置文件vim logdemo.conf内容为a1.sources=source1a1.channels=channel1a1.sinks=sink1a1.sources.source1.type=avroa1.sources.source1.bind=0.0.0.0a1.sources.source1.port=44444a1.s原创 2020-08-08 16:20:34 · 260 阅读 · 0 评论 -
Flume采集文件到HDFS
Flume采集文件到HDFS 在flume和Hadoop安装好的情况下1.遇到的坑在安装Hadoop时,配置 core-site.xml 文件一定要注意。<property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value></property>上述的value值使用的是主机名称(master)或者IP地址原创 2020-08-08 15:47:56 · 732 阅读 · 0 评论 -
简单spring boot+log4j+flume+kafka的日志实现
简单spring boot+log4j+flume+kafka的日志实现 在安装好zookeeper、Kafka、flume的情况下1.springboot的pom.xml导入依赖 <dependency> <groupId>org.apache.flume.flume-ng-clients</groupId> <artifactId>flume-ng-log4jappender</ar原创 2020-08-08 15:41:13 · 688 阅读 · 0 评论