大数据
文章平均质量分 68
kingloneye
微信联系方式:kxswx001
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Sqoop导入导出相关问题
Sqoop导出脚本1)编写Sqoop导出脚本在/opt/bin目录下创建脚本sqoop_export.shvim sqoop_export.sh在脚本中填写如下内容#!/bin/bashdb_name=gmallexport_data() {/opt/sqoop/bin/sqoop export \--connect "jdbc:mysql://hadoop001:3306/${db_name}?useUnicode=true&characterEncoding=utf-8"原创 2020-12-11 15:00:55 · 310 阅读 · 0 评论 -
大数据之Sqoop
一、sqoop介绍Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。二、Sqoop原理将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。三、Sqoop安装原创 2020-12-11 14:33:41 · 211 阅读 · 0 评论 -
大数据技术之 Azkaban
1.1 什么是 AzkabanAzkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的 key:value 对的方式,通过配置中的 Dependencies 来设置依赖关系。Azkaban 使用 job 配置文件建立任务之间的依赖关系,并提供一个易于使用的 web 用户界面维护和跟踪你的工作流。1.2 为什么需要工作流调度系统1)一个完整的数据分析系统通常都是由大量任务单元组成:Shell 脚本程序,J原创 2020-12-10 11:41:51 · 259 阅读 · 1 评论 -
hive之collect_set函数和日期处理函数
collect_set函数1)创建原数据表hive (test)>drop table if exists test_collect_set_stud;create table test_collect_set_stud (name string, area string, course string, score int);2)向原数据表中插入数据hive (test)>insert into table test_collect_set_stud values('zhang3原创 2020-12-07 11:49:21 · 642 阅读 · 0 评论 -
hadoop 配置LZO压缩
hadoop 配置LZO压缩1)先下载lzo的jar项目https://github.com/twitter/hadoop-lzo/archive/master.zip2)下载后的文件名是hadoop-lzo-master,它是一个zip格式的压缩包,先进行解压,然后用maven编译。生成hadoop-lzo-0.4.20.jar。3)将编译好后的hadoop-lzo-0.4.20.jar 放入/opt/hadoop/share/hadoop/common/4)同步hadoop-lzo-0.4.原创 2020-12-04 16:57:08 · 217 阅读 · 0 评论 -
shell脚本之zookeeper集群启动停止脚本
1、集群服务器hadoop001,hadoop002,hadoop003一、在hadoop001的/opt目录下新建脚本cp /optvim zk.sh#!/bin/shcase $1 in"start"){ echo "----------启动zookeeper集群----------" for host in hadoop001 hadoop002 hadoop003 do echo "开始启动 $host....." ssh -q $h原创 2020-11-25 15:43:24 · 196 阅读 · 0 评论 -
使用yum 安装CDH版本hue
Hue 其实就是一个可视化平台, 主要用于浏览 HDFS 的文件, 编写和执行 Hive 的 SQL, 以及 Impala 的 SQL,查看数据库中数据等, 而且 Hue 一般就作为 CDH 数据平台的入口, 所以装了 CDH 而不装 Hue 会觉得少了点什么1、Hue 组件安装2、配置 Hue3、启动 HueHue 只在 cdh01 上安装即可Step 1: Hue 组件安装使用 Yum 即可简单安装yum -y install hueStep 2: 配置 HueHue .原创 2020-11-02 18:15:41 · 430 阅读 · 0 评论 -
使用yum 安装CDH版本 Impala
Kudu 没有 SQL 解析引擎, 因为 Cloudera 准备使用 Impala 作为 Kudu 的 SQL 引擎, 所以既然使用Kudu 了, Impala 几乎也是必不可少的, 安装 Impala 之前, 先了解以下 Impala 中有哪些服务服务作用CatalogImpala 的元信息仓库, 但是不同的是这个 Catalog 强依赖 Hive 的 MetaStore, 会从 Hive 处获取元信息StateStoreImpala 的协调节点, 负责异常恢复I.原创 2020-11-02 16:01:05 · 241 阅读 · 1 评论 -
使用yum 安装CDH版本 kudu
安装 Kudu 依然使用我们已经配置好的 Yum 仓库来进行, 整体步骤非常简单, 但是安装上分为 Master 和 Tablet server1、安装 Master server安装软件包配置启动2、安装 Tablet server安装软件包配置启动集群规划节点职责cdh01Master servercdh02Tablet servercdh03Tablet serverStep 1: 安装 Master server 的软件包.原创 2020-11-02 15:31:07 · 251 阅读 · 0 评论 -
使用yum 安装CDH版本 Hive
因为 Hive 需要使用 MySQL 作为元数据库, 所以需要在 MySQL 为 Hive 创建用户, 创建对应的表安装 Hive 软件包在 MySQL 中增加 Hive 用户配置 Hive初始化 Hive 在 MySQL 中的表结构启动 Hive因为我们并不需要 Hive 的 HA, 所以在单机部署 Hive 即可Step 1: 安装 Hive 软件包安装 Hive 依然使用 CDH 的 Yum 仓库yum install -y hive hive-met.原创 2020-10-27 16:15:08 · 422 阅读 · 0 评论 -
Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the
通过yum安装cdh版hive后,启动hive报错:Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path解决方案:在hive的配置文件里加如hadoop的路径即可vim /etc/hive/conf/hive-env.sh export HADOOP_HOME=/usr/lib/hadoop...原创 2020-10-27 15:53:33 · 5252 阅读 · 0 评论 -
使用yum 安装CDH版本 Hadoop
使用yum 安装CDH版本 Hadoop步骤:安装软件包配置 HDFS配置 Yarn 和 MapReduce集群规划主机名职责cdh001Yarn ResourceManager, HDFS NameNode, HDFS SecondaryNamenode, MapReduce HistroyServer, Hadoop Clientscdh002Yarn NodeManager, HDFS DataNodecdh003Yarn NodeManager,原创 2020-10-26 16:50:06 · 750 阅读 · 0 评论 -
使用yum 安装CDH版本 Zookeeper
Step 1: 安装 Zookeeper和以往不同, CDH 版本的 Zookeeper 是经过定制的, 所以可以直接通过 Yum 来安装, 使用刚才所搭建的 Yum 仓库, 在所有节点上执行如下命令yum install -y zookeeper zookeeper-serverCDH 版本的所有工具都会遵循 Linux 的习惯放置 Log 和 Data, 所以需要先创建 Zookeeper 的数据目录, 并且所有者指定给 Zookeeper 所使用的用户, 如下命令在所有节点执行mkd原创 2020-10-23 16:14:03 · 661 阅读 · 0 评论 -
创建本地 Yum 仓库
创建本地 Yum 仓库的目的是因为从远端的 Yum 仓库下载东西的速度实在是太渣, 然而 CDH 的所有组件几乎都要从 Yum 安装, 所以搭建一个本地仓库会加快下载速度1、下载 CDH 的所有安装包2、生成 CDH 的 Yum 仓库3、配置服务器, 在局域网共享仓库Step 1: 下载 CDH 的安装包创建本地 Yum 仓库的原理是将 CDH 的安装包下载下来, 提供 Http 服务给局域网其它主机(或本机), 让其它主机的 Yum 能够通过 Http 服务下载 CDH 的安装包, 所以需要先原创 2020-10-23 14:59:30 · 193 阅读 · 0 评论 -
cdh安装hadoop-2.5.0-cdh5.3.6时出现Unable to load native-hadoop library for your platform解决方法
在执行hadoop命令的时候出现如下错误,不能加载Hadoop库WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable检查发现本地并没有库进入Hadoop下的\lib\native发现是空文件夹http://dl.bintray.com/sequenceiq/sequenceiq-bin/下原创 2020-10-18 23:30:34 · 316 阅读 · 0 评论 -
CDH版本的zookeeper环境搭建
1、下载zookeeper安装包wget http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.7.0.tar.gz2、解压tar -zxvf zookeeper-3.4.5-cdh5.7.0.tar.gz 3、配置环境变量:vim /etc/profile# set zk envexport ZK_HOME=/opt/zookeeper-3.4.5-cdh5.7.0export PATH=${ZK_HOME}/bin:$原创 2020-10-18 16:37:58 · 326 阅读 · 0 评论 -
Specified key was too long; max key length is 767 bytes。
问题:spark sql连接hive的元数据(mysql库)时报错:Specified key was too long; max key length is 767 bytes。解决:其实是mysql数据字符集问题,只要修改mysql中hive元数据库的字符集便可,即alter database dbname character set latin1;可是设置后启动时仍然报错,启动命令如下:./spark-shell --master local[2] --jars ~/software/mys原创 2020-09-12 17:15:15 · 262 阅读 · 0 评论 -
(Hive与HBase集成)hive读取分析hbase表的数据
需求:在hbase上已经有数据了,我们需要将数据放到hive中进行分析处理1、启动环境a.启动hadoop集群sbin/start-all.shb.启动zookeeper集群zkServer.sh startc.启动hbasecd hbasebin/start-hbase.sh./hbase shelllist -- 查看表d.启动hivecd /opt/hive/bin./hive2、新建hbase表 classes:create 'classes','user'原创 2020-07-12 01:37:49 · 1039 阅读 · 0 评论 -
Spark 操作hive实战练习
一、最终需求:预测,在test里面的用户,下一个订单会购买哪些商品比如:user3,已经有了5月5号的订单(不公开)来评测模型的我们有的是5月4号之前的历史数据我们需要预测,通过历史(5月4号之前订单数据),预测这个用户5月5号买了什么1、数据准备:a、在hive中创建orders订单外部表b、在hive中创建products商品外部表c、在hive中创建priors(order_products__prior)订单商品关联外部表查看hadoop上文件前几行数据hadoop fs -ca原创 2020-07-10 10:54:45 · 613 阅读 · 0 评论 -
Storm 简介
一、Storm 简介Storm 是 Apache 旗下免费开源的分布式实时计算框架。Storm可以轻松、可靠地处理无限 数据流,对实时分析、在线机器学习、连续计算、分布式RPC,ETL等提供高效、可靠的支 持。二、什么是分布式计算分布式计算,将一个任务分解为多个任务,分发给多台计算机,节约整体计算时间。注:集中式计算,与分布式相对,一个任务一台计算机负责,多个任务多个计算机,不节约整 体计算时间。三、Storm 分布式实时计算框架的要点① 开源,遵循Apache理念,项目创立便是开源② 流式计原创 2020-07-07 17:10:41 · 1598 阅读 · 0 评论 -
Flink简介与安装
一、Flink介绍Apache Flink是一个计算框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎,Flink提供了诸多更高抽象层的API以便用户编写分布式任务:DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集,用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理,支持Java、Scala和Python。DataStream API,对数据流进行流处理原创 2020-07-07 14:38:56 · 228 阅读 · 0 评论 -
(实战)基于Spark Streaming & Flume & Kafka & HBase模拟实时流处理
基于Spark Streaming & Flume & Kafka & HBase模拟实时流处理1、所需技术及版本1、虚拟机3台2、Jdk1.83、python-3.7.24、spark-2.2.15、kafka_2.12-2.4.06、zookeeper-3.4.147、hadoop-2.6.18、apache-flume-1.9.09、hbase-1.2.62、使用python日志生成器生成日志,并通过定时调度工具每分钟产生数据a、python日志生成代码原创 2020-07-04 18:27:05 · 769 阅读 · 0 评论 -
基于Spark Streaming & Flume & Kafka打造通用流处理基础
思路:1、整合日志输出到Flume2、整合Flume到Kafka3、整合Kafka到Spark Streaming4、Spark Streaming对接收到的数据进行处理首先服务器集群中将日志信息通过固定的主机名和端口号,对接到Flume中的Source,然后Flume将chanel中的数据按批次sink到Kafka中,即充当Kafka中的生产者,然后,kafka把生产的数据放入到broker list中,而再将Kafka与Spark Streaming 进行对接,即让Spark Streami原创 2020-06-23 15:29:25 · 249 阅读 · 0 评论 -
Spark Streaming整合Kafka的两种方式
Spark Streaming整合Kafka,两种整合方式:Receiver-based和Direct方式一:Kafka准备1、分别启动zookeeper./zkServer.sh start2、分别启动kafka./kafka-server-start.sh -daemon ../config/server.properties //后台启动3、创建topic./kafka-topics.sh --create --zookeeper hadoop:2181 --replication-原创 2020-06-22 18:22:12 · 448 阅读 · 0 评论 -
Spark Streaming整合Flume的两种方式
Spark Streaming整合Flume的两种方式整合方式一:基于推1、flume和spark一个work节点要在同一台机器上,flume会在本机器上通过配置的端口推送数据2、streaming应用必须先启动,receive必须要先监听推送数据的端口后,flume才能推送数据a、pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-inst原创 2020-06-18 23:19:56 · 299 阅读 · 0 评论 -
Spark Streaming整合Spark SQL完成词频统计操作
package com.kinglone.streamingimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.{Seconds, StreamingContext, Time}/** * Spark Streaming整合Spark SQL完成词频统计操作 */原创 2020-06-15 23:35:56 · 338 阅读 · 0 评论 -
使用Spark Streaming黑名单过滤
需求:有日志例如:20200615,zs20200615,ls20200615,ww有黑名单:zsls思路:a、将日志转换成 (zs:20200615,zs)(ls:20200615,ls)(ww:20200615,ww)b、将黑名单转成 (zs:true)(ls:true)c、leftjoinpackage com.kinglone.streamingimport org.apache.spark.SparkConfimport org.apache.spark.stream原创 2020-06-15 23:28:55 · 602 阅读 · 0 评论 -
使用Spark Streaming完成词频统计,并将结果写入到MySQL数据库中
package com.kinglone.streamingimport java.sql.DriverManagerimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * 使用Spark Streaming完成词频统计,并将结果写入到MySQL数据库中 */object ForeachRDDApp { def main(args: A原创 2020-06-15 23:12:02 · 893 阅读 · 0 评论 -
Spark Streaming处理文件系统 统计WordCount
一、pom文件见 Spark Streaming处理Socket数据 统计WordCount二、代码package com.kinglone.streamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Spark Streaming处理文件系统 * */object FileWordCount { def main(a原创 2020-06-14 23:35:20 · 252 阅读 · 0 评论 -
Spark Streaming处理Socket数据 统计WordCount
一、pom.xml <properties> <scala.version>2.11.8</scala.version> <spark.version>2.1.0</spark.version> </properties><dependency> <groupId>org.scala-lang</groupId> <artifactId>sc原创 2020-06-14 23:32:09 · 339 阅读 · 0 评论 -
Flume应用案例之整合Flume 和 kafka完成实时数据采集
一、需求:整合Flume 和 kafka完成实时数据采集说明:如下图机器Agent1对应本人hadoop01虚拟机,机器Agent2对应本人hadoop02虚拟机1、机器Agent1监控日志文件,向机器Agent1中输入数据2、avro sink把新产生的日志输出到对应的avro source 指定的hostname 和port上3、通过avro source对应的agent2将日志输出到kafka(生产者)4、由kafka consumer(消费者输出数据)二、技术选型:1、jdk1.原创 2020-06-14 16:01:18 · 464 阅读 · 0 评论 -
Flume应用案例之两台服务器之间进行实时数据采集
需求:将A服务器上的日志实时采集到B服务器说明:如下图机器A对应本人hadoop01虚拟机,机器B对应本人hadoop02虚拟机机器A监控日志文件,向机器A中输入数据,avro sink把新产生的日志输出到对应的avro source 指定的hostname 和port上,通过avro source对应的agent将日志输出到控制台(kafka)技术选型:exec source + memory channel + avro sink (配置在机器A/hadoop01上)avro sour原创 2020-06-13 18:23:26 · 732 阅读 · 0 评论 -
Flume监控一个文件实时采集新增的数据输出到控制台
1、 配置Flume 文件Agent选型: exec source + memory channel + logger sinkvim exec-memory-logger.conf#定义这个agent中各组件的名字a1.sources = r1a1.sinks = k1a1.channels = c1#描述和配置source组件:r1a1.sources.r1.type = execa1.sources.r1.command = tail -f /opt/bigdatas/flume原创 2020-06-13 16:18:01 · 1822 阅读 · 0 评论 -
Flume安装部署
1、下载Flume官网本人安装环境:jdk1.8apache-flume-1.9.0-bin.tar.gz2、解压安装包并设置环境变量cd /opttar -zxvf apache-flume-1.9.0-bin.tar.gzvim /etc/profile#flumeexport FLUME_HOME=/opt/apache-flume-1.9.0-binexport PATH=$FLUME_HOME/bin:$PATHsource /etc/profileecho $FLU原创 2020-06-13 15:49:02 · 151 阅读 · 0 评论 -
【大数据spark SQL项目实战】日志分析(十):topN统计作业运行到YARN上
1、修改代码并打包package com.kinglone.logimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.functions._import org.apache.spark.sql.{DataFrame, SparkSession}import scala.collection.mutable.ListBuffer/** * TopN统计Spark作业:运行在YARN之上 */原创 2020-06-12 17:45:04 · 350 阅读 · 0 评论 -
【大数据spark SQL项目实战】日志分析(九):数据清洗作业运行到YARN上
1、打包修改代码:package com.kinglone.logimport org.apache.spark.sql.{SaveMode, SparkSession}/** * 使用Spark完成我们的数据清洗操作:运行在YARN之上 */object SparkStatCleanJobYARN { def main(args: Array[String]) { if(args.length !=2) { println("Usage: SparkStatC原创 2020-06-12 17:07:29 · 393 阅读 · 0 评论 -
【大数据spark SQL项目实战】日志分析(八):使用Echarts饼图动态展示主站最受欢迎的TopN课程
代码:使用Echarts饼图动态展示主站最受欢迎的TopN课程Echarts官网将大数据分析的数据存到mysql后,从mysql里读取数据在Echarts饼状图展示,效果:原创 2020-06-12 09:47:36 · 563 阅读 · 1 评论 -
【大数据spark SQL项目实战】日志分析(七):按流量统计最受欢迎的Top N的课程并写入mysql
1.按流量统计最受欢迎的Top N的课程package com.kinglone.logimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.{DataFrame, SparkSession}import org.apache.spark.sql.functions._import scala.collection.mutable.ListBuffer/** * TopN统计Spark作业原创 2020-06-11 11:57:11 · 434 阅读 · 0 评论 -
【大数据spark SQL项目实战】日志分析(六):按地市统计主站最受欢迎的Top N的课程并写入mysql
接 将清洗的数据存储到目标地址1.按地市统计最受欢迎的TOP3的课程package com.kinglone.logimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.{DataFrame, SparkSession}import org.apache.spark.sql.functions._import scala.collection.mutable.ListBuffer/** *原创 2020-06-11 11:07:39 · 303 阅读 · 0 评论 -
【大数据spark SQL项目实战】日志分析(五):统计最受欢迎的TopN课程并写入mysql
1、统计最受欢迎的TopN课程a : 使用DataFrame的方式进行统计b : 使用SQL的方式进行统计根据结果显示,两次统计的结果一致2、新建数据库(bigdata),并创建表(day_video_access_topn_stat)create table day_video_access_topn_stat(day varchar(8) not null,cms_id bigint(10) not null,times bigint(10) not null,primary key原创 2020-06-07 23:25:41 · 447 阅读 · 0 评论
分享