- 博客(49)
- 收藏
- 关注
原创 spark处理较复杂的log日志文件
1593136280858|{"cm":{"ln":"-55.0","sv":"V2.9.6","os":"8.0.4","g":"C6816QZ0@gmail.com","mid":"489","nw":"3G","l":"es","vc":"4","hw":"640*960","ar":"MX","uid":"489","t":"1593123253541","la":"5.2","md":"sumsung-18","vn":"1.3.4","ba":"Sumsung","sr":"I"},"ap":
2020-10-20 17:21:00
594
原创 dataframe的一些操作及用法:
DataFrame 的函数Action 操作1、 collect() ,返回值是一个数组,返回dataframe集合所有的行2、 collectAsList() 返回值是一个java类型的数组,返回dataframe集合所有的行3、 count() 返回一个number类型的,返回dataframe集合的行数4、 describe(cols: String*) 返回一个通过数学计算的类表值(count, mean, stddev, min, and max),这个可以传多个参数,中间用逗号分隔,如
2020-09-17 17:38:12
3080
原创 数仓例子基本流程
数据源 .csv .txt … mysql oraclesqoop (数据迁移) mysql =》hdfs 全量,增量flume(数据迁移)文件 =》 console(控制台),kafka, hdfs数据仓库(hdfs)user_friends_rawuser_friends=>flume > kafka(user_friends_raw) >kafkaSteaming>kafka(user_friends)> hbase > hive 外表>
2020-09-09 15:01:25
267
原创 streaming从kafka中读数据
package test01import org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{InputDStream, ReceiverInputDStream}import org.apache.spark.streaming.flume.{FlumeUtils,
2020-09-09 15:00:46
219
原创 Flume kafka 简洁快速安装
Flume下载flume1.81:将下载的flume包,解压到/opt目录中cd /opttar -zxvf apache-flume-1.8.0-bin.tar.gz -C /optmv apache-flume-1.8.0-bin flume2:修改conf下的 flume-env.sh 配置文件,主要是JAVA_HOME变量设置cp复制flume-env.sh.template为flume-env.shexport JAVA_HOME=/opt/jdk3)验证是否安装成功./bin
2020-09-09 14:59:14
195
原创 flume 导入kafka中报错 但是topic中依然有数据
2020-09-07 18:50:43,825 (pool-3-thread-1) [ERROR - org.apache.flume.source.SpoolDirectorySource$SpoolDirectoryRunnable.run(SpoolDirectorySource.java:280)] FATAL: Spool Directory source eventsSource: { spoolDir: /opt/kb07file/flumeFile/events/ }: Uncaught e
2020-09-07 19:03:24
312
原创 建立简单的数据仓库一
一 数据的获取来源 我们这里直接从数据库中获取在mysql生成数据给定source sql数据结构如下我们数仓的分层分层 :ods-ded-dws-dmdw(dwd,dwds)将dw层拆成了dwd,dwdsdwd(data warehouse detail):数据明细层dws:数据服务层(轻度的汇总,dws层一般都是跨表的)dm(data market):数据集市层(高度汇总)二使用sqoop导入 按实际条件情况导入全量导入:snbap_ods.ods user全量导入:snb
2020-09-06 00:08:39
308
原创 sqoop 基本命令 及例子
全量抽取customer表sqoop import \--connect jdbc:mysql://localhost:3306/sales_source \--driver com.mysql.jdbc.Driver \--username root \--password ok \--table customer \--hive-import \--hive-table sales_rds.customer \--hive-overwrite \--target-dir tmp \
2020-09-05 23:57:34
203
原创 我的shell脚本学习 请自己记得更新
脚本一: ods_full_load.sh (第二天起,每日执行一次)sqoop job --exec bap_usersqoop job --exec bap_user_extendsqoop job --exec bap_user_addrsqoop job --exec bap_biz_trade#定时执行crontab -exec0 2 * * * /root/ods_full_load.sh* * * * *分 时 日 月 周...
2020-09-05 23:55:41
119
原创 数仓笔记 mysql sqoop hive
在mysql中生成数据source /root/snbap_ods.sql;Hive 分层: ODS->DWD->DWS->DM将DW层拆成了DWD,DWDSDWD(data warehouse detail): 数据明细层DWS(data warehouse service): 数据服务层(轻度的汇总,DWS层一般是跨表的)DM(data market):数据集市层(高度汇总)全量导入: snbap_ods.ods_user全量导入: snbap_ods.ods_user
2020-09-05 23:54:31
151
原创 数据仓库分层
数据仓库分层1、分层结构数仓传统上分层基本都是三层,源数据层(ODS 层)、数据仓库层(DW 层)、数据集市层(DM 层)。而我们这个项目中将数据仓库层进而划分了两个层数据明细层(DWD 层)和数据服务层(DWS 层)。即该项目中一共划分为 4 层 ODS 层、DWD 层、DWS 层、DM 层我们采用维度建模,考虑到三范式同时为了方便逻辑计算,可以打破三范式限制。源数据信息在 ODS 层,事实表和维度表存储在 DWD 层、轻量聚合的结果表存储在 DWS 层,高度聚合的结果表(即我们的需求)
2020-09-03 19:03:44
377
原创 Spark Streaming整合Flume
poll方式:package test01import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.ReceiverInputDStreamimport org.apache.spark.streaming.flume.{FlumeUtils, SparkFlumeEvent}import org.apache.spark.streaming.{Seconds, StreamingContext}ob
2020-08-23 22:36:24
220
原创 Spark Streaming 简单实例一统计hdfs文件单词
使用Spark Streaming统计hdfs文件单词代码package test01import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}import test01.Demo01.sscobject HDFSInputStreamDemo extends Ap
2020-08-23 22:16:12
205
原创 SparkStream 读取kafka 做消费者读取kafka生产者传的数据
代码如下package steamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}object Stre
2020-08-19 19:46:49
453
原创 flume通过双channels 和双 sinks 分别 传输数据到kafka和hdfs
以train.csv 为例 .conf文件如下train.sources = trainSourcetrain.channels = kafkaChannel hdfsChanneltrain.sinks = kafkaSink hdfsSinktrain.sources.trainSource.type = spooldirtrain.sources.trainSource.spoolDir = /opt/kb07file/flumeFile/traintrain.source
2020-08-19 19:12:59
269
原创 使用flume 读取数据 sink到kafka中 消费者读出
用flume 读取users.csv 传出到kafka读取 .conf 文件如下users.sources=usersSourceusers.channels =usersChannelusers.sinks =usersSinkusers.sources.usersSource.type = spooldirusers.sources.usersSource.spoolDir=/opt/kb07file/flumeFile/usersusers.sources.usersSo
2020-08-19 19:04:11
359
原创 kafka 启动 创建 查看笔记
kafka-2.11-2.0.0[root@lijia1 config]# vi ./server.propertiesbroker.id=0advertised.listeners=PLAINTEXT://192.168.153.141:9092log.dirs=/opt/bigdata/kafka211/kafka-logszookeeper.connect=192.168.153.141:2181delete.topic.enable=true// 配置环境变量export KAFK
2020-08-19 18:30:18
301
原创 flume Java自定义过滤器 的 定义与使用
过滤器Java代码:import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.interceptor.Interceptor;import java.util.ArrayList;import java.util.List;import java.util.Map;public class InterceptorDemo implements Interceptor {
2020-08-17 17:31:16
299
原创 flume 监控文件夹的.conf文件
taildir.confa1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = TAILDIRa1.sources.r1.filegroups=f1 f2a1.sources.r1.filegroups.f1=/root/data/tail_1/example.loga1.sources.r1.filegroups.f2=/root/data/tail_2/.*log.*a1.sources.r1.position
2020-08-17 15:07:56
398
原创 flume 命令行从本地读取输出csv文件
logger输出csv文件events.confevents.sources =eventsSourceevents.channels =eventsChannelevents.sinks= eventsSinkevents.sinks.eventsSink.type= loggerevents.sources.eventsSource.type =spooldirevents.sources.eventsSource.spoolDir = /opt/kb07file/flumeFile/
2020-08-17 15:02:36
842
原创 flume file到hdfs
user_friends.sources = userFriendsSourceuser_friends.channels = userFriendsChanneluser_friends.sinks = userFriendsSinkuser_friends.sources.userFriendsSource.type = spooldiruser_friends.sources.userFriendsSource.spoolDir = /opt/kb07file/flumeFile/user_
2020-08-17 14:57:20
146
转载 Spark:常用算子总结大全
park的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类:1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。2)Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业。 Action 算子会触发 Spark 提交作业(Job),并将
2020-08-11 19:19:09
1789
原创 Anaconda3安装以及Jupyter和pyspark集成 ---centos7中安装python3
centos7中安装python31.安装相应的编译工具在root用户下(不要用普通用户,麻烦),全部复制粘贴过去,一次性安装即可.yum -y groupinstall "Development tools"yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel
2020-08-10 18:22:00
391
原创 spark 在maven 打包 到linux环境下运行
1maven打包的xml文件 <build> <sourceDirectory>src/main/scala</sourceDirectory> <!--<testSourceDirectory>src/test/scala</testSourceDirectory>--> <plugins> <plugin> <groupId>net.alch
2020-08-06 15:16:28
461
原创 hdfs学习路程—
配置好hadoop环境后的第一个demomkdir inputcp etc/hadoop/*.xml inputbin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.14.2.jar grep /input /output ‘dfs[a-z.]+’hdfs dfs -cat /output/part-r-00000在网页中:
2020-07-23 14:15:03
113
原创 Sqoop 数据迁移
Sqoop是一个用于在Hadoop和关系数据库之间传输数据的工具将数据从RDBMS导入到HadoopHDFS、Hive、HBase从Hadoop导出数据到RDBMS将导入或导出命令翻译成MapReduce程序来并行操作和容错目标用户系统管理员、数据库管理员大数据分析师、大数据开发工程师等MySQL数据导入HDFS准备工作:mysql中建库建表mysql> create database retail_db;mysql> use retail_db;mysql> so
2020-07-23 14:13:51
266
原创 Sqoop 的环境搭建
一、Sqoop 安装 安装 Sqoop 的前提是已经具备 Java 和 Hadoop、Hive、ZooKeeper、HBase的环境1.1 下载并解压1.上传安装包 sqoop-1.4.6-cdh5.14.2.tar.gz 到虚拟机中2.解压 sqoop 安装包到指定目录 tar -zxf sqoop-1.4.6-cdh5.14.2.tar.gz -C /opt/3改名 mv sqoop-1.4.6-cdh5.14.2 sqoop4.配置环境变量 vi /etc/profile添加如下内容:
2020-07-23 13:58:23
198
原创 YAEN学习
YARN 的前世今生:hadoop1.x版本中最大的问题就是资源问题对数据的处理和资源调度主要依赖MapReduce完成只能运行MapReduce程序JobTracke负责资源管理和程序调度,压力较大hadoop2.x版本添加yarn主要负责集群资源管理YARN概述YARN 核心思想是将资源管理和任务的监控和调度分离通用的资源管理系统,可为不同的应用(MapReduce,spark )YARN的基本架构核心组件YARN 的架构是master、slaves的主从架构YARN架构核心组件
2020-07-23 13:50:04
455
原创 HBASE简介及底层存储原理
HBase概述HBase是一个领先的NoSQL数据库是一个面向列存储的NoSQL数据库是一个分布式Hash Map,底层数据是Key-Value格式基于Google Big Table论文使用HDFS作为存储并利用其可靠性HBase特点数据访问速度快,响应时间约2-20毫秒支持随机读写,每个节点20k~100k+ ops/s可扩展性,可扩展到20,000+节点高并发应用场景:1、增量数据-时间序列数据高容量,高速写入HBase之上有OpenTSDB模块,可以满足时序类场景2、信
2020-07-20 18:23:22
3199
原创 settings.xml配置及如果创建maven工程依赖文件报红 解决方法
重设maven/conf/settings.xml文件<?xml version="1.0" encoding="UTF-8"?><!--Licensed to the Apache Software Foundation (ASF) under oneor more contributor license agreements. See the NOTICE filedistributed with this work for additional information
2020-07-14 16:00:39
3917
原创 hbase-site.xml、hive-site.xml 的配置
hbase-env.sh#The java implementation to use. Java 1.7+ required.export JAVA_HOME=/opt/jdk#Tell HBase whether it should manage it's own instance of Zookeeper or not.export HBASE_MANAGES_ZK=falsehbase-site.xml<property> <name>hb
2020-07-12 12:55:40
649
原创 HIVE入门知识二、建表,查询,运用等
Hive建表语句创建内部表:– 创建一个内部表create table if not exists student(id int, name string)row format delimited fields terminated by ‘\t’stored as textfilelocation ‘/home/hadoop/hive/warehouse/student’;– 查询表的类型desc formatted student;Hive建表语句解析:Hive建表高阶语句
2020-07-08 19:49:09
394
原创 HIVE入门知识一
什么是Hive?基于Hadoop的数据仓库解决方案将结构化的数据文件映射为数据库表提供类sql的查询语言HQL(Hive Query Language)Hive让更多的人使用HadoopHive成为Apache顶级项目Hive始于2007年的Facebook官网:hive.apache.orgHive的优势和特点提供了一个简单的优化模型HQL类SQL语法,简化MR开发支持在不同的计算框架上运行支持在HDFS和HBase上临时查询数据支持用户自定义函数、格式成熟的JDBC和ODBC
2020-07-08 00:40:50
173
原创 core-site.xml、hdfs-site.xml、yarn-site.xml 和一些jdk等环境变量
hadoop +zookeeper的文件配置hadoop-env.sh:'#' The java implementation to use.export JAVA_HOME=/opt/jdk1.8.0_221core-site.xml<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://mycluster</value>
2020-07-07 19:17:47
1216
原创 MySQL触发器、视图、函数和存储过 程
–触发器:1、触发器用来在某些操作时shi,“自动”执行一些操作。2、当insert delete update设置触发器之后,执行insert delete update操作就会自动触发设置的内容。–语法:create trigger 触发器名 before|after 事件on 表名 for each row 触发器语句;a、触发器名建议为trigger_xxx,这样便于区分,触发器名不能重复。b、before|after 代表触发器语句执行时间,如果是before,就是在inse
2020-07-06 10:31:26
193
原创 2020-04-30 使用DQL命令查询数据(二)
2020-04-30 使用DQL命令查询数据(二)!!!!重点记忆SELECT [ALL | DISTINCT]{ * | table.* | [ table.field1 [ as alias1] [,table.field2 [as alias2]][,…]] }FROM table_name [ as table_ alias ] [left|out|inner join table_name2] #联合查询[ WHERE … ] #指定结果需满足的条件[ GROUP BY …] #
2020-07-06 10:30:40
209
原创 2020-04-29 使用DQL命令查询数据(一)
SELECT [ALL | DISTINCT]{ * | table.* | [ table.field1 [ as alias1][,table.field2 [as alias2]][,…]] }FROM table_name [ as table_ alias ][left|out|inner join table_name2] #联合查询[ WHERE … ] #指定结果需满足的条件[ GROUP BY …] #指定结果按照哪几个字段来分组[HAVING …] #过滤分组的记录必须满足
2020-07-06 10:29:13
270
原创 大数据-hdfs的简单概述
HDFS特点HDFS优点:支持处理超大文件可运行在廉价机器上高容错性流式文件写入HDFS缺点:不适合低延时数据访问场景不适合小文件存取场景不适合并发写入,文件随机修改场景简单的一些l命令创建存放数据文件的目录:hdfs dfs -mkdir /hdfs/shellhdfs dfs -ls /hdfs/shell将通讯数据上传到HDFS并查看hdfs dfs -put /home/hadoop/data/mobile.txt /hdfs/shellhdfs dfs -text
2020-06-30 19:52:45
369
原创 JavaAPI操作HDFS文件
创建maven工程new project -Maven quickstart配置prm.xml<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> <scope>test</
2020-06-30 19:32:17
340
原创 hadoop集群及HBase+ZooKeeper+Hive完全分布式集群部署安装
这里说复制虚拟机:vi /hadoop/hdfs-site.xmlvi etc/hadoop/slaves :hadoop04hadoop05hadoop06在传到其他两个格式化HDFShadoop namenode -format启动hadoopstart-all.sh(jps查看进程)安装ZooKeeper修改zookeepr/conf/zoo.cfg)(修改完后改名)配置里面的server是zookeeper服务器的主机名。# The number of
2020-06-28 22:50:59
594
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人