
笔记
文章平均质量分 60
BigData_001_Lz
这个作者很懒,什么都没留下…
展开
-
MySQL存储过程生成某些年份的具体日期以及判断具体某一天是否为周末
【代码】MySQL存储过程生成某些年份的具体日期以及判断具体某一天是否为周末。原创 2023-10-26 15:11:52 · 324 阅读 · 0 评论 -
pl/sql
-声明一个自定义记录类型的变量。--定义一个记录类型。原创 2023-08-31 10:22:08 · 175 阅读 · 0 评论 -
聚合转换算子 (归约聚合(reduce))
reduce( (statu,x) => if (x._2 >= statu._2) x else statu ) //选取当前最活跃的用户。//有状态的流处理,如果要使用聚合算子,要使用在只含有有限个key的数据流上,如果key无限多,则会消耗完内存资源。.keyBy(x => true) //将所有数据按照同样的Key分到同一个组中。//1.1相同Key一定会分配到同一个分区,不同Key有可能分配到同一个分区。.reduce(new MyReduce) //统计每个用户的活跃度。原创 2022-10-04 14:24:53 · 1007 阅读 · 1 评论 -
Flink 基本转换算子(Transformation) Map Filter FlatMap
/若想要并行处理,需要实现一个ParallelSourceFunction(自定义源算子继承ParallelSourceFunction),算子并行度才可以设置多个。//ParallelSourceFunction[Event] 算子可以设置并行度。//如果当前数据是Leborn的点击事件,那么就直接输出User和Url。//如果当前数据是Mary的点击事件,那么就直接输出User。//SourceFunction[Event] 并行度必须是 1。//随机生成一个event。//读取自定义数据源。原创 2022-10-04 13:16:23 · 192 阅读 · 0 评论 -
Flink 自定义源算子
/若想要并行处理,需要实现一个ParallelSourceFunction(自定义源算子继承ParallelSourceFunction),算子并行度才可以设置多个。//ParallelSourceFunction[Event] 算子可以设置并行度。//SourceFunction[Event] 并行度必须是 1。//用标志位作为循环判断条件,不停的发送数据。//调用ctx的方法向下游发送数据。//随机生成一个event。//每隔1秒发送一条数据。//读取自定义数据源。原创 2022-10-04 00:37:13 · 655 阅读 · 0 评论 -
Flume + Kafka + Flink 简单例子
Kafka作为Flume 的 Channel,将数据保存到topic中,Flink作为Kafka的消费者,消费topic中的数据,实现实时数据的分析。定时向文件中插入数据(模拟日志文件的生成,向指定文件中插入当前时间戳)Kafka作为Flume的Channels。原创 2022-10-03 23:55:55 · 1278 阅读 · 0 评论 -
Flink(Consumer) 从Kafka读取数据
/Kafka连接的相关配置。创建kafka生产者。原创 2022-10-03 22:47:01 · 584 阅读 · 1 评论 -
Flink(1.13.0) 有界流处理
***/}}原创 2022-10-03 13:39:34 · 500 阅读 · 0 评论 -
Flink (1.13.0) 有界流处理WordCount
/读取文本文件数据。原创 2022-10-03 13:30:15 · 385 阅读 · 0 评论 -
Web端提交Flink任务
浏览器打开 master:8081。粘贴上面复制的reference。停止任务 cancel job。submit 提交任务。查看当前正在运行的任务。原创 2022-10-02 01:41:15 · 292 阅读 · 0 评论 -
Flink 创建批处理执行环境
/ createExecutionEnvironment 创建批处理执行环境。//对数据进行转换处理统计,先分词,在按照word进行分组,最后进行聚合统计。.groupBy(0) //一第一个元素作为key进行分组。.sum(1) //对当前所有数据的第二个元素求和。//从文件中读取数据。原创 2022-10-02 01:10:49 · 296 阅读 · 0 评论 -
Flink 创建流处理运行环境
/ env.setParallelism(16) //设置当前并行度 //执行在哪一个线程是根据当前单词的哈希值决定的。//输出数据可能乱序,网络传输的时候已经乱了,并行度为1时不乱,不能实现高并发,高吞吐量。.keyBy(0) //分组基于当前key的hash值取模。//从外部命令中提取参数作为socket主机名和端口号。//接受一个socket文本流。//启动一个进程,等待数据输入。//创建流处理运行环境。//进行转换处理统计。原创 2022-10-02 01:08:15 · 527 阅读 · 0 评论 -
Flink(Scala) 安装部署文档(flink-1.10.1-bin-scala_2.12.tgz)
2、解压:tar -zxvf flink-1.10.1-bin-scala_2.12.tgz -C /opt/moudel/1、下载:flink-1.10.1-bin-scala_2.12.tgz。原创 2022-10-01 22:52:42 · 579 阅读 · 0 评论 -
图书热度实时分析
val data = stream.map(x => new String(x.event.getBody.array()).trim) //.trim 消除左右两边的空格。更换kafka_2.12-3.0.0.jar和kafka-clients-3.0.0.jar。Kafka作为Flume的Channels。消费者读取数据(消费数据)原创 2022-09-27 18:10:38 · 758 阅读 · 0 评论 -
Spark 下载安装配置详解文档 (spark-2.4.8-bin-hadoop2.7.tgz)
解压tar -zxvf spark-2.4.8-bin-hadoop2.7.tgz -C /opt/moudel/官网地址:https://archive.apache.org/dist/spark/重命名mv spark-2.4.8-bin-hadoop2.7 spark-2.4.8。进入/usr/local/spark-2.4.8-bin-hadoop2.7/conf。上传spark-2.4.8-bin-hadoop2.7.tgz。进入/opt/moudel/spark-2.4.8/sbin。原创 2022-09-24 15:09:24 · 3684 阅读 · 0 评论 -
Flume MySQL_file_HBase
将hbase安装目录下的jar包导入flume安装目录下的lib文件夹中。#dataDirs存储Event的磁盘存储路径。#dataDirs存储Event的磁盘存储路径。#checkpointDir设置检查点目录。#checkpointDir设置检查点目录。创建HBase表flume,列簇demo。原创 2022-09-22 23:04:10 · 329 阅读 · 1 评论 -
假设有两台服务器(A、B )收集实时生产日志,A收集/opt目录下的access.log、nginx.log,B收集/opt目录下的web.log(access.log、nginx.log、web.
运行C,启动之后再运行A和B。原创 2022-09-22 23:00:06 · 745 阅读 · 0 评论 -
Flume 一台机器收集文件数据后输出到Avro指定端口,另一台机器从该端口读取,并输出到logger。
2、slave1接收数据。原创 2022-09-21 01:21:45 · 411 阅读 · 0 评论 -
Flume 正则过滤拦截器、时间戳拦截器
a1.sources.s1.interceptors.i1.excludeEvents = false //默认收集符合匹配条件的事件。a1.sources.s1.interceptors.i1.regex = (Spark) | (Hadoop) //正则表达式。a1.sources.s1.interceptors.i1.type = regex_filter //拦截器名称。a1.sources.s1.interceptors.i1.type = timestamp //拦截器名称。原创 2022-09-21 01:18:12 · 430 阅读 · 1 评论 -
Flume 采集44444端口日志,输出到命令终端
➢ 定义一个Sink组,包含2个Sink,一个是读取数据到logger,一个是读取数据到本地目录。➢ 设置logger sink的优先级高于本地目录的Sink。原创 2022-09-21 01:13:49 · 403 阅读 · 0 评论 -
采集需求:通过exec(即执行命令)的方式,采集某文件的数据并传输至HDFS。
中追加数据,查看hdfs文件(实时监听文件是否有数据产生。)中是否有新文件产生。原创 2022-09-21 01:11:35 · 131 阅读 · 0 评论 -
Flume 将8888端口接收的数据存入hive中
(2)拷贝hive的jar依赖包到flume安装目录的lib路径下,避免启动hive sink时失败。# 定义这个agent中三大组件Source、Channel、Sink的名称。(4)启动Hadoop、MySQL、HiveMetaStore。一、a1.sinks.s1.type = hive。二、a1.sinks.sk1.type=hdfs。(3)修改hive配置文件,使其支持事务处理。# 配置Sink组件:数据存储为Hive。# hive元存储的url。启动hive元数据服务。# hive数据库名。原创 2022-09-21 01:03:33 · 283 阅读 · 0 评论 -
Java 基础
对于随机插入和删除:ArrayList 需要移动目标节点后面的节点(使用System.arraycopy 方法移动节点),而 LinkedList 只需修改目标节点前后节点的 next 或 prev 属性即可,因此在效率上 LinkedList 优于 ArrayList。封装:隐藏部分对象的属性和实现细节,对数据的访问只能对外公开的接口,使得对象对内部数据提供了不同级别的保护,被修饰的变量必须在声明时给定初始值,而在以后只能读取,不能修改,如果变量是对象,则指的是引用不可修改,存在的三个条件:1)继承;原创 2022-09-18 00:39:11 · 259 阅读 · 0 评论 -
Flume 采集日志数据
2.1配置source各个组件参source。#2.2channels组件参数设置。#2.3Sink组件参数设置。采集端口44444日志数据。测试:启动telnet进程。原创 2022-09-16 11:49:27 · 350 阅读 · 0 评论 -
Flume 安装部署文档
1. 从官网 http://flume.apache.org/download.html 下载apache-flume-1.9.0-bin.tar.gz。3. 把conf目录下的flume-env.sh. template重命名为 flume-env.sh 并修改此配置文件, JAVA_HOME变量设置。2. 解压缩:tar -zxvf /opt/apache-flume-1.9.0-bin.tar.gz -C /usr/local/Flume1.9要求JDK1.8或以上。原创 2022-09-16 10:25:38 · 357 阅读 · 0 评论 -
Kafka Spark (Consumer) 相关API (消费指定分区内的数据)
val valueDStream = kafkaDStream.map(record => ("主题:" + record.topic(), "分区:" + record.partition(), "值:" +record.value()))//读取kafka数据创建DStream。//指定消费主题下面哪个分区,从哪开始消费。//将每条消息的KV取出。原创 2022-09-15 23:24:42 · 426 阅读 · 1 评论 -
Kafka Spark (Producer)相关API(将数据存入指定分区)
println("主题:" + recordMetadata.topic() + "分区:" + recordMetadata.partition() + "值长度:"+ recordMetadata.serializedValueSize())//serializedValueSize:返回序列化后值得长度。//将值存入指定的分区里面 topic = "reback",partition = 3,key = "",value = "" + i。原创 2022-09-15 23:22:11 · 241 阅读 · 0 评论 -
Kafka Spark(Producer)相关API
println("主题:" + recordMetadata.topic() + "分区:" + recordMetadata.partition())原创 2022-09-15 17:36:17 · 210 阅读 · 0 评论 -
Kafka Spark(Consumer) 相关API
/读取kafka数据创建DStream。//计算wordcount。//将每条消息的KV取出。原创 2022-09-15 17:33:20 · 129 阅读 · 0 评论 -
Kafka Consumer API
System.out.println("主题:" + i.topic() + ",分区:" + i.partition() + ",值:" + i.value());原创 2022-09-15 10:57:38 · 147 阅读 · 0 评论 -
Kafka Producer API
System.out.println("主题:" + recordMetadata.topic() + "分区:" + recordMetadata.partition());System.out.println("主题:" + recordMetadata.topic() + "分区:" + recordMetadata.partition());kafkaProducer.send(new ProducerRecord("reback","嘤嘤嘤" + i)).get();//.get()同步发送。原创 2022-09-14 17:39:54 · 316 阅读 · 0 评论 -
Spark3.2.1配置文档
1.上传spark-3.2.1-bin-hadoop2.7.tgz到/opt目录,并解压到/usr/local。3.进入/usr/local/spark-3.2.1-bin-hadoop2.7/conf。进入/usr/local/spark-3.2.1-bin-hadoop2.7/sbin。执行source /etc/profile使命令生效。4.修改spark-defaults.conf。2.在所有节点配置Spark环境变量。7.将Spark安装包分发到其他节点。5.修改spark-env.sh。原创 2022-09-13 23:08:22 · 658 阅读 · 0 评论 -
HBase安装
zookeeper集群地址列表,逗号分隔指定HBase MasterHDFS是否允许追加文件hbase持久化目录不检查流能力原创 2022-09-13 23:06:45 · 253 阅读 · 0 评论 -
Hive安装
Hive运行时结构化日志文件的位置元数据连接时的用户密码元数据连接时的用户名原创 2022-09-13 23:04:47 · 370 阅读 · 0 评论 -
ZooKeeper安装
6) 进入到/opt/moudel/zookeeper-3.6.3/zkdata目录下创建文件myid。0)下载地址https://zookeeper.apache.org/releases.html。5)修改/opt/moudel/zookeeper-3.6.3/conf下的zoo.cfg文件。3)进入/opt/moudel/zookeeper-3.6.3/conf目录下修改文件名称。7)将zookeeper-3.6.3包复到其它两台机子上。8)修改其它两台机子上的myid分别输入2和3。原创 2022-09-13 22:55:42 · 86 阅读 · 0 评论 -
hadoop集群部署
ssh-keygen用来生成RSA类型的密钥以及管理该密钥,参数“-t”用于指定要创建的SSH密钥的类型为RSA。ssh-copy-id -i /root/.ssh/id_rsa.pub master//依次输入yes,123456(root用户的密码)7、在各节点(环境变量)/etc/profile添加JAVA_HOME和Hadoop路径。使用命令“vim /etc/ntp.conf”打开/etc/ntp.conf文件,//所有节点都要向自己和其他节点发送密钥,实现互相登录免密。原创 2022-09-13 22:53:58 · 939 阅读 · 0 评论 -
MySql8.x安装
yum install -y mysql-community-server.x86_64 --nogpgcheck 下载mysql服务。alter user 'root'@'localhost' identified by '初始密码+a';由于修改密码规则需经过密码重置,因此基于初始密码做简单修改,如在末尾增加一个a。查询是否存在 mysql-community-server.x86_64。2.1 查询mysql初始密码。2.3 修改8.0密码规则。2.mysql 密码设置。3. 赋予外部连接权限。原创 2022-09-13 22:52:00 · 323 阅读 · 0 评论 -
Kafka-Karft集群部署
kafka 的角色(controller 相当于主机、broker 节点相当于从机,主机类似 zk 功。MIr8ldvHS0iKbt7XcgJhhg(随机初始化,每次生成的ID不一样)1、解压 kafka_2.12-3.0.0.tgz。②用该ID格式化kafka存储目录(三台节点都需要)修改节点ID,和对应的对外访问地址。4、给每个节点分发kafka1。①首先生成存储目录唯一ID。#kafka数据存储目录。2、重命名解压后的文件。5、初始化集群数据目录。6、启动kafka集群。原创 2022-09-13 22:49:44 · 461 阅读 · 0 评论 -
Kafka集群部署
kafka集群部署原创 2022-09-13 22:38:33 · 222 阅读 · 0 评论 -
kafka-Eagle监控
kafka-Eagle监控kafka-Eagle安装原创 2022-09-13 22:44:15 · 250 阅读 · 0 评论