- 博客(16)
- 收藏
- 关注
原创 大数据学习之状态+checkpoint
将flink的状态先保存TaskManager的内存中,在触发checkpoint的时候将taskmanager中的状态再持久化到hdfs中。flink的状态会先保存在rocksDb数据库中,当触发checkpoint的时候将数据库中的状态持久化到hdfs中。常用的sum(需要保存之前的计算结果) window(需要保存一段时间内的数据)内部都是有状态的。也可以在命令行中重新提交任务,指定恢复任务的位置, 需要先上传jarr包。在flink的集群的配置文件中同意开启-- flink新版才有。...
2022-08-03 10:07:09
757
原创 大数据学习之kafka的基本使用命令
2,创建topic,该命令可在任何位置执行kafka-topics.sh --create --zookeeper master:2181,node1:2181,node2:2181 --replication-factor 3 --partitions 3 --topic test_topic3--replication-factor ---每一个分区的副本数量, 同一个分区的副本不能放在同一个节点,副本的数量 不能大于kafak集群节点的数量--partition --分区数, 根据...
2022-07-25 21:06:51
1735
原创 大数据学习之kafka环境搭建
由于配置了环境变量所以任意目录下都可启动(exportPATH=$PATH$KAFKA_HOME/bin),三个节点都需要启动。log.dirs=/usr/local/soft/kafka_2.11-1.0.0/data数据存放的位置。###将master中的而环境变量同步到node1和node2中,修改上面文件中的。#2、启动kafka,每个节点中都要启动(去中心化的架构)#2.1kafkabin目录下的启动命令与停止命令。#需要在每隔节点中执行启动的命令。###配置环境变量。...
2022-07-25 20:58:27
323
原创 大数据学习之Spark任务创建及提交到集群服务器运行
一、简写大致思路1.写一个spark项目,将本地模式注释2,不需要打印输出,而是用saveAsTextFile(“hdfs路径”)将文件保存到hdfs3,将工程文件打包,上传到虚拟机spark下 exm --jars中,4,提交spark任务到集群运行(不需要启动spark也可运行) spark-submit --class 类的相对路径名(右击--copy Reference)--master 运行模式(yarn-client yarn-cluster) jar包名5,命令查看Hadoop dfs
2022-07-13 15:15:54
957
原创 大数据学习之bulkLoad实现批量导入
如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使用 “Bulk Loading”方法,即HBase提供的HFileOutputFormat类。它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接生成这种hdfs内存储的数据格式文件,然后上传至合适位置,即完成巨量数据快速入库的办法。配合mapreduce完成,高效便捷,而且不占用region资源,增添负载。仅适合初次数据导入,即表内数据为空,或者每次入库表内都无数据的情况。HB
2022-06-15 14:43:20
1006
原创 大数据学习之IO读取数据到hbase表中
一、将数据文件通过IO读入hbase表中1.连接hbase的对象,调用getTable获取表的实例2.创建一个ArraryList集合3.用io读取文件数据,用while循环split进行分割成数组3.1把每一行组成一个put对象以唯一的数为行键3.2为行添加多列3.3把每一行组成一个put对象添加到集合中4.调用表的put方法将集合中的数据添加到表中;5.关闭通道示例代码:/** * 连接hbase * */@Beforepublic void clientHbase(){ try {
2022-06-13 12:04:46
260
原创 spring boot项目 web页面访问报错404问题
学习遇错解决记录:IDEA创建springboot项目,连接redis数据库;写了一个类测试与redis是否连接成功;通过web页面访问报错404(404一般代表路径有误);这时解决方法:先检查代码有无问题,若代码无问题检查项目结构,入口类是否在其他子包(controller、entity、utils、service......)上;以上两种不行尝试删除target目录,再次运行项目他会自动生成一个新的target目录;经过检查发现我的项目结构有问题,入口类不在其他子包外,所以访
2022-05-19 09:48:45
3111
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人