- 博客(78)
- 收藏
- 关注
原创 大数据学习之CDH6.3.2搭建
大数据中的CDH,全称为Cloudera Distribution Including Apache Hadoop,是由Cloudera公司提供的一个集成了Apache Hadoop及相关生态系统的发行版本。它是一个大数据平台,旨在简化和加速大数据处理分析的部署和管理。cdh01和cdh01,cdh02,cdh03之前配置免密。企业中可用其对服务器集群进行管理。在window中也配置一下。将下载好的安装包上传服务器。
2024-08-18 21:24:05
917
原创 Spark学习之SaprkCore
FlinkCore1、JavaAPI1、创建一个Topic并写入数据向Kafka写数据 如果topic不存在则会自动创建一个副本和分区数都是1的topicpackage com.shujia.kafka;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerRecord;import java.util.Properties;pu
2024-08-02 19:47:45
1534
原创 Kafka的搭建及使用
在生产和消费数据时,如果topic不存在会自动创建一个分区为1,副本为1的topic。__consumer_offsetsL kafka用于保存消费便宜量的topic。进入zookeeper的命令行,查看里面所存储的元数据信息。进行命令行界面:zkCli.sh。启动:zkServer.sh。
2024-07-31 19:36:42
931
原创 大数据学习之Flink基础(补充)
Flink基础1、系统时间与事件时间系统时间(处理时间)在Sparksreaming的任务计算时,使用的是系统时间。假设所用窗口为滚动窗口,大小为5分钟。那么每五分钟,都会对接收的数据进行提交任务.但是,这里有个要注意的点,有个概念叫时间轴对齐。若我们在12:12开始接收数据,按道理我们会在12:17进行提交任务。事实上我们会在12:20进行提交任务,因为会进行时间轴对齐,将一天按照五分钟进行划分,会对应到12:20。在此时提交任务,后面每个五分钟提交任务,都会对应到我们所划分的时间轴。事
2024-07-30 20:52:45
626
原创 大数据学习之Flink基础
只有在Source启动时会执行一次run方法如果会结束,则Source会得到一个有界流run方法如果不会结束,则Source会得到一个无界流import org// TODO 使用自定义source类,通过addSource对其进行添加 DataStream < String > mySourceDS = env . addSource(new MySource());/*** 只有在Source启动时会执行一次* run方法如果会结束,则Source会得到一个有界流。
2024-07-26 21:10:59
700
原创 Hadoop、Hive、HBase、数据集成、Scala阶段测试
ResourceManager 是 YARN 架构中的核心组件之一,负责接收客户端提交的作业(如 MapReduce 任务、Spark 任务等),并为这些作业分配资源(如内存、CPU)以在集群中的 NodeManager 上执行。spark的任务调度流程:driver端,遇到action算子触发任务执行,将任务提交到有向无环图,DAGscheduler中,根据RDD的血缘关系划分划分stage,将RDD中的分区封装成taskset任务,发送到TASKscheduler。
2024-07-24 21:14:44
2604
3
原创 大数据学习之sparkstreaming
指令:spark-submit --master yarn --deploy-mode client --class com.shujia.streaming.Demo6YarnSubmit spark-1.0.jar。Option: 当前批次输入键对应的value值,如果历史中没有该键,这个值就是None, 如果历史中出现了这个键,这个值就是Some(值)2、有状态算子使用的时候,需要提前设置checkpoint的路径,因为需要将历史批次的结果存储下来。
2024-07-22 19:01:32
843
原创 大数据学习之常见问题1
数据仓库:对数据进行采集、清洗、加工和输出是一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理决策过程。雪花模型:它是星型模型的一个扩展,有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上星型模型:星型模型是多维的数据关系,它由事实表(Fact Table)和维表(Dimension Table)组成。每个维表中都会有一个维作为主键,所有这些维的主键结合成事实表的主键。所有维表都直接连接到“事实表”上。
2024-07-19 15:37:51
1132
原创 大数据学习之SparkSQL(补充)
步骤:1、自定义类继承UDF类,重写evaluate方法2、打包,spark-1.0.jar 将jar包放到spark目录下的jars目录下 /usr/local/soft/spark-3.1.3/jars3、在spark-sql命令行中注册函数def evaluate(line: String): String = "拼接自定义前缀:" + line。
2024-07-18 22:59:23
980
原创 Spark学习之SparkSQL
Spark SQL中的DataFrame DSL(Domain Specific Language,领域特定语言)是一种用于处理DataFrame的编程风格,它允许开发者以命令式的方式,通过调用API接口来操作DataFrame。这种风格**介于代码和纯SQL之间,**提供了一种更加灵活和强大的数据处理方式。DataFrame DSL(Domain Specific Language,领域特定语言)中的。idea里面将代码编写好打包上传到集群中运行,上线使用。
2024-07-16 20:32:10
948
1
原创 大数据学习之Spark基础(补充)
2、往yarn提交任务需要增加两个配置 yarn-site.xml(/usr/local/soft/hadoop-3.1.3/etc/hadoop/yarn-site.xml)(Hadoop配置时已配置)在该模式下运行时,必须保证node1、node2的/usr/local/soft/spark-3.1.3/examples/jars下由所要运行的jar包。checkpoint是永久将rdd数据持久化,将来执行的时候,直接从检查点的rdd往后执行。获取yarn程序执行日志 执行成功之后才能获取到。
2024-07-14 18:30:18
1270
1
原创 大数据学习之Spark基础
后一个RDD中的分区数据,除KV函数以外,对应的是前一个RDD中的分区数据所进行逻辑处理后的结果。当重复触发相同的执行的时候,对于同一个DAG有向无环图而言,会直接从shuffle之后的RDD开始执行(省略从前一个RDD写数据到磁盘中的过程),可以直接从磁盘读取数据。1)窄依赖 前一个RDD中的某一个分区数据只会到后一个RDD中的某唯一分区中 一对一(也可能前多个分区到后一个分区中)的关系。RDD中流动的数据,可能会来自不同的datanode中的block块数据。
2024-07-11 22:16:31
1171
1
原创 大数据学习之 scala基础(补充)
scala基础:hello world:写scala可运行文件的注意事项1、如果一个scala文件要运行,class要改成object2、如果是class,就仅单纯代表一个类,如果是object代表的是单例对象3、scala语法中,一句话结束不需要加分号4、scala文件中,可以无缝使用java中的类和方法object HelloWorld { def main(args: Array[String]): Unit = { // 输出一句hello world pr
2024-07-08 20:14:26
549
原创 scala基础
使用try、catch捕获异常。异常抛出(与java中很像)scala中定义class类。伴生对象(apply方法)scala面向函数式编程。函数当作参数传递的应用。
2024-07-06 16:00:51
443
原创 大数据学习之Clickhouse
clickhouse 官网网址:https://clickhouse.com/ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。OLAP 种类系统架构的的特点。
2024-07-01 21:32:30
2250
原创 大数据学习之分布式数据采集系统Flume学习
使用Flume采集服务器本地日志,需要按照日志类型的不同,将不同种类的日志发往不同的分析系统。在该案例中,我们以端口数据模拟日志,模拟不同类型的日志,我们需要自定义interceptor区分内容是否包含shujia,将其分别发往不同的分析系统(Channel)。实现代码import org/*** 1. 如何自定义拦截器?* flume的自定义拦截器需要实现Flume提供的Interceptor接口.* 实现抽象方法:* initialize: 完成一些初始化工作.
2024-06-28 22:13:28
2927
原创 大数据学习之DataX
DataX完成单个数据同步的作业,我们称之为Job,DataX接受到一个Job之后,将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点,承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。DataXJob启动后,会根据不同的源端切分策略,将Job切分成多个小的Task(子任务),以便于并发执行。Task便是DataX作业的最小单元,每一个Task都会负责一部分数据的同步工作。
2024-06-25 22:54:10
1368
原创 大数据学习之 各种启动命令汇总
可以将命令写入到一个可执行文件中,执行更加方便(但是要赋予其权限,使其成为可执行文件:chmod +x starthive.sh)Phoenix: 连接sqlline(客户端)zookeeper的启动与停止。mysql 的启动与停止。hadoop的启动与停止。hive 交互与数据加载。redis的启动与停止。hive动态分区、分桶。
2024-06-25 09:26:10
405
原创 HBase架构与基础命令
HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储海量的结构化或者半结构化,非结构化的数据(底层是字节数组做存储的)HBase是Hadoop的生态系统之一,是建立在Hadoop文件系统(HDFS)之上的分布式、面向列的数据库,通过利用Hadoop的文件系统提供容错能力。如果需要进行实时读写或者随机访问大规模的数据集的时候,会考虑使用HBase。
2024-06-14 22:34:14
502
原创 Java学习之maven
④ 当前项目需要获取其他非公共项目时,需要将项目通过install安装到本地仓库中,再对当前项目添加依赖信息,再重载项目,当要添加的项目是同属一个大项目中的子项目时,此时不需要再通过install进行安装。①为了帮助我们管理 项目中的Jar包,如果要在项目中使用第三方包,那么就需要去下载jar包,再将jar包添加到当前项目的目录中,再去将jar包选择添加为当前项目的依赖。①子项目可以继承父项目中的依赖,但是子项目中也可以添加对相同名称版本不同的依赖,根据就近原则,选择当前依赖最近的jar包版本。
2024-06-06 10:11:16
1330
原创 Hadoop学习之hdfs的操作
将HDFS中的文件复制到本地、上传数据到HDFS中、在HDFS上创建文件目录 、删除HDFS上的文件目录、查看HDFS文件系统中文件和目录的元数据
2024-05-26 22:31:29
1257
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人