自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 yum报错

查看删除里面报错的镜像。

2023-09-21 15:25:46 104

原创 SparkCore & SQL

3)reduceByKey(func,[numTask]):在一个(K,V)的RDD上调用,返回一个(K,V)的RDD,使用定的reduce函数,将相同key的值聚合到一起,reduce任务的个数可以通过第二个可选的参数来设置。7)mergeValue: 如果这是一个在处理当前分区之前已经遇到的键,它会使用mergeValue()方法将该键的累加器对应的当前值与这个新的值进行合并。executor-cores ---每个executor使用的内核数,默认为1,官方建议2-5个,企业是4个。

2023-09-18 22:23:58 111

原创 Spark性能调优

你在提交任务前,一定知道或者可以从运维部门获取到你可以使用的资源情况,在编写submit脚本的时候,就根据可用的资源情况进行资源的分配,比如说集群有15台机器,每台机器为8G内存,2个CPU core,那么久指定15个Executor,每个Executor分配8G内存,2个CPU core。,在task的执行过程中可能创建很多对象,内存较小时会引发频繁的GC,增加内存后,可以避免频繁的GC,提升整体性能。在资源允许的情况下,增加每个Executor的Cpu core个数,可以提高执行task的并行度。

2023-09-18 17:09:19 172

原创 Spark任务提交流程及任务调度概述

当ResourceManager向ApplicationMaster返回Container资源时,ApplicationMaster就尝试在对应的Container上启动Executor进程,Executor进程起来后,会向Driver反向注册,注册成功后保持与Driver的心跳,同时等待Driver分发任务,当分发的任务执行完毕后,将任务状态上报给Driver。请求启动一个Application,同时检查是否有足够的资源满足Application的需求,如果资源条件满足,则准备。

2023-09-17 22:07:14 342 1

原创 Spark对kafka两种连接方式的对比

4.createStream中创建的KafkaInputDStream每个batch所对应的RDD的partition不与Kafkapartition一一对应;简化并行:不再需要创建多个kafka input DStream然后再union这些input DStream.使用directStream,spark Streaming会创建与Kafkapartitions相同数量的partitions的RDD,RDD的partition与Kafka的partition一一对应,这样更易于理解及调优。

2023-09-13 21:51:11 258 1

原创 SparkCore(3)

在kv对的RDD中,,按key将value进行分组合并,合并时,将每个value和初始值作为seq函数的参数,进行计算,返回的结果作为一个新的kv对,然后再将结果按照key进行合并,最后将每个分组的value传递给combine函数进行计算(先将前两个value进行计算,将返回结果和下一个value传给combine函数,以此类推),将key与计算结果作为一个新的kv对输出.seqOp函数用于在每一个分区中用初始值逐步迭代value,combOp函数用于合并每个分区中的结果.从外部存储创建RDD;

2023-09-11 22:23:46 64

原创 大数据之SparkCore(2)

如果在应用程序中多次使用同一个RDD,可以将RDD缓存起来,该RDD只有在第一次计算的时候会根据血缘关系得到分区的数据,在后续其他地方用到该RDD的时候,会直接从缓存处取而不用再根据血缘关系计算,这样就加速后期的重用.如下图所示,RDD-1经过一系列的转换后得到RDD-n并保存到hdfs,RDD-1在这这过程中会有个中间结果,如果将其缓存到内存,name随后的RDD-1转换到RDD-m这一过程中,就不会计算其之前的RDD-0了。

2023-09-10 22:24:15 172 1

原创 大数据技术之SparkCore(1)

4)一个Partitioner,即RDD的分区函数.当前spark中实现了两种类型的分片函数,一个是基于哈希的HashPartitioner,另一个是基于范围的RangePartitioner.只有对于key-value的RDD,才会有Partitioner.非key-value的RDD的Partitioner的值是None.Partitioner函数不但决定了RDD本身的分片数量,也决定了parent RDD Shuffle的输出时的分片数量。如果失败会自动进行特定次数的重试(是否执行shuffle)

2023-09-10 21:24:20 126 1

原创 Spark

可以处理所有Hadoop支持的数据,包括HDFS、HBase和Cassandra等.这对于部署Hadoop集群的用户特别重要,因此不需要做任何数据迁移就可以使用Spark的强大处理能力.Spark也可以不依赖与第三方的资源管理和调度器,它实现了Standalone作为其内置的资源管理和调度框架,这样进一步降低了Spark的使用门槛,使得所有人都可以非常容易的部署和使用Spark.此外,spark还提供了在EC2上部署Standalone的Spark集群的工具。则是通过复用线程池中的线程来减少启动、关闭。

2023-09-07 18:12:01 217 1

原创 Hive定义于安装

Hive 是建立在 Hadoop 之上的,所有 Hive 的数据都是存储在 HDFS 中的。(4)修改/opt/module/hive/conf目录下的hive-env.sh.template名称为hive-env.sh。(1)把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下。(3)修改apache-hive-1.2.1-bin.tar.gz的名称为hive。对数据的改写,所有的数据都是在加载的时候确定好的。1)Hive处理的数据存储在HDFS。

2023-08-02 08:58:31 80

原创 MapReduce

默认的缓冲区大小是100M,溢出的百分比是0.8,也就是说当缓冲区中达到80M的时候就会往磁盘上写。那么,在往磁盘上写的时候会进行。中,这个缓冲区的大小默认是100M,当缓冲区中的内容达到80%时(80M)会将缓冲区的内容写到磁盘上。也就是说,一个map会输出一个或者多个这样的文件,如果一个map输出的全部内容没有超过限制,那么最终也会发生这个写磁盘的操作,只不过是写几次的问题。,分区指的是某个key应该进入到哪个分区,同一分区中的key会进行排序,如果定义了Combiner的话,也会进行combine。

2023-07-19 18:59:01 343

原创 HDFS概念

示例:hadoop fs - moveFromLocal /home/hadoop/a.txt /aaa/bbb/cc/dd。示例:hadoop fs - moveToLocal /aaa/bbb/cc/dd /home/hadoop/a.txt。,客户端通过路径来访问文件,形如:hdfs://namenode:port/dir-a/dir-b/dir-c/file.data。<这里设置的副本数只是记录在namenode的元数据中,是否真的会有这么多副本,还得看datanode的数量>

2023-07-18 17:36:59 81 1

原创 HADOOP

HADOOP是apache旗下的一套开源软件平台HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理HADOOP的核心组件有1.HDFS(分布式文件系统) Hadoop distributed File System2.YARN(运算资源调度系统)3.MAPREDUCE(分布式运算编程框架)现阶段,云计算的两大底层支撑技术为"虚拟化"和"大数据技术"HADOOP集群搭建1.安装centos系统,并修改IP地址。

2023-07-18 11:41:18 78 1

原创 【无标题】集合

set存储元素使用的事散列表储存。当散列表存在已有对象,首先判断hashCode是否相同,如果不同,直接存入。如果相同在判断equals方法,如果equals方法为false则存入,如果为true,则不存入。linkedHashSet使用散列表存储元素,在元素中添加了双向链表,从而能对记录对象 的前后顺序。ArrayList底层是一个可扩容的数组,拥有下标(索引),从零开始。TreeSet维护着可进行排序的元素的集合。Set特征:维护着无序的,不可重复的集合。List特征:维护有序的,可重复的集合。

2023-05-08 18:55:45 78 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除