
大数据
文章平均质量分 92
细雪-之舞
让人迷茫的原因只有一个,那就是在本应拼搏的年纪想得太多做得太少。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark性能优化之-数据倾斜
文章目录概述现象和判定方式数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码某个task执行特别慢的情况某个task莫名其妙内存溢出的情况查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一:使用Hive ETL预处理数据解决方案二:过滤少数导致倾斜的key解决方案三:提高shuffle操作的并行度解决方案四:两阶段聚合(局部聚合+全局聚合)解决方案五:将reduce join转为map join解决方案六:采样倾斜key并分拆join操作解决方案七:使用随机前缀和扩容RDD进行原创 2022-05-19 15:17:54 · 727 阅读 · 0 评论 -
Spark性能优化之-资源调优
文章目录概述Spark作业基本运行原理资源参数调优num-executorsexecutor-memoryexecutor-coresdriver-memoryspark.default.parallelismspark.storage.memoryFractionspark.shuffle.memoryFraction资源参数参考示例概述在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道原创 2022-05-19 15:14:48 · 415 阅读 · 0 评论 -
Spark性能优化之-开发调优
文章目录概述:原则一:避免创建重复的RDD原则二:尽可能复用同一个RDD原则三:对多次使用的RDD进行持久化Spark的持久化级别如何选择一种最合适的持久化策略原则四:尽量避免使用shuffle类算子原则五:使用map-side预聚合的shuffle操作什么是map-side预聚合:原则六:使用高性能的算子使用reduceByKey/aggregateByKey替代groupByKey使用mapPartitions替代普通map使用foreachPartitions替代foreach使用filter之后进行原创 2022-05-19 15:06:51 · 422 阅读 · 0 评论 -
Spark性能优化之-shuffle调优
spark几种shuffle过程的详细介绍,以及部分spark shuffle调优参数。原创 2022-01-26 11:08:35 · 661 阅读 · 0 评论 -
空间数据计算引擎GeoSpark调研
什么是空间数据空间数据(Spatial Data)空间数据又称几何数据,它用来表示物体的位置、形态、大小分布等各方面的信息,是对现实世界中存在的具有定位意义的事物和现象的定量描述。根据在计算机系统中对地图是对现实教想的存储组织、处理方法的不同,以及空间数据本身的几何特征,空间数据又可分为图形数据和图像数据。来源与类型空间数据来源和类型繁多,概括起来主要可以分为地图数据、影像数据、地形数据、属性数据和元数据。地图数据:这类数据主要来源于各种类型的普通地图和专题地图,这些地图的内容非常丰富。影原创 2021-06-07 20:25:12 · 2143 阅读 · 0 评论 -
Apache Hudi调研小记
什么是Hudi?官网链接地址Apache Hudi(简称:Hudi)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。这两种原语分别是:Update/Delete Records (how do I change records in a table?) # 更新/删除记录:Hudi使用细粒度的文件/记录级别索引来支持Update/Delete记录,同时还提供写操作的事务保证。查询会处理最后一个提交的快照,并基于此输出结果原创 2021-04-25 19:55:49 · 521 阅读 · 2 评论 -
记一次ARM-鲲鹏服务器读写parquet报错解决过程
背景:最近客户现场使用华为提供的ARM-鲲鹏服务器集群,使用spark2.4.0,输出数据格式为parquet时,下游流程再使用该输出作为输入时出现报错,报错日志如下:Caused by: java.io.IOException: could not decode the dictionary for [IMSI] optional int64 IMSI at org.apache.spark.sql.execution.datasources.parquet.VectorizedColumnRea原创 2020-07-29 11:35:07 · 1793 阅读 · 0 评论 -
RocketMq部署与使用
官网文档参考地址:http://rocketmq.apache.org/docs/motivation/安装包下载地址:https://mirror.bit.edu.cn/apache/rocketmq/4.7.0/rocketmq-all-4.7.0-bin-release.zip https://mirrors.tuna.tsinghua.edu.cn/apache/rocketmq/4.7.0/rocketmq-all-4.7.0-bin...原创 2020-05-20 13:44:15 · 1112 阅读 · 0 评论 -
hive3.0使用问题小记
1,使用spark读取hive或者使用hive 命令行查询表,发现列名被默认变成了TableName_FileName解决办法:如果通过hive-clinet命令行查询,只想对当前回话生效,执行如下命令即可:> set hive.resultset.use.unique.column.names=false;通过 set hive.cli.print.header = tr...原创 2020-05-06 20:08:05 · 1200 阅读 · 0 评论 -
Apache Ozone0.4.0调研
为什么有Ozone对象存储比标准文件系统更容易构建和使用。 缩放对象库也更容易。 大多数大数据应用程序和框架(如Apache Spark,YARN和Hive)都可以在云端和本地运行,这使得在本地存储对象存储非常具有吸引力。众所周知,HDFS是大数据存储系统,并在业界得到了广泛的使用。但是无论大集群还是小集群其扩展性都受NN的限制,虽然HDFS可以通过Federation进行扩展,但是依然深受小...原创 2019-08-13 09:55:00 · 2878 阅读 · 0 评论 -
Linux操作多台主机脚本/工具
1,用脚本从信任主机下发命令到多台主机(不复制文件只执行命令的情况下):首先需要指定一台主机作为信任主机,这样从这台主机登录其他机器就不需要密码了。如何设置信任主机(以node1为例)?ssh-keygencat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keyschmod 700 ~/.sshchmod 600 ~/.ssh...原创 2018-08-16 11:11:49 · 1808 阅读 · 0 评论 -
机器学习 K-Nearst-Neighbors算法
机器学习 K近邻(K-Nearest-Neighbors)算法剖析一、 读懂该算法所具备的相关知识熟练掌握Python语言线性代数矩阵常见的基本运算欧几里得定律,计算矩阵中两点之间的距离。二、 生活案例-K近邻算法电影可以按照题材分类,然而题材本身是如何定义的?由谁来判定某部电影属于哪个题材?也就是说同一题材的电影具有哪些公共特征?这些都是在原创 2017-06-23 11:02:23 · 618 阅读 · 0 评论 -
windows下zookeeper,kafka和solr启动
进到kafka的Home目录启动zookeeper:.\bin\windows\zookeeper-server-start.bat config\zookeeper.properties停止zookeeper:.\bin\windows\zookeeper-server-stop.bat启动kafka:.\bin\windows\kafka-ser原创 2017-06-23 10:59:04 · 452 阅读 · 0 评论 -
大数据平台安装部署文档 Ambari2.4-HDP2.5
大数据平台安装部署文档Ambari2.4-HDP2.5 目录1 集群配置说明...32 集群配置...32.1 集群组成...42.2 基础软件要求...52.3 修改主机名并设置DNS解析...52.4 配置ssh无密码登录...52.5 配置ntp服务...72.6原创 2017-06-28 22:38:55 · 1047 阅读 · 0 评论