
大数据
文章平均质量分 82
问道9527
这个作者很懒,什么都没留下…
展开
-
hive中的常用日期处理函数
在日常hive计算中,最常用的日期函数有5个:date_format:常用于处理月指标date_add或date_sub: 常用于处理日指标next_day:常用于处理周指标last_day:常用于处理月指标datediff:常用于处理日指标。转载 2022-09-13 08:25:35 · 3505 阅读 · 0 评论 -
性能调优的必要性
在数据应用场景中,ETL(Extract Transform Load)往往是打头阵的那个,毕竟源数据经过抽取和转换才能用于探索和分析,或者是供养给机器学习算法进行模型训练,从而挖掘出数据深层次的价值。我们今天要举的两个例子,都取自典型 ETL 端到端作业中常见的操作和计算任务。第一个例子很简单:给定数据条目,从中抽取特定字段。这样的数据处理需求在平时的 ETL 作业中相当普遍。想要实现这个需求,我们需要定义一个函数 extractFields:它的输入参数是 Seq[Row]类型,也即数据条目序列;输出结原创 2022-06-07 16:21:00 · 282 阅读 · 0 评论 -
cdh6.2+ 集成flink1.14.4
文章目录准备一、编译flink二、制作Flink的parcel包和csd文件1. 下载制作脚本2 修改参数3 复制安装包4 编译parcel5 编译csd6 上传文件7 重启CDH server三、CDH集成1.打开CDH登录界面2 进入Parcel操作界面3 分配Parcel4 激活Parcel5 回主界面6.添加flink服务错误1错误2四、验证Flink服务错误3错误4准备版本:Centos7.6JDK1.8Scala2.11Python2.7Git1.8.3.1Apache Mav原创 2022-05-06 08:46:25 · 3085 阅读 · 7 评论 -
spark本地运行错误(1)
java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200. Please increase heap size using the --driver-memory option or spark.driver.memory in Spark configuration. at org.apache.spark.memory.UnifiedMemoryManager$.getMaxMem...原创 2022-04-07 09:48:48 · 1866 阅读 · 0 评论 -
Spark Streaming场景应用-Kafka数据读取方式
概述Spark Streaming 支持多种实时输入源数据的读取,其中包括Kafka、flume、socket流等等。除了Kafka以外的实时输入源,由于我们的业务场景没有涉及,在此将不会讨论。本篇文章主要着眼于我们目前的业务场景,只关注Spark Streaming读取Kafka数据的方式。 Spark Streaming 官方提供了两种方式读取Kafka数据:一是Receiver-ba...转载 2019-10-15 10:37:57 · 244 阅读 · 0 评论 -
hive derby.log 位置
使用spark-sql连接hive 数据源 总会出现derby.log 文件,挺碍眼的。查了下资料 在$SPARK_HOME/conf/spark-defaults.conf 添加一下配置即可spark.driver.extraJavaOptions -Dderby.system.home=/tmp/derby整个世界都清净了。...原创 2019-10-14 15:28:33 · 1007 阅读 · 0 评论 -
Hadoop各种压缩的应用场景与使用
什么是文件压缩?一个较大的文件经压缩后,产生了另一个较小容量的文件。而这个较小容量的文件,我们就叫它是这些较大容量的(可能一个或一个以上的文件)的压缩文件。而压缩此文件的过程称为文件压缩。MapReduce 为什么需要文件压缩?Hadoop 之所以需要进行文件压缩,是因为使用文件压缩可以减少文件存储所需要的空间,加快数据在网络和磁盘上的传输。处理大文件时...原创 2019-10-13 14:28:05 · 394 阅读 · 0 评论