
大数据
包括hadoop、spark、flink、hive等大数据框架组件的使用心得和经验
菜梨子不想这么菜!
ACM区域赛银牌、大数据开发工程师
展开
-
scala用maven打包无class问题
官方文档:https://davidb.github.io/scala-maven-plugin/index.html scala编译的时候,jar包里没有生成相关的class,原因是需要配置插件,详细内容都可以在官方文档中找 如果急用可以把下面代码拷进你的pom.xml中 主pom.xml <plugin> <groupId>net.alchim31.maven</groupId> <artifactId>scala-maven-plugi原创 2021-01-27 00:13:10 · 969 阅读 · 0 评论 -
spark序列化
官方文档:https://spark.apache.org/docs/latest/tuning.html 序列化在分布式应用的性能中扮演着重要的角色。格式化对象缓慢,或者消耗大量的字节格式化,会大大降低计算性能。通常这是在spark应用中第一件需要优化的事情。Spark的目标是在便利与性能中取得平衡,所以提供2种序列化的选择。 Java serialization 在默认情况下,Spark会使用Java的ObjectOutputStream框架对对象进行序列化,并且可以与任何实现java.io.Seri原创 2021-01-27 00:12:13 · 403 阅读 · 0 评论 -
azkaban3.0调度spark
源码配置:https://github.com/azkaban/azkaban/blob/master/az-hadoop-jobtype-plugin/src/main/java/azkaban/jobtype/SparkJobArg.java google和官方文档都没有说明spark的调度方法,因此这个需要自己从源码处自己研究怎么写 配置过程 1.plugins/jobtypes下几个文件 commonprivate.properties和common.properties内的hadoop.home原创 2021-01-27 00:11:36 · 354 阅读 · 0 评论 -
hive文件存储格式及数据压缩
一、存储格式行存储和列存储 行存储可以理解为一条记录存储一行,通过条件能够查询一整行数据。 列存储,以字段聚集存储,可以理解为相同的字段存储在一起。 二、Hive文件存储格式 TEXTFILE Hive数据表的默认格式,存储方式:行存储。 可以使用Gzip压缩算法,但压缩后的文件不支持split 在反序列化过程中,必须逐个字符判断是不是分隔符和行结束符,因此反序列化开销会比SequenceFile高几十倍。 SEQUENCEFILE 压缩数据文件可以节省磁盘空间,但Hadoop中有些原生原创 2021-01-27 00:10:53 · 411 阅读 · 0 评论 -
hadoop-lzo安装和小测试
前置要求 1.安装好hadoop 2.安装好jdk和maven(maven提前配置阿里云连接,不然慢死!) 3.安装前置库 yum -y install lzo-devel zlib-devel gcc autoconf automake libtool lzo使用流程 下载及安装 # 下载 wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz # 解压 tar -zxvf lzo-2.10.tar.gz cd原创 2021-01-27 00:10:10 · 265 阅读 · 0 评论 -
win10中IDEA导入hive源码并实现远程连接服务器元数据
windows下坑很多,比linux和mac都要麻烦 一、准备工作 下载Hive源码 本次案例,我们使用CDH版本,版本为:hive-1.1.0-cdh5.16.2-src.tar.gz 下载链接:http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.16.2-src.tar.gz 编译Hive源码 使用git-bash编译 mvn clean package -DskipTests=true -Phadoop-2 ## 经过漫长的等待,出原创 2021-01-27 00:08:54 · 397 阅读 · 0 评论 -
Hive部署
Hive部署 1)下载 2)解压 3)添加HIVE_HOME到系统环境变量 4)修改配置 hive-env.sh 5)拷贝MySQL驱动包到$HIVE_HOME/lib 6)前提是要安装一个MySQL数据库 tar -zxvf hive-1.1.0-cdh5.16.2.tar.gz -C ~/app/ 配置.bash_profile export HIVE_HOME=/home/pearfl/app/apache-hive-1.1.0-cdh5.16.2-bin export PATH=$HIVE_HOM原创 2020-12-29 12:39:20 · 101 阅读 · 0 评论 -
hadoop单节点集群部署
官网描述 本文在官网描述的基础上做部分补充 hadoop部署 类似于前一篇章的jdk部署 tar -zxvf hadoop-2.6.0-cdh5.16.2.tar.gz -C ~/app/ hadoop软件包常见目录说明 bin: hadoop客户端命令 etc: hadoop相关的配置文件存放目录 sbin:启动hadoop相关进程的脚本 share:常用例子 配置.bash_profile export HADOOP_HOME=/home/pearfl/app/hadoop-2.6.0-cd原创 2020-12-29 08:50:48 · 204 阅读 · 0 评论 -
hadoop学习前置—jdk部署和ssh
jdk部署 Hadoop安装前置要求Java版本在1.8+ 安装过程(本过程在root用户下进行,非root用户目录有轻微变动): 拷贝本地软件包到服务器(wget等方法均可) 解压jdk: # tar -zvxf jdk-8u231-linux-x64.tar.gz -C ~/app/ # 解压的包放置在app文件夹内,根据个人需要选择 把jdk配置在系统环境变量中: ~/.bash_profile export JAVA_HOME=/home/pearfl/app/jdk1.8.0_231 expo原创 2020-12-29 08:44:06 · 164 阅读 · 0 评论