大数据
包括hadoop、spark、flink、hive等大数据框架组件的使用心得和经验
菜梨子不想这么菜!
ACM区域赛银牌、大数据开发工程师
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
scala用maven打包无class问题
官方文档:https://davidb.github.io/scala-maven-plugin/index.htmlscala编译的时候,jar包里没有生成相关的class,原因是需要配置插件,详细内容都可以在官方文档中找如果急用可以把下面代码拷进你的pom.xml中主pom.xml<plugin> <groupId>net.alchim31.maven</groupId> <artifactId>scala-maven-plugi原创 2021-01-27 00:13:10 · 1007 阅读 · 0 评论 -
spark序列化
官方文档:https://spark.apache.org/docs/latest/tuning.html序列化在分布式应用的性能中扮演着重要的角色。格式化对象缓慢,或者消耗大量的字节格式化,会大大降低计算性能。通常这是在spark应用中第一件需要优化的事情。Spark的目标是在便利与性能中取得平衡,所以提供2种序列化的选择。Java serialization在默认情况下,Spark会使用Java的ObjectOutputStream框架对对象进行序列化,并且可以与任何实现java.io.Seri原创 2021-01-27 00:12:13 · 445 阅读 · 0 评论 -
azkaban3.0调度spark
源码配置:https://github.com/azkaban/azkaban/blob/master/az-hadoop-jobtype-plugin/src/main/java/azkaban/jobtype/SparkJobArg.javagoogle和官方文档都没有说明spark的调度方法,因此这个需要自己从源码处自己研究怎么写配置过程1.plugins/jobtypes下几个文件commonprivate.properties和common.properties内的hadoop.home原创 2021-01-27 00:11:36 · 399 阅读 · 0 评论 -
hive文件存储格式及数据压缩
一、存储格式行存储和列存储行存储可以理解为一条记录存储一行,通过条件能够查询一整行数据。列存储,以字段聚集存储,可以理解为相同的字段存储在一起。二、Hive文件存储格式TEXTFILEHive数据表的默认格式,存储方式:行存储。可以使用Gzip压缩算法,但压缩后的文件不支持split在反序列化过程中,必须逐个字符判断是不是分隔符和行结束符,因此反序列化开销会比SequenceFile高几十倍。SEQUENCEFILE压缩数据文件可以节省磁盘空间,但Hadoop中有些原生原创 2021-01-27 00:10:53 · 465 阅读 · 0 评论 -
hadoop-lzo安装和小测试
前置要求1.安装好hadoop2.安装好jdk和maven(maven提前配置阿里云连接,不然慢死!)3.安装前置库yum -y install lzo-devel zlib-devel gcc autoconf automake libtoollzo使用流程下载及安装# 下载wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz# 解压tar -zxvf lzo-2.10.tar.gzcd原创 2021-01-27 00:10:10 · 293 阅读 · 0 评论 -
win10中IDEA导入hive源码并实现远程连接服务器元数据
windows下坑很多,比linux和mac都要麻烦一、准备工作下载Hive源码本次案例,我们使用CDH版本,版本为:hive-1.1.0-cdh5.16.2-src.tar.gz下载链接:http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.16.2-src.tar.gz编译Hive源码使用git-bash编译mvn clean package -DskipTests=true -Phadoop-2## 经过漫长的等待,出原创 2021-01-27 00:08:54 · 418 阅读 · 0 评论 -
Hive部署
Hive部署1)下载2)解压3)添加HIVE_HOME到系统环境变量4)修改配置 hive-env.sh5)拷贝MySQL驱动包到$HIVE_HOME/lib6)前提是要安装一个MySQL数据库tar -zxvf hive-1.1.0-cdh5.16.2.tar.gz -C ~/app/配置.bash_profileexport HIVE_HOME=/home/pearfl/app/apache-hive-1.1.0-cdh5.16.2-binexport PATH=$HIVE_HOM原创 2020-12-29 12:39:20 · 123 阅读 · 0 评论 -
hadoop单节点集群部署
官网描述本文在官网描述的基础上做部分补充hadoop部署类似于前一篇章的jdk部署tar -zxvf hadoop-2.6.0-cdh5.16.2.tar.gz -C ~/app/hadoop软件包常见目录说明 bin: hadoop客户端命令 etc: hadoop相关的配置文件存放目录 sbin:启动hadoop相关进程的脚本 share:常用例子配置.bash_profileexport HADOOP_HOME=/home/pearfl/app/hadoop-2.6.0-cd原创 2020-12-29 08:50:48 · 227 阅读 · 0 评论 -
hadoop学习前置—jdk部署和ssh
jdk部署Hadoop安装前置要求Java版本在1.8+安装过程(本过程在root用户下进行,非root用户目录有轻微变动):拷贝本地软件包到服务器(wget等方法均可)解压jdk:# tar -zvxf jdk-8u231-linux-x64.tar.gz -C ~/app/# 解压的包放置在app文件夹内,根据个人需要选择把jdk配置在系统环境变量中: ~/.bash_profileexport JAVA_HOME=/home/pearfl/app/jdk1.8.0_231expo原创 2020-12-29 08:44:06 · 191 阅读 · 0 评论
分享