
Hadoop
文章平均质量分 76
Hadoop集群相关的经验总结和技术分享
╭⌒若隐_RowYet——大数据
小时候,看宫崎骏的动画,不记得是哪一部,只记得那个小孩奔跑着说:“我长大了要去布宜诺斯艾利斯,寻找回忆的地方”;
从那时起,我便把布宜诺斯艾利斯列为毕生奋斗的目标,去那里寻找我失落的过去。不知从何时起,圣华塔尼欧取代了布宜诺斯艾利斯。
当回忆渐渐失去温度,不能再温暖我心,取而代之的是伤害,我选择信仰圣华塔尼欧,寻找新生。
展开
-
RC ORC Parquet之大数据文件存储格式的一哥之争
背 景 大数据如火如荼的发展中,以hadoop集群为基础的数据存储和计算框架也日新月异的精进,而如何减少存储空间又提升计算效率,一直是大数据集群老生常谈的问题,今天就一起聊聊最基本的大数据文件存储格式的区别对比,尤其是Hive建表的时候需要选择文件存储格式最为常用,而为什么单独拎出来说RC, ORC,Parquet文件呢?是因为这三者是当今Hive建表使用频率最多,效率相对成熟稳定,资历也比较老的三位帅哥,而究竟谁才是真正的数据文件存储格式的一哥呢,请我们一探究竟。最大的谎言图1 存储文件最大的谎原创 2020-05-11 19:09:16 · 1434 阅读 · 0 评论 -
用distcp实现ftp到hdfs、hdfs到hdfs、hdfs到ftp的文件传输
文件本身存在ftp上,为了文件内的数据和数仓hive中的数据做分析,需要将ftp的数据上传 到hdfs,方法有很多,如果不是需要完全实时监控的话,可以采取hdfs自带的指令distcp抽取; 题外话:完全实时上传可以采取flume监控ftp文件件,再读取存入kafka,后续消费者消费kafka获取文件数据的方式,后续再讲,这节只讲distcp;1. 指令用法 distcp不仅可以实现hdfs集群1到hdfs集群2的文件传输,也可以实现ftp和hdfs之间的文件传输,只需要切换相应的协议头即原创 2021-04-10 12:51:05 · 2110 阅读 · 7 评论 -
Hadoop集群大数据解决方案之MapReduce 程序实战进阶(QQ/微博好友推荐实现)(七)
准 备 经常玩QQ、微博的朋友不难发现,时不时浏览到图1类似的界面,说是你可能认识的人,是否需要加对方为好友,你发现其中有些人是真的认识,有些人是不认识的,那么这个QQ、微博好友推荐掌法是怎么练成的,现在我们来一探武功秘籍。图1 QQ好友推荐界面需 求 转化一下其实就是,已知a和b是好友,b和c是好友,那么得出a和c科能认识,推荐a和c是否加好友,典型的二度关系算法,当然以此类推还...原创 2020-02-04 14:34:03 · 765 阅读 · 1 评论 -
Hadoop集群大数据解决方案之MapReduce 程序实战进阶(自定义partition&sort&group)(六)
准 备 介 绍实 战原创 2020-02-03 17:30:51 · 344 阅读 · 0 评论 -
Hadoop集群大数据解决方案之IDE配Maven实现MapReduce 程序实战(五)
准 备 介 绍实 战原创 2020-02-01 21:17:54 · 669 阅读 · 0 评论 -
Hadoop集群大数据解决方案之核心组件MapReduce(四)
前言 当今天下,大数据组件百花齐放,满足不同应用场景的计算框架层出不穷,mapreduce似乎早已很难有一席之地,但是天下武功,殊途同归,不管怎么变化,都离不开mapreduce的影子,今天,就一起揭开下最原始的计算框架mapreduce的面纱。核心设计理念 分布式计算,即移动计算 而不移动数据。原理剖析...原创 2020-01-29 15:01:12 · 595 阅读 · 0 评论 -
Hive从入门到放弃——Hive常用连接工具推荐(三)
准 备 介 绍实 战原创 2020-01-03 11:56:06 · 8769 阅读 · 0 评论 -
Hive从入门到放弃——Hive安装和基本使用(二)
Hive下载 这里使用Hive 2.3.5版本为例子: 官网下载地址:http://archive.apache.org/dist/hive/hive-2.3.5 一般是下载编译好的bin.tar.gz包:apache-hive-2.3.5-bin.tar.gz,如图1 图1 下载tar包选择安装metadata库 为了配合Hadoop家族开源的精神,这么metadata就选.........原创 2019-11-10 11:38:58 · 1230 阅读 · 0 评论 -
Hive从入门到放弃——Hive背景和基础架构介绍(一)
Hive背景 Hadoop家族虽然MapReduce提供了抽象类或者 编程接口框架,使得开发人员能够按照模板式的开发代码就能完成大数据的离线计算,但是对于技能点只加到了sql语句的分析师,数据开发工程师了来说,需要Java或者Python编码就显得不那么友好了,于是Hive就来了,Hive是由FaceBook开发并贡献给Hadoop社区的,目前也深受国内各大BAT的喜爱,也说是很有前景的,图1...原创 2019-11-09 22:55:53 · 660 阅读 · 0 评论 -
Shell语言调用SparkSQL抽取业务DB数据到hadoop集群
场景 技术背景:使用hadoop集群搭建数仓,前端业务DB,mysql,mssql居多,构建数据仓库ods层需要将数据先集成到hdfs内,又被parquet文件的有序格式深深吸引,说白了就是想要实现将前端业务DB的数据以parquet文件的形式unloa到hdfs内,穷的又买不起强大的ETL工具,kettle屡屡碰壁后,就只能回到最原始的shell脚本来最简单的实现该功能,毕竟相对于Java、...原创 2019-10-15 20:35:08 · 418 阅读 · 0 评论 -
Hadoop集群大数据解决方案之HDFS文件系统详解(三)
HDFS全称Hadoop Distributed File System,是Hadoop的一套开创性的数据存储方案,人们天天出牛逼喊出来的Data Lake(数据湖)的一种,其实说白了就是一种分布式文件系统,什么是文件系统,其实就是针对一块磁盘进行划分成一小块一小块的block来存储文件,文件也被切割成一个一个的小块存放在这些block里面,文件像萝卜,磁盘块像坑,而文件最后一块如果小于一个磁...原创 2019-07-31 20:18:31 · 908 阅读 · 0 评论 -
Hadoop集群大数据解决方案之搭建Hadoop3.X+HA模式(二)
why hadoop2.X?IBM上有篇论文讲的够详细了:文章链接。 最直观的改进就是是2.X多了Yarn资源管理器优化资源分配,以及新增有HA模式防止单点故障,接下来就开始搭建一套分布式的Hadoop2.X+HA模式的平台,如果学习的话,可以用申请一年或者半年的免费云服务,当然也可以自己用虚拟机,若影用的呢是虚拟机模式的。准备阶段安装集群操作系统:检查一下自己电脑配置,因为最少...原创 2019-06-16 18:23:32 · 2036 阅读 · 1 评论