- 博客(8)
- 资源 (1)
- 收藏
- 关注
原创 大数据平台搭建详解
大数据平台搭建(实验室版)1大数据介绍:1.1背景进入21世纪随着计算机科学的迅速发展,人民生活水平的提高,各种交易产生的数据也飞速增长,2016天猫双11谢幕,根据阿里公布的实时数据,截至11日24:00:00,2016天猫双11全球狂欢节总交易额超1207亿,无线交易额占比81.87%,覆盖235个国家和地区,当然还包括京东618等,产生的数据都是相当可观的,如此大的数据计算,统计,分析,使用...
2018-05-12 11:41:37
33304
4
原创 hdfs源码详解系列(第一节)
hdfs基础架构介绍hdfs简介hdfs是hadoop distributed filesystem的缩写,设计思想最早源于GFS(google分布式文件系统),顾名思义就是hadoop分布式文件系统,简单通俗的将就是将一个大文件切分成若干个块(切割后的小文件)存储在不同的机器上,然后将每个小文件对应的位置以及偏移量保存起来,用去读写或则追加(不支持修改),负责管理块与机器对应关系的节点叫做nam...
2018-03-15 15:39:07
1812
1
原创 hiveserver2 HA
背景介绍: 大家好,昨日离线集群很多租户包括自己团队反应hive提交任务会卡住,或则几乎登录不上去,我看了一下yarn的资源,资源基本上是空闲的,几乎没有用的,根据我的经验,我猜测可能是hiveserver2服务出问题了,于是直接使用cli(hive命令),试了一下,没问题,此时虽然还没有看日志,但是已经想到hiveserver2服务出问题了,由于是生产环境,没有想太多,赶快重启了hive
2017-11-22 20:41:27
3178
原创 大数据集群修机器名
背景介绍:近日公司两套大数据集群,出现了主机名重复,有些程序需要同时调用,而且程序调用必须用host文件,这样问题就来了,机器名冲突,两套集群,一套是实时流,一套是离线跑批集群,评估其危险系数,只能改离线集群了,废话不所说,现在就开始说说怎么里边的坑。1 生产环境介绍:jdk1.8hadoop-2.5.1hive-2.1.0spark-1.6.2其他的就不再介绍了,下边
2017-10-25 15:44:46
450
原创 hadoop存储hdfs磁盘余留问题
背景介绍:近日由于公司大数据集群进行了升级,新增的服务器数据盘几乎是空的,但是考虑到集群数据量较大(大概100多个TB),而且集群几乎24小时在用,考虑到以下因素,1 做大规模集群负载均衡是否会造成数据丢失?2 根据hadoop官网介绍限制负载均衡网络限制(dfs.datanode.balance.bandwidthPerSec)是否可以起到真正的作用? 3 迁移过程中,有些块正在
2017-10-16 11:24:08
3109
大数据平台搭建详解
2018-05-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人