(一)大数据的基本概念
进入到我们安装yarn的主机,通过命令来关闭掉yarn和historyServer,然后再重启。
[root@hadoop103 hadoop-3.1.3]$ sbin/stop-yarn.sh
[root@hadoop103 hadoop-3.1.3]$ mapred --daemon stop historyserver
启动ResourceManage和HistoryServer
(二)大数据的特点
大数据不止有数量大这个显著的特点,还有其他的特点,我们总结为4V。具体如下:
Vol
例如:11.11期间,京东在1秒内的交易额就超过了10亿。
Variety(多样)
数据
(三)大数据的应用场景
大数据技术与我们整个社会都融合到了一起,密不可分。
在个人消费领域:具体体现就是千人千面。
视频推荐:推荐你喜欢的内容给你。
电商推荐:熟人推荐。给你家人推荐的内容,也会推荐给你。
零售:分析用户消费习惯,为用户购买商品提供方便。纸尿裤+啤酒。
金融:多维度体现用户特征,帮助金额机构推荐优质客户。
在生产领域:准确,提效
物流仓储:京东物流,上午下单下午送达。
(四)大数据的技术发展脉络
接下来我们来粗略看整个大数据技术的发展脉络,这里我们分成三个阶段来介绍。
阶段1
阶段2:大数据时代-分布式处理(把计算中的中间数据保存在磁盘-hadoop)
数据多了之级),这个时候就出现了Spark技术,spark经常和hadoop来对比,更准确是和mapReduce进行对比,因为spark本身也是一个计算框架。spark是基于内存的计算,mapReduce是基于磁盘的计算。它也提供类似于Hive的方案让用户在spark的API上去写SQL。