
big data
文章平均质量分 96
北山啦
这个作者很懒,什么都没留下…
展开
-
Spark环境搭建、运行模式、RDD简单操作
安装一个简单的伪分布式Spark集群。实验环境前提是已经配置好Java、Hadoop了环境:Linux安装包版本:安装包存放路径:/usr/local实验原理安装配置:安装过程其实很简单,Spark是一个计算框架,功能就和Hadoop的MapReduce一样,Hadoop的MapReduce是不需要启动的,因MapReduce只是提供了一组计算的API,使用Yarn作为资源调度就行。环境监控:Spark集群配置好以后,可以使用sbin目录下的start-all.sh启动集群。启动集群原创 2021-05-18 11:35:08 · 4417 阅读 · 9 评论 -
数据仓库技术与Hive入门
在理论上,任何一款编程序言只要具备读写数据、处理数据的能力,都可以用于数仓的开发,例如:Python,JAVA、C等关键在于编程语言是否易学、好用、功能是否强大,不论从学习成本还是开发效率,上述的编程语言不是很友好,在数据分析领域,不得不提的就是SQL,分析领域主流开发语言SQL:结构化查询语言(Structured Query Language),是一种数据据库查询和程序设计语言,用于存储数据已经更新和管理数据SQL语言功能强大,核心功能秩序用9个动词,语法接近英语口语,用户很容易学习和使用。原创 2023-06-17 23:26:35 · 1201 阅读 · 1 评论 -
Hadoop 生态圈及核心组件简介Hadoop|MapRedece|Yarn
大数据Hadoop、mapreduce、yarn,Hadoop生态圈总结,侠义上Hadoop指的是Apache软件基金会的一款开源软件允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理Hadoop核心组件HDFS:分布式文件存储系统,解决海量数据存储YARN:集群资源管理和任务调度框架,解决资源任务调度MapReduce:分布式计算框架,解决海量计算广义上Hadoop指的是围绕Hadoop打造的大数据生态圈Hadoop集群包括两个集群:HDFS集群、YARN集群。原创 2023-04-12 01:01:38 · 6973 阅读 · 3 评论