
Hadoop
文章平均质量分 82
猿累人生
这个作者很懒,什么都没留下…
展开
-
scala(1)----windows环境下安装scala以及idea开发环境下配置scala
1、scala的下载 下载scala之前,选择对应的版本,因为我们采用的是spark3.0.0版本的,所以此处使用scal2.12版本 spark官网地址:http://spark.apache.org/docs/latest/ scala下载地址:http://www.scala-lang.org/download/all.html 点击scal-2.12.4,进入如下页面 选择scala-2.12.4.msi进行下载 ...原创 2020-07-01 15:11:19 · 423 阅读 · 0 评论 -
scala(1)---概述与环境搭建
1、什么是scala 1)、scala来源于Scalabe Language(可伸缩的语言)它是一门基于JVM的多范式编程语言。 2)、scala是一种运行在JVM上的函数式的面向对象语言,之所以这样说,是因为它的设计目标是:随着用户的需求一起成长,scala可以被广泛的应用于各种编程任务,从编写小的脚本到巨型任务都可用scala进行编写。 注:基于JVM,scala的运行环境和java类似,也是依赖于JVM的 多范式:scala支持多种编程风格,如面向对象编程、面向函数式编程风格...原创 2021-04-28 16:14:35 · 337 阅读 · 0 评论 -
spark(1)---概述
spark官网地址:http://spark.apache.org/ 1、什么是spark? 1)、spark是2008年诞生于加州大学伯克利分校AMP实验室开发的通用大数据框架。2010年开源,2013年6月成为apache孵化项目,2014年2月成为apache顶级项目。 2)、spark是一种快速、通用、可扩展的大数据分析引擎。 3)、spark是用scala进行编写的框架,为了更好学习spark,需要先学习scala多范式编程语言。 官方定义: 翻译过来:apache spark是.原创 2021-07-21 00:08:55 · 574 阅读 · 3 评论 -
mapReduce入门示例2---手机用户上行、下行、总流量数据分析统计
需要分析统计的数据: 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 200 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197.40.4 4 ...原创 2019-07-24 16:07:04 · 599 阅读 · 0 评论 -
hdfs设计思想
hadoop分为四大模块,分别为:common、hdfs、yarn、mapreduce 什么是HDFS? hdfs是一个分布式文件系统。 hdfs设计思想? 设计思想采用的是“分而治之”,分就是当一个文件过大时,一台计算机存储不了,就采用切分存储。 1、设计思想1:分块存储 每一个块叫做block,如果有1个主节点和4个从节点的集群。 问题1、设计分块为什么需要考虑到负载均衡? 当...原创 2019-05-16 09:32:41 · 1541 阅读 · 0 评论 -
hadoop(2)---概述
hadoop是从Nutch搜索引擎项目里拆分出来的,其中有两个模块HDFS(分布式存储)、MapReduce(分布式计算) 1、hadoop项目由四个部分组成 1)、Hadoop Common:为其它hadoop模块提供基础设施 分布式存储与分布式计算需要网络通讯,common就是为其它hadoop模块提供网络基础设施的。它封装了一个RPC框架。 2)、HDFS:hadoop分布式文件系统...原创 2019-05-09 11:41:48 · 196 阅读 · 0 评论 -
hadoop(1)---前世今生
首先说一下谷歌的搜索引擎,主要做两件事情: 第一、通过网络爬虫去各个网页上爬取数据,爬取完数据后需要找个位置存储。 第二、通过索引服务器对爬取的数据进行分析,然后生成索引。通过索引就可以对各个网页进行检索查询 但是搜索引擎是商业版的,这时一个程序员Doung cutting觉得搜索引擎就是分析各个网页的数据,分析完后生成索引文件,而索引文件就是通过各个关键字去检索网页的。这时Doung cu...原创 2019-05-09 10:46:32 · 310 阅读 · 0 评论 -
hadoop2.9.1之集群搭建(单机)
第一步、下载hadoop到本地 下载地址:http://hadoop.apache.org/releases.html 下载后,如下: 下载完成后,通过WinScp将其上传到linux中的/usr/local/hadoop目录下 将hadoop.gz包进行解压,命令如下: tar -zxvf hadoop.gz 解压后,通过ls命令查看/usr/local/hadoop目...原创 2019-05-05 22:45:12 · 291 阅读 · 0 评论