
hadoop
文章平均质量分 78
wu大熊
chown -R bear flume
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
在windows搭建hadoop
windows下的hadoop搭建最小化配置启动查看界面 最小化配置 core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> hdfs-site原创 2020-08-12 21:53:00 · 170 阅读 · 0 评论 -
flume
flume定义作用组成AgentSourceChannelSink安装 定义 flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输系统。Flume基于流式架构,灵活简单 作用 组成 Agent Agent是一个JVM进程,以事件的形式将数据从源头送至目的地,是flume数据传输的基本单元 Afgent由source、channel、sink组成 Source Source是负责接受数据到Flume Agent的组件,可以接受处理各种类型的日志格式数据 Channel原创 2020-07-28 00:02:58 · 143 阅读 · 0 评论 -
hadoop-mapreduce
mapreduce概述定义优点缺点 概述 定义 mapreduce是一个分布式的运算程序的编程框架,是用户开发基于hadoop的数据分析应用的核心的框架。其核心功能为将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群之上。 优点 1)容易编程。简单地实现了一些接口就可以完成一个分布式的程序,这个分布式程序可以分布到大量廉价的pc机器上面运行,也就是说写一个分布式程序跟写一个简单的串行程序是一样的,这使得mapreduce编程非常流行。 2)拓展性好。当计算资原创 2020-07-27 22:51:51 · 103 阅读 · 0 评论 -
hadoop-hdfs
HDFS概述定义优点缺点架构块大小shell操作命令 概述 数据量越来越大,我们一个操作系统往往存不下所有的数据,所以会分配给很多操作系统管理的磁盘里面,但是这样不方便管理维护,我们需要一种系统管理多台机器上的文件。hdfs是其中的一种 定义 hadoop distributed file system简称hdfs是一个分布式文件系统,适合一次写入,多次读出,不支持修改文件,适合做数据分析,不适合做网盘。 优点 1)高容错 数据自动保存多个副本,副本丢失还可以自动恢复 2)适合处理大数据,TB甚至PB的数据原创 2020-07-27 22:38:16 · 123 阅读 · 0 评论 -
Hadoop-入门
hadoop安装使用概念二级目录安装二级目录 概念 hadoop是一个由apache基金会所开发的分布式系统基础架构,主要是用来解决 二级目录 安装 二级目录原创 2020-07-27 22:02:01 · 239 阅读 · 0 评论 -
hadoop-hadoop的各种版本
hadoop的各种版本概述三大发行版本ApacheCloudera HadoopHortonworks Hadoop选型 概述 由于apache hadoop是开源的,任何人可以对其修改并作为开源或者商业的产品,所以出现很多发行版本,例如华为发行版、、Cloudera发行版(CDH)等。 三大发行版本 Hadoop三大发行版本:Apache、Cloudera、Hortonworks。 Apache版本最原始(最基础)的版本,对于入门学习最好。 Cloudera在大型互联网企业中用的较多。 Hortonwor原创 2020-07-25 23:21:07 · 1948 阅读 · 0 评论