初识hadoop

本文介绍了网格计算的基本概念及其志愿计算模型,重点讲解了Hadoop技术栈中的关键组件,如HDFS、MapReduce、Pig、HBase、Zookeeper、Hive等,并概述了这些组件的功能和应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

网格计算通过利用大量异构计算机(通常为台式机)的未用资源(CPU周期和磁盘存储),将其作为嵌入在分布式电信基础设施中的一个虚拟的计算机集群,为解决大规模的计算问题提供一个模型。

志愿计算:

捐献CPU周期

job tracker  的任务是 追踪mapreduce 作业

SEARCH 组成部分

 crawler:下载网页,webmap 构建网络地图

indexer : 为最佳界面构建反向索引

 

hadoop技术栈:

 

 

序列化:

将结构化的对象转为字节流

用于进程间的通信和持久存储;

 

什么是序列化?序列化就是将数据结构或对象转换成二进制串的过程,也就是编码的过程。

什么是反序列化?将在序列化过程中所生成的二进制串转换成数据结构或者对象的过程。

为什么需要序列化?转换为二进制串后才好进行网络传输嘛!

为什么需要反序列化?将二进制转换为对象才好进行后续处理!

 

从RPC的角度上看,主要看三点:1)通用性,比如是否能支持Map等复杂的数据结构;2)性能,包括时间复杂度和空间复杂度,由于RPC框架将会被公司几乎所有服务使用,如果序列化上能节约一点时间,对整个公司的收益都将非常可观,同理如果序列化上能节约一点内存,网络带宽也能省下不少;3)可扩展性,对互联网公司而言,业务变化飞快,如果序列化协议具有良好的可扩展性,支持自动增加新的业务字段,而不影响老的服务,这将大大提供系统的灵活度。

RPC(Remote Procedure Call Protocol):http://www.cnblogs.com/LBSer/p/4853234.html

 

core : 一系列分布式文件系统和通用I/O组件和接口(序列化,JAVA RPC,持久化数据结构)

ARvo :一种高效跨语言 rpc 数据序列系统,持久化数据存储

mapreduce :分布式数据处理模式和执行环境,大型商用机集群

HDFS :  分布式文件系统

Pig : 一种数据流语言和运行环境,检索非常大的数据集。pig 运行在 mapreduce 和 Hdfs上

Hbase : 一个分布式的列存储的数据库,Hbase 使用hdfs作为底层存储,支持mapreduce批量式计算和点查询(随机读取)

Zookeeper : 一个分布式的 高可用性的 协调服务,提供分布式锁的服务用于构建分布式应用

Hive : 分布式数据仓库,管理hdfs中存储的数据,并提供SQL查询

Chukwa : 分布式数据收集和分析系统,运行hdfs中的存储数据的收集器,使用mapreduce生成报告

 

shell编程  awk

Map reduce逻辑数据流 shuffle“洗牌”

 

 

多个reduce任务的mapreduce数据流

 

 

客户端从HDFS读取数据

 

ssh 安全外壳协议

zookeeper: 目的是提供一些工具集,用来建立安全处理局部故障的分布式应用

计算一个网页的重要性:那些网页包含该网页指向的外向链接

 

有一段时间没做这方面的工作了,以前的草稿,发一下。

转载于:https://my.oschina.net/u/1240964/blog/798953

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值