初识hadoop

最新推荐文章于 2025-08-11 06:00:00 发布

weixin_33972649

最新推荐文章于 2025-08-11 06:00:00 发布

阅读量49

点赞数

CC 4.0 BY-SA版权

文章标签：数据结构与算法 python 大数据

原文链接：https://my.oschina.net/u/1240964/blog/798953

本文介绍了网格计算的基本概念及其志愿计算模型，重点讲解了Hadoop技术栈中的关键组件，如HDFS、MapReduce、Pig、HBase、Zookeeper、Hive等，并概述了这些组件的功能和应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2019独角兽企业重金招聘Python工程师标准>>>

网格计算通过利用大量异构计算机（通常为台式机）的未用资源（CPU周期和磁盘存储），将其作为嵌入在分布式电信基础设施中的一个虚拟的计算机集群，为解决大规模的计算问题提供一个模型。

志愿计算：

捐献CPU周期

job tracker 的任务是追踪mapreduce 作业

SEARCH 组成部分

crawler：下载网页，webmap 构建网络地图

indexer ：为最佳界面构建反向索引

hadoop技术栈：

序列化：

将结构化的对象转为字节流

用于进程间的通信和持久存储；

什么是序列化？序列化就是将数据结构或对象转换成二进制串的过程，也就是编码的过程。

什么是反序列化？将在序列化过程中所生成的二进制串转换成数据结构或者对象的过程。

为什么需要序列化？转换为二进制串后才好进行网络传输嘛！

为什么需要反序列化？将二进制转换为对象才好进行后续处理！

从RPC的角度上看，主要看三点：1）通用性，比如是否能支持Map等复杂的数据结构；2）性能，包括时间复杂度和空间复杂度，由于RPC框架将会被公司几乎所有服务使用，如果序列化上能节约一点时间，对整个公司的收益都将非常可观，同理如果序列化上能节约一点内存，网络带宽也能省下不少；3）可扩展性，对互联网公司而言，业务变化飞快，如果序列化协议具有良好的可扩展性，支持自动增加新的业务字段，而不影响老的服务，这将大大提供系统的灵活度。

RPC（Remote Procedure Call Protocol）：http://www.cnblogs.com/LBSer/p/4853234.html

core ：一系列分布式文件系统和通用I/O组件和接口（序列化，JAVA RPC,持久化数据结构）

ARvo ：一种高效跨语言 rpc 数据序列系统，持久化数据存储

mapreduce ：分布式数据处理模式和执行环境，大型商用机集群

HDFS : 分布式文件系统

Pig ：一种数据流语言和运行环境，检索非常大的数据集。pig 运行在 mapreduce 和 Hdfs上

Hbase ：一个分布式的列存储的数据库，Hbase 使用hdfs作为底层存储，支持mapreduce批量式计算和点查询（随机读取）

Zookeeper ：一个分布式的高可用性的协调服务，提供分布式锁的服务用于构建分布式应用

Hive : 分布式数据仓库，管理hdfs中存储的数据，并提供SQL查询

Chukwa ：分布式数据收集和分析系统，运行hdfs中的存储数据的收集器，使用mapreduce生成报告

shell编程 awk

Map reduce逻辑数据流 shuffle“洗牌”

多个reduce任务的mapreduce数据流

客户端从HDFS读取数据

ssh 安全外壳协议

zookeeper: 目的是提供一些工具集，用来建立安全处理局部故障的分布式应用

计算一个网页的重要性：那些网页包含该网页指向的外向链接

有一段时间没做这方面的工作了，以前的草稿，发一下。

转载于:https://my.oschina.net/u/1240964/blog/798953

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。