网格计算通过利用大量异构计算机(通常为台式机)的未用资源(CPU周期和磁盘存储),将其作为嵌入在分布式电信基础设施中的一个虚拟的计算机集群,为解决大规模的计算问题提供一个模型。
志愿计算:
捐献CPU周期
job tracker 的任务是 追踪mapreduce 作业
SEARCH 组成部分
crawler:下载网页,webmap 构建网络地图
indexer : 为最佳界面构建反向索引
hadoop技术栈:
序列化:
将结构化的对象转为字节流
用于进程间的通信和持久存储;
什么是序列化?序列化就是将数据结构或对象转换成二进制串的过程,也就是编码的过程。
什么是反序列化?将在序列化过程中所生成的二进制串转换成数据结构或者对象的过程。
为什么需要序列化?转换为二进制串后才好进行网络传输嘛!
为什么需要反序列化?将二进制转换为对象才好进行后续处理!
从RPC的角度上看,主要看三点:1)通用性,比如是否能支持Map等复杂的数据结构;2)性能,包括时间复杂度和空间复杂度,由于RPC框架将会被公司几乎所有服务使用,如果序列化上能节约一点时间,对整个公司的收益都将非常可观,同理如果序列化上能节约一点内存,网络带宽也能省下不少;3)可扩展性,对互联网公司而言,业务变化飞快,如果序列化协议具有良好的可扩展性,支持自动增加新的业务字段,而不影响老的服务,这将大大提供系统的灵活度。
RPC(Remote Procedure Call Protocol):http://www.cnblogs.com/LBSer/p/4853234.html
core : 一系列分布式文件系统和通用I/O组件和接口(序列化,JAVA RPC,持久化数据结构)
ARvo :一种高效跨语言 rpc 数据序列系统,持久化数据存储
mapreduce :分布式数据处理模式和执行环境,大型商用机集群
HDFS : 分布式文件系统
Pig : 一种数据流语言和运行环境,检索非常大的数据集。pig 运行在 mapreduce 和 Hdfs上
Hbase : 一个分布式的列存储的数据库,Hbase 使用hdfs作为底层存储,支持mapreduce批量式计算和点查询(随机读取)
Zookeeper : 一个分布式的 高可用性的 协调服务,提供分布式锁的服务用于构建分布式应用
Hive : 分布式数据仓库,管理hdfs中存储的数据,并提供SQL查询
Chukwa : 分布式数据收集和分析系统,运行hdfs中的存储数据的收集器,使用mapreduce生成报告
shell编程 awk
Map reduce逻辑数据流 shuffle“洗牌”
多个reduce任务的mapreduce数据流
客户端从HDFS读取数据
ssh 安全外壳协议
zookeeper: 目的是提供一些工具集,用来建立安全处理局部故障的分布式应用
计算一个网页的重要性:那些网页包含该网页指向的外向链接
有一段时间没做这方面的工作了,以前的草稿,发一下。