
Hadoop
文章平均质量分 81
_suzhou
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
初识Hadoop(1)
一些基本问题: 1 避免数据丢失的常见做法是复制:通过系统保存数据的冗余副本,在故障发生时,可以使用数据的另一个副本,这就是冗余磁盘阵列的工作方式。 Hadoop的文件系统HDFS(Hadoop Distributed Filesystem) 2 大部分分析任务需要通过某种方式把数据合并起来。MapReduce提供一个编程模型,其抽象出磁盘读写的问题,将其转换为计算一个由成对键值组成的数据集原创 2013-05-18 14:26:55 · 1189 阅读 · 2 评论 -
初识Hadoop(2)
Hadoop分布式文件系统 管理着跨计算机网络存储的文件系统称为分布式文件系统。使这个文件系统能容忍节点故障而不损失数据就是一个极大的挑战。 HDFS是Hadoop的旗舰级文件系统。 HDFS是为以流式数据访问模式存储超大文件而设计的文件系统。 流式数据访问:一次写入,多次读取模式是最高效的。每次分析至少会涉及数据集中的大部分数据,因此读取整个数据集的时间比读取第一条记录的延迟更为重要。原创 2013-05-18 19:18:46 · 1011 阅读 · 0 评论 -
初始Hadoop(3)
一 Hadoop的I/O 1 数据完整性 检测损坏数据的常用方法是在第一次进入系统时计算数据的校验和,如果新生成的校验和不完全匹配原始的校验和,那么数据就被认为是被损坏了。 每个512字节都有一个单独的校验和。 数据节点负责在存储数据及其校验和前验证它们收到的数据。客户端写入数据并且将它发送到一个数据节点的管线中,在管线上的最有一个数据节点验证校验和。如果此节点检测到错误,客户端便会收到一原创 2013-05-19 15:38:23 · 1272 阅读 · 0 评论 -
【细嚼慢咽大数据】第一章——数据挖掘基本概念,邦弗朗尼原理,IF.IDF指标,哈希函数
1 数据挖掘的定义:数据挖掘是数据“模型”的发现过程。 统计学家认为数据挖掘就是统计模型的构建过程,而这个统计模型指的就是可见数据所遵从的总体分布。 2 模型: 建模方法可以描述为下列两种做法之一: (1)对数据进行简洁的近似汇总描述;——数据汇总 (2)从数据中抽取出最突出的特征来代替数据并将剩余内容忽略。——特征提取 3 数据汇总 (1)PageRank:一原创 2013-05-31 21:20:11 · 2296 阅读 · 0 评论