
Hadoop
文章平均质量分 84
布Q丁
这个作者很懒,什么都没留下…
展开
-
HDFS Hadoop-1.x 理论
HDFS(分布式文件系统)为了做到可靠性(reliability)创建了多份数据块(data blocks)的复制,并将它们放置在服务器群的计算节点中(compute nodes),MapReduce就可以在它们所在的节点上处理这些数据了。除了可靠性,HDFS在一定程度上可以提高数据的读取速度。 HDFS中有三个重要的节点:Name Node,Data Node,Secondary Nam...原创 2018-09-06 11:09:08 · 192 阅读 · 0 评论 -
HDFS 节点功能
HDFS中三种节点的功能:一、NameNode(NN)-- NameNode主要功能:接受客户端的读写服务-- NameNode保存元数据(metadata)信息,主要包括 (1)文件拥有者和权限 (2)文件包含哪些块 (3)每个块保存在哪个DataNode上(由DataNode启动时上报)解释:每个块保存在哪个DataNode上,这个信息不会保存在N...原创 2018-09-06 11:09:28 · 3731 阅读 · 0 评论 -
HDFS读写流程
HDFS读流程:首先客户端通过调用Distributed FileSystem API的open方法发送请求到NameNode,NameNode将相应文件的Block的位置信息(元数据中存在这些信息)返回给客户端,客户端通过FSData InputStream的read方法并发的读每个Block(即图中4,5是并发执行的,每个block都有多个副本,程序会找相对空闲的DataNode节点去...原创 2018-09-06 11:09:18 · 913 阅读 · 0 评论 -
大数据算法 十大经典算法
一、C4.5C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5相比于ID3改进的地方有:1、用信息增益率来选择属性。ID3选择属性用的是子树的信...转载 2018-09-06 11:15:13 · 552 阅读 · 0 评论 -
Hadoop 1.2.1 完全分布式搭建
一、准备工作(1)在Windows 10机器上安装VMware Workstation并建立三台虚拟机,我使用的是CentOS7系统,配置相应的IP地址(根据自己电脑的IP地址配置),然后在每台机器中配置JDK环境。(2)安装Xshell 6用于远程登录系统(3)安装Secure File Transfer Client,用于在Windows系统向虚拟机上传输文件(4)Hadoop...原创 2018-09-13 16:32:21 · 954 阅读 · 0 评论