
大数据
wait me
这个作者很懒,什么都没留下…
展开
-
大数据技术学习笔记五--HDFS客户端操作
HDFS架构NameNode(nn)集群的管理者Master(元数据文件名称,大小,副本数,位置等)负责client的读写请求维护管理hdfs的名称空间维护副本策略客户端:上传文件到HDFS的时候,负责文件的切分–block;向DataNode读/写数据;与namenode交互主要获取文件block的位置信息)可以用命令管理hdfs或者访问hdfsdatanode:实际存储block数据负责block的读写数据...原创 2021-06-08 22:49:10 · 324 阅读 · 4 评论 -
大数据技术学习笔记四:HDFS分布式文件系统
HDFS是什么?全称:Hadoop Distribute File System,Hadoop 分布式文件系统)是 Hadoop 核心组成,是分布式存储服务。在大数据中,为存储和处理超大规模数据提供所需的扩展能力。是分布式文件系统中的一种;而且使用的是最多的一种概念:HDFS的架构典型的Master/Slave结构往往是NameNode(HA架构会欧两个NameNode,联邦机制) +多个DataNode组成;NameNode是集群的主节点,DataNode是集群的从节点。两者互相合作分块原创 2021-06-07 23:06:24 · 181 阅读 · 4 评论 -
大数据技术学习笔记三--Apache Hadoop
Apache Hadoop组成Hadoop HDFS:(Hadoop Distribute File System )一个高可靠、高吞吐量的分布式文件系统处理的状态简述:将数据进行切割, 为防止数据出现问题,则制作副本,分散存储NameNode(nn):存储文件的元数据,比如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。(NameNode相当于管理和维护元数据;元数据记录了文件的块列表以及块所在的DataNode节点信息,如同maste原创 2021-05-31 22:20:38 · 448 阅读 · 4 评论 -
大数据学习笔记二--hadoop简介
Hadoop 是一个适合大数据的分布式存储和计算平台。狭义:Hadoop就是一个框架平台广义:p代表大数据的一个技术生态圈,包括很多其他软件框架Hadoop特点:扩容能力:在计算机集群内分配数据并完成计算任务,集群可以扩展到超多节点低成本:可以通过普通机器组成服务器集群来分发处理数据高效率:可以在节点之间动态并行的移动数据,速度提升可靠性:能自动维护数据的多份复制,在任务失败后能自动的重新部署,并计算任务版本:Apache Hadoop 原始版本优点:开源免费,拥有开源的贡献,代码更新版原创 2021-05-31 21:45:29 · 221 阅读 · 0 评论 -
大数据技术学习笔记一
大数据技术主要用来解决:主要是海量数据的存储和计算一般用在无法在一定时间内使用常规软件工具进行处理,需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产大数据的特点:大量采集、存储和计算的数据量都非常大计算机存储单位一般用B,KB,MB,GB,TB,PB,EB,ZB,YB,BB、NB、DB来表示;以1024为进制高速在大数据时代,数据的创建、存储、分析都要求被高速处理,比如电商网站的个性化推荐尽可能要求实时完成推荐,这也是大数据区别于传统数据挖掘的原创 2021-05-31 21:27:54 · 187 阅读 · 0 评论