
选修 hadoop
48N6E
这个作者很懒,什么都没留下…
展开
-
2019/08/16 Hadoop基础(01)
Bigdata:数据分三类结构化数据:约束半结构化数据:xml,json,yaml没有预定义的数据模型非结构化数据:没有元数据;日志信息,原创 2020-04-22 08:42:54 · 128 阅读 · 0 评论 -
2019/08/09 Hadoop基础(02)
map和reducer,数据是进行交互的,map数据处理结果以后要发送给reducer,reducer的启动时间是可以自己定义的,当用户提交作业的时候,启动map和reducer其实并没有严格意义上的时间规定,一般mapper任务结束,reducer才能启动,mapper可以把中间处理的结果都发给reducer,启动的晚的话,mapper生成的结果有可能需要现在本地保存起来reducer可以跟m...原创 2020-04-22 09:03:08 · 177 阅读 · 0 评论 -
2019/08/20 hadoop伪分布式模型(03)
回顾:Hadoop:存储和处理平台,两大类组件hdfs:集群,NN 名称节点,SNN 辅助名称节点(实现HDFS日志与它的映像文件执行合并操作并且在HDFS的NN节点故障以后,能快速从image文件恢复元数据并等待个数据节点报告后生成一个完整的原数据列),DN 数据节点mapreduce:(有中心节点的工作方式)集群,JobTracker(集群资源管理,作业管理),TaskTracker(...原创 2020-04-22 09:54:53 · 178 阅读 · 0 评论 -
2019/08/22 Hadoop 2分布式集群(04)
对于hadoop而言,启动的主要进程,cluster中的daemon:HDFS:namenode,NN (对hadoop来讲,nn是在内存中存储元数据的,不断根据客户端请求和本地文件改变修改元数据,包含每个文件有多少data block,存储在哪个data、 node上 映射关系,有两种映射表,每个文件有多少个块,块在哪个节点上存放,为了避免主机宕机,内存数据丢失,元数据的变化都会直接...原创 2020-09-30 14:48:27 · 135 阅读 · 0 评论