
大数据
大数据知识分享
GitCloud
这个作者很懒,什么都没留下…
展开
-
大数据系列(8)Hadoop生态简介
生态圈 HBase简介 高可靠,高性能,面向列,可伸缩,实时读写的分布式数据库 利用HDFS作为其文件存储系统,支持MR程序读取数据 存储非结构化和半结构化数据 RowKey:数据唯一标识,按字典排序 Column Family:列族,多个列的集合,最多不要超过3个 **TimeStamp时间戳:**支持多版本数据同时存在 Spark 基于内存的大数据并行计算框架 Spark是MapRed...原创 2020-04-15 21:56:31 · 162 阅读 · 0 评论 -
大数据系列(7)Hadoop总结及延伸思考
延伸思考 如何通过Hadoop存储小文件? 当有节点故障的时候,集群是如何继续提供服务的,如何读,如何写? 哪些是影响MapReduce性能的因素?原创 2020-04-15 21:31:37 · 242 阅读 · 0 评论 -
大数据系列(6)MapReduce实战
通过Python程序演示Map方法和Reduce方法 提交基于MapReduce模型的WordCount程序并执行原创 2020-04-15 21:27:05 · 211 阅读 · 0 评论 -
大数据系列(5)Mapreduce和Yarn简介
MapReduce简介 MapReduce是一种编程模型,是一种编程方法,是抽象的理论。 YARN概念 ResourceManager ApplicationMaster NodeManager ResourceManager 分配和调度资源 启动并监控ApplicationMaster 监控NodeManager ApplicationMaster 为MR类型的程序申请资源,并分配给内...原创 2020-04-15 21:07:21 · 191 阅读 · 0 评论 -
大数据系列(4)python程序操作HDFS
hdfs3这个python模块不再维护了,推荐使用pyarrow原创 2020-04-15 20:42:02 · 198 阅读 · 0 评论 -
大数据系列(3)Shell命令操作HDFS
实战HDFS操作 通过Shell命令对HDFS进行操作,与Linux操作文件类似 通过编写Python程序对HDFS进行操作 常用HDFS Shell命令 类Linux系统:ls,cat,mkdir,rm,chmod,chown等 HDFS文件交互:copyFromLocal,copyToLocal,get,put ...原创 2020-04-15 20:30:42 · 485 阅读 · 0 评论 -
大数据系列(2)HDFS写流程和读流程
两个问题 数据块一般设置为128M 如今的NameNode有两个节点,解决了如今的单点问题 HDFS写流程 客户端向NameNode发起写数据请求 分块写入DataNode节点,DataNode自动完成副本备份 DataNode向NameNode汇报存储完成,NameNode通知客户端 HDFS读流程 客户端向NameNode发起读数据请求 NameNode找出距离最近的DataNo...原创 2020-04-15 10:40:33 · 147 阅读 · 0 评论 -
大数据系列(1)Hadoop是什么?
Hadoop Hadoop是一个开源的大数据框架 Hadoop是一个分布式计算的解决方案 Hadoop=HDFS(分布式文件系统)+ MapReduce(分布式计算) Hadoop核心 HDFS分布式文件系统:存储是大数据技术的基础 MapReduce编程模型:分布式计算时大数据应用的解决方案 HDFS 普通的成百上千的机器 按TB甚至PB为单位的大量的数据 简单便捷的文件获取 Had...原创 2020-04-15 10:23:36 · 287 阅读 · 0 评论