大数据学习
文章平均质量分 88
域清风
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
mongodb的insert和save问题
mongodb的insert和saveinsertinsert()方法:当插入数据时,_id重复,则mongodb会直接报错,并返回对应的_idsavesave()方法:当插入数据时,它会先去循环一遍集合中的所有数据,判断插入的数据的_id是否存在于集合中,如果不存在则会直接插入一条新的文档,如果存在,则会调用mongodb的update()方法,更新_id对应的数据(相当于覆盖该_i...原创 2019-08-20 17:24:55 · 1868 阅读 · 0 评论 -
大数据学习
前言一、背景介绍大数据真的强二、大数据介绍大数据本质也是数据,但是又有了新的特征,包括数据来源广、数据格式多样化(结构化数据、非结构化数据、Excel文件、文本文件等)、数据量大(最少也是TB级别的、甚至可能是PB级别)、数据增长速度快等。针对以上主要的4个特征我们需要考虑以下问题:数据来源广,该如何采集汇总?,对应出现了Sqoop,Cammel,Datax等工具。数据采集之后,该如...转载 2019-08-20 17:29:49 · 360 阅读 · 2 评论 -
简单的总结了下hdfs
1. HDFS前言HDFS:Hadoop Distributed File System ,Hadoop分布式文件系统,主要用来解决海量数据的存储问题重点:文件切块,副本存放,元数据2. HDFS特性1.概念:首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色;2.特性:(1)H...原创 2019-09-26 16:15:06 · 836 阅读 · 0 评论 -
简单的总结zookeeper
1.功能分布式同步配置管理集群管理命名管理队列管理2.实现数据模型(znode)+原语+通知机制(watch)Znode:[外链图片转存失败(img-FIvIHuUU-1569485738656)(assets\35-356798741.png)]介绍:ZooKeeper的数据模型,在结构上和标准文件系统的非常相似,都是采用这种树形层次结构,ZooKeeper树中的每个节点被...转载 2019-09-26 16:16:24 · 393 阅读 · 0 评论 -
简单的总结MR
1.MapReduce前言1.为什么需要MR1、海量数据在单机上处理因为硬件资源限制,无法胜任2、而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复杂度和开发难度3、引入 MapReduce 框架后,开发人员可以将绝大部分工作集中在业务逻辑的开发上,而将 分布式计算中的复杂性交由框架来处理单机版磁盘受限,内存受限,计算能力受限分布式1、 数据存储的问题,h...原创 2019-09-26 16:17:45 · 485 阅读 · 1 评论 -
放一些MR案例
1.partitioner分区1.概念1、将map输出的kv对,按照相同key分组,然后分发给不同的reducetask默认的分发规则为:根据keyhashcode%reducetask2、一般返回值从0开始,并且定义多少的reduce数,就有多少分区2.实例class MyPartition extends Partitioner<Text, IntWritable> {...原创 2019-09-26 16:19:16 · 846 阅读 · 2 评论
分享