
bigdata
寻寻尼尼
这个作者很懒,什么都没留下…
展开
-
Hadoop常用端口号有哪些?
这里包含使用的组件:HDFS、YARN、HBase、Hive、Zookeeper:组件 节点 默认端口 配置 用途说明 HDFS DateNode 50010 dfs.datanode.address datanode服务端口,用于数据传输 HDFS DateNode 50075 dfs.datanode.http.ad...原创 2018-09-07 08:50:24 · 7491 阅读 · 0 评论 -
NOSQL与RDBMS,非关系与关系型数据库的区别是什么
一:关系型数据库1、关系型数据库:RDBMS(Relational Databa指se Management System) 指采用了关系模型来组织数据的数据库,简单来说是一张二维表,而表中的数据之间有关系其中的代表有:mysql、sql server 、oracle特点: 》:事务的一致性(ACID)原子性、一致性、隔离性、持久性 》:...原创 2018-10-04 22:05:15 · 1425 阅读 · 0 评论 -
mapreduce自定义分组、自定义分区、二次排序
mapreduce中二次排序的思想中,我们常常需要对数据的分区分组进行自定义,以下就介绍一下自定义分区分组的简单实现1、自定义分区:public class demoPartitioner<K, V> extends Partitioner<K, V>{ @Override //注意有几个分区reduce任务就有几个 public int g...原创 2018-10-19 20:59:17 · 426 阅读 · 0 评论 -
Hbase架构
1、regions Hbase表按照 rowkey来水平划分region块。每一个region块包括start rowkey和end rowkey,region是由regionserver管理,regionserver把region块分配到集群的各个节点中,对数据提供读和写的功能。当一个region变的太大的时候,它会分裂成两个子Region。ps:一个regionserve...原创 2018-11-10 20:24:14 · 178 阅读 · 0 评论 -
spark运行模式
简单简述一下spark有一个主节点master和从节点worker而spark在运行在集群的时候,由driver来负责job的调度,Exexutor来运行task因此,spark的部署模式通俗的讲便是driver的运行位置主要由两个1、client(本地)2、cluster(集群)而由于spark可以交由自带的standalone集群资源管理框架管理,也可以交由ya...原创 2018-11-14 23:19:00 · 197 阅读 · 0 评论 -
mapreduce的数据清洗具体过程???
对于这个问题一般来说我们在使用mapreduce进行数据清洗的时候,只是用map端,因为数据的清洗一般不会涉及到聚合的问题,所以我们经常是设置reduce的个数为0我想这个问题,问的应该是mapreduce的运行过程吧(个人理解)mapreduce运行过程如下: mapreduce主要分为5个过程 input>>map>...原创 2018-11-16 17:20:48 · 3256 阅读 · 1 评论 -
spark 累加器实现
因为spark的map的操作是闭包的,所以想对外部变量操作像java一样设置一个外部flag是行不通的,因此可以采用累加器来实现 val sd = spark.sparkContext.longAccumulator val res = df.map{ item =>{ val arr: Array[String] = item.split("...原创 2019-08-16 15:01:37 · 519 阅读 · 0 评论