
♣【大数据】
杨士超
这个作者很懒,什么都没留下…
展开
-
BigData进阶--Spark中的函数与符号
刚接触spark不久,整理一些常用的方法与大家分享: 1.Character.isDigit() 判断是否为数字 2.Character.isLetter(): 判断是否为字母 3.ToList.takeWhile(x=>x != B): takeWhile的判断结果是Boolean,只要x值不等于B,则继续取;否则停止取元素的操作 4.map函数:原创 2017-12-26 18:08:14 · 1284 阅读 · 0 评论 -
BigData进阶--Spark的RDD操作
在上篇博文中已经讨论过Spark的RDD和DataFrame,这篇就来探究一下RDD集的具体操作。 Spark中RDD是一个不可变的分布式对象集合,每个RDD都被分成多个分区,这些分区运行在集群中的不同节点上。用户可以通过两种方式来创建RDD集合:读取外部数据集和在驱动器程序里分发驱动器程序中的对象集合(比如list和set)。创建完成后,RDD支持转化操作和行为操作,通俗的来讲,就是将R原创 2017-12-26 18:09:35 · 762 阅读 · 0 评论 -
BigData进阶--hdfs中SecondaryNameNode的作用
首先需要明确的是SecondaryNameNode不是NameNode的备份,只是解决NameNode的部分问题。 一、明确NameNode的作用 NameNode主要是用来保存HDFS的元数据信息,比如命名空间信息,块信息等。当它运行的时候,这些信息是存在内存中的。但是这些信息也可以持久化到磁盘上。 上面的这张图片展示了NameNode怎么把元数据保存到磁盘上的。原创 2017-10-31 16:25:17 · 2429 阅读 · 0 评论 -
BigData进阶--细说RDD,DataFrame,Dataset的区别
在spark中有重要的组件SparkContext和SQLContext,在读取数据文件时我们可以通过这两个组件进行不同形式的读取,比如: val conf = new SparkConf().setMaster("local").setAppName("testRead") val sc = new SparkContext(conf) val readFile = sc.textFil原创 2017-12-26 18:06:10 · 3773 阅读 · 2 评论