
大数据
metooman
这个作者很懒,什么都没留下…
展开
-
scala语法
scala语法原创 2017-12-11 19:26:59 · 410 阅读 · 0 评论 -
大数据的整理
主要分为,大数据运维方向,大数据数仓方向,大数据的计算方向。接下来的4天会输出一份 impala的文档原创 2018-08-16 09:23:37 · 428 阅读 · 0 评论 -
SparkWordCount源码原理
def textFile( path: String, minPartitions: Int = defaultMinPartitions): RDD[String] = withScope { assertNotStopped() hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable]原创 2017-12-11 19:40:32 · 313 阅读 · 0 评论 -
spark-streaming
SparkStrem是一个可扩展,高吞吐量,实时的流式处理可以与多个数据源整合将数据流分批次处理,每个批次就是一个时间段(每隔一段时间处理一次)Dstream将持续性的数据流,分割成一系列RDD,每个RDD含有一段时间内的数据。是一个离散流,是sparkstreaming的基本数据抽象,由连续的RDD构成。Dstram之间有依赖关系窗口函数:一段时间内数据发生的变化 (像统计每小时注册量,金原创 2017-12-11 19:39:19 · 233 阅读 · 0 评论 -
sparkRDD
RDDRDD弹性分布式数据集,spark最基本的数据抽象,代表一个不可变,可分区,里面元素可并行计算的集合。具有数据流模型的特点:自动容错,位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时,显示地将工作集缓存在内存中,后续的查询能重用工作集,这极大提高查询速度特点:一系列的分区,每一个函数作用于每个分区,RDD之间是一系列依赖,如果是k-v类型的RDD,会有一个分区器,分区器就是决定把原创 2017-12-11 19:37:12 · 1486 阅读 · 0 评论 -
spark的一些小项目
sparkwordcountobject SparkWC { def main(args: Array[String]): Unit = { //创建配置信息类,并设置应用的程序名称 //local [2] 本地启用2个线程模拟集群运行任务 //local [*] 本地有多少空线程就启用多少线程来运行任务 //提交到集群运行时setmaster注释掉 va原创 2017-12-11 19:35:53 · 5276 阅读 · 1 评论 -
spark源码打包编译步骤
目的是当需要修改spark源码时,项目需要使用自己的编译包硬件环境:centOS6.x 64位系统,安装桌面版 内存4G以上 IDEA-linux版软件环境:JDK Maven Spark源码步骤:1、解压spark源码包: tar -zxvf spark-1.6.1.tgz -C /usr/local/src2、用maven编译源码: export MAVEN_OPTS="-Xm原创 2017-12-11 19:34:00 · 1343 阅读 · 0 评论 -
spark-sql使用
spark-sqlspark-sql 在cli端的操作使用spark-sql编程需要配置jar包通过反射推断schema通过structtype指定schema通过spark-shell从mysql中加载数据将数据保存到mysql中hive-on=sparkspark-sqlDataFrames:分布式数据容器,像关系型数据库的二维表格。相当于一张表。除了数据外,还记录了数据的结构信原创 2017-12-11 19:33:00 · 1799 阅读 · 0 评论 -
RDD的一些api的用法
RDD API 分为Actor类型与Transformation类型Transformation:延迟加载,并不会直接计算结果,而是记住这些应用到基础数据集上的转换动作。只有在要求返回结果给Driver的动作时(也可以说到actor方法),这些转换才会真正运行,这让spark更加有效率地运行常用的transformation apimap(func),遍历元素通过func函数生成新的元素filte原创 2017-12-11 19:31:17 · 922 阅读 · 0 评论 -
spark搭建
spark搭建原创 2017-12-11 19:29:59 · 256 阅读 · 0 评论 -
impala 0
在写impala的技术文档前,先做一下工作的整理。架构是 日志收集到kafka ,经过清洗后存放到kudu中,然后定时去做mapreduce 任务,将kudu中的老表的数据分配到hdfs 中。其中 hdfs 是用hive来管理, 文件格式是parquet格式(列式存储)。 通过impala 去查询parquet格式文件和kudu表,做一个union all的聚合。因此在这里我用到了i...原创 2018-08-16 09:36:33 · 390 阅读 · 0 评论