
Spark
小飞猪小肥猪
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于Spark下的wordCount的Demo
import org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit = { val cofg = new SparkConf().setAppName("WC").setMaster("local[2]"); val ...原创 2019-01-17 21:15:49 · 245 阅读 · 0 评论 -
基于Spark下的查询数据库中信息Demo
import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContext} object JDBCRDDDemo extends App { val conf = new SparkConf().setAppName("JDBC...转载 2019-01-17 21:25:14 · 444 阅读 · 0 评论 -
离线处理网站的PV,UV方案
流程: 导入数据hdfs(flume-->hdfs) 建立hive表 把hdfs上的数据导入到hive表里面 数据清洗-->(先有一个数据清洗表) 数据分析,数据统计-->存放一张表里面 把hive表的数据导出到,mysql中 把mysql里面的㐇给查出来,展示到页面 何为PV?PV(page vi...转载 2019-01-17 21:31:22 · 462 阅读 · 0 评论 -
Spark
1.什么是spark? http://spark.apache.org/ 官网Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分销AMPLap,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为多个子项目的集合,其中包含SparkSQL、Spark Streaming、Gr...原创 2019-01-09 19:50:59 · 208 阅读 · 0 评论 -
Spark中RDD是什么?
一、RDD是什么?RDD是一个弹性可复原的分布式数据集!RDD是一个逻辑概念,一个RDD中有多个分区,一个分区在Executor节点上执行时,他就是一个迭代器。一个RDD有多个分区,一个分区肯定在一台机器上,但是一台机器可以有多个分区,我们要操作的是分布在多台机器上的数据,而RDD相当于是一个代理,对RDD进行操作其实就是对分区进行操作,就是对每一台机器上的迭代器进行操作,因为迭代器引用...转载 2019-01-09 20:37:27 · 210 阅读 · 0 评论 -
Spark的指令
Master节点存在单点故障,要解决此问题,就要借助zookeeper,,并且启动至少两个Master节点来实现高可靠,配置方式比较简单 :1.安装配置zk集群,并启动zk集群 zkServer.sh start2.在root1上执行sbin/start-all.sh脚本,然后在min2上执行sbin/start-master.sh启动第二个Master3. 进入spark/bin...原创 2019-01-09 20:51:32 · 473 阅读 · 0 评论