Spark
文章平均质量分 80
Rachel_Channing
格物致知
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark SQL操作hive报错处理
Spark SQL操作hive报错处理总结:1:启动hive的metastore服务2:报错后加入依赖包spark-hive_2.123:创建SparkSession加入.enableHiveSupport()背景通过spark SQL访问hive上的表数据。准备工作将hive-site.xml文件,放入IDEA程序的resource目录下主程序object SparkSql...原创 2020-04-21 11:30:06 · 1262 阅读 · 0 评论 -
Spark Streaming程序将统计结果写入本地文件系统
背景需要实时接收kafka topic中的消息,经spark streaming进行统计分析后,将统计结果写到本地文件系统,经由FTP发送给下游。难点在于,Spark Streaming的程序提交到yarn或者mesos是分布式执行的,多个executor是运行在不同的机器上,统计结果要求写在一个指定的机器目录下。思路思路1:是否可以将FTP发往下游的操作在spark应用程序中也...原创 2019-10-24 16:21:33 · 1567 阅读 · 0 评论 -
StreamingListener-监控流式处理-更新广播变量-利器
SparkStreaming中常常遇到需要监控每个批次的运行情况,当出现不正常的情况需要及时反馈。就需要用到org.apache.spark.streaming.scheduler.StreamingListener这个类来进行处理。一下为其源码部分/** * :: DeveloperApi :: * A listener interface for receiving informa...原创 2019-10-24 15:48:28 · 793 阅读 · 0 评论 -
Spark Streaming处理kafka的数据落地HDFS
Spark Streaming处理kafka的数据落地HDFS背景生产上项目的数据从上游kafka topic下发过来,经过spark Streaming简单清洗处理后,下发到下一个kafka topic中,目前需要将清洗处理好的数据,按小时分区落地到HDFS上。要求,如果当前落地HDFS的程序断了,能按照消息下发kafka topic 的时间进行分区。实现思路1:在下发的kafka t...原创 2019-09-03 10:20:43 · 4160 阅读 · 1 评论 -
Cluster Manager Types------Standalone and Hadoop yarn
目录 Standalone模式模式使用场景:部署Standalone模式配置spark conf目录下的slaves文件配置JAVA_HOME验证Hadoop Yarn模式模式使用场景WEB页面判断当前提交应用程序状态deploy modecluster modeclient mode查看yarn的log日志报错在查验yarn的lo...原创 2018-11-15 11:48:18 · 473 阅读 · 0 评论 -
spark core之spark运行架构
spark官网对此的解释相关概念理解Spark applications run as independent sets of processes on a cluster, coordinated by the SparkContext object in your main program (called the driver program).可以被分为两点spark应用...原创 2018-11-16 10:23:13 · 257 阅读 · 0 评论 -
Spark Streaming 第一部分
Spark 概述Spark Streaming是基于Spark core API的扩展,支持高吞吐,可扩展,容错的。Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live d...原创 2018-10-01 15:16:43 · 521 阅读 · 0 评论 -
Spark运行模式之Spark on Yarn
Spark的四种运行模式特点:不管使用什么模式,Spark应用程序的代码是一样的,只需要通过参数--master来指定local standalone 是spark自带的,如果一个集群式standalone模式,那么就需要在堕胎机器上同时部署spark环境 yarn,统一使用YARN进行整个集群作业的资源调度 mesosSpark ON Yarn 概述 spark支持可插拔的...原创 2018-09-30 09:24:03 · 1256 阅读 · 0 评论 -
基于SparkSql的日志分析实战
目录日志数据内容用户行为日志分析的意义离线数据处理流程需求分析数据清洗解析访问日志使用github上的开源项目对日志进行统计分析 统计最受欢迎的TOPN的视频访问次数按照地市统计imooc主站最受欢迎的TOPN课程按流量统计imooc主站最受欢迎的TOPN课程调优点EChart展示图形化界面静态数据展示动态数据展示日志数据内容访问...原创 2018-09-29 09:18:25 · 4152 阅读 · 2 评论 -
SparkSql 之ThriftServer和Beeline的使用
概述ThriftServer相当于service层,而ThriftServer通过Beeline来连接数据库。客户端用于连接JDBC的Server的一个工具步骤1:启动metastore服务./sbin/start-thriftserver.sh2:连接[rachel@bigdata-senior01 spark-2.2.0-bin]$ ./bin/beeline ...原创 2018-10-14 10:37:13 · 674 阅读 · 0 评论 -
Spark Streaming第三部分
updateStateByKey算子需求,统计到目前为止,累计出现的单词个数(需要保持之前的状态)def updateFunction(newValues: Seq[Int], runningCount: Option[Int]): Option[Int] = { val newCount = ... // add the new values with the previou...原创 2018-10-01 20:45:31 · 404 阅读 · 0 评论 -
Spark Streaming 第二部分
Streaming ContextTo initialize a Spark Streaming program, a StreamingContext object has to be created which is the main entry point of all Spark Streaming functionality.构造方法 /** * Create ...原创 2018-10-01 15:20:08 · 272 阅读 · 0 评论 -
Spark 中RDD和DataSet之间的转换
什么是RDD:Spark提供了一个抽象的弹性分布式数据集,是一个由集群中各个节点以分区的方式排列的集合,用以支持并行计算。RDD在驱动程序调用hadoop的文件系统的时候就创建(其实就是读取文件的时候就创建),或者通过驱动程序中scala集合转化而来,用户也可以用spark将RDD放入缓存中,来为集群中某台机器宕掉后,确保这些RDD数据可以有效的被复用。总之,RDD能自动从宕机的节点中恢复过来。...原创 2018-09-17 16:03:56 · 6606 阅读 · 1 评论
分享