
Spark
文章平均质量分 80
Rachel_Channing
格物致知
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark SQL操作hive报错处理
Spark SQL操作hive报错处理 总结: 1:启动hive的metastore服务 2:报错后加入依赖包spark-hive_2.12 3:创建SparkSession加入.enableHiveSupport() 背景 通过spark SQL访问hive上的表数据。 准备工作 将hive-site.xml文件,放入IDEA程序的resource目录下 主程序 object SparkSql...原创 2020-04-21 11:30:06 · 1224 阅读 · 0 评论 -
Spark Streaming程序将统计结果写入本地文件系统
背景 需要实时接收kafka topic中的消息,经spark streaming进行统计分析后,将统计结果写到本地文件系统,经由FTP发送给下游。 难点在于,Spark Streaming的程序提交到yarn或者mesos是分布式执行的,多个executor是运行在不同的机器上,统计结果要求写在一个指定的机器目录下。 思路 思路1: 是否可以将FTP发往下游的操作在spark应用程序中也...原创 2019-10-24 16:21:33 · 1543 阅读 · 0 评论 -
StreamingListener-监控流式处理-更新广播变量-利器
SparkStreaming中常常遇到需要监控每个批次的运行情况,当出现不正常的情况需要及时反馈。就需要用到org.apache.spark.streaming.scheduler.StreamingListener这个类来进行处理。 一下为其源码部分 /** * :: DeveloperApi :: * A listener interface for receiving informa...原创 2019-10-24 15:48:28 · 772 阅读 · 0 评论 -
Spark Streaming处理kafka的数据落地HDFS
Spark Streaming处理kafka的数据落地HDFS 背景 生产上项目的数据从上游kafka topic下发过来,经过spark Streaming简单清洗处理后,下发到下一个kafka topic中,目前需要将清洗处理好的数据,按小时分区落地到HDFS上。 要求,如果当前落地HDFS的程序断了,能按照消息下发kafka topic 的时间进行分区。 实现思路 1:在下发的kafka t...原创 2019-09-03 10:20:43 · 4050 阅读 · 1 评论 -
Cluster Manager Types------Standalone and Hadoop yarn
目录 Standalone模式 模式使用场景: 部署Standalone模式 配置spark conf目录下的slaves文件 配置JAVA_HOME 验证 Hadoop Yarn模式 模式使用场景 WEB页面判断当前提交应用程序状态 deploy mode cluster mode client mode 查看yarn的log日志 报错 在查验yarn的lo...原创 2018-11-15 11:48:18 · 459 阅读 · 0 评论 -
spark core之spark运行架构
spark官网对此的解释 相关概念理解 Spark applications run as independent sets of processes on a cluster, coordinated by the SparkContext object in your main program (called the driver program). 可以被分为两点 spark应用...原创 2018-11-16 10:23:13 · 250 阅读 · 0 评论 -
Spark Streaming 第一部分
Spark 概述 Spark Streaming是基于Spark core API的扩展,支持高吞吐,可扩展,容错的。 Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live d...原创 2018-10-01 15:16:43 · 509 阅读 · 0 评论 -
Spark运行模式之Spark on Yarn
Spark的四种运行模式 特点:不管使用什么模式,Spark应用程序的代码是一样的,只需要通过参数--master来指定 local standalone 是spark自带的,如果一个集群式standalone模式,那么就需要在堕胎机器上同时部署spark环境 yarn,统一使用YARN进行整个集群作业的资源调度 mesos Spark ON Yarn 概述 spark支持可插拔的...原创 2018-09-30 09:24:03 · 1234 阅读 · 0 评论 -
基于SparkSql的日志分析实战
目录 日志数据内容 用户行为日志分析的意义 离线数据处理流程 需求分析 数据清洗 解析访问日志 使用github上的开源项目 对日志进行统计分析 统计最受欢迎的TOPN的视频访问次数 按照地市统计imooc主站最受欢迎的TOPN课程 按流量统计imooc主站最受欢迎的TOPN课程 调优点 EChart展示图形化界面 静态数据展示 动态数据展示 日志数据内容 访问...原创 2018-09-29 09:18:25 · 4103 阅读 · 2 评论 -
SparkSql 之ThriftServer和Beeline的使用
概述 ThriftServer相当于service层,而ThriftServer通过Beeline 来连接数据库。客户端用于连接JDBC的Server的一个工具 步骤 1:启动metastore服务 ./sbin/start-thriftserver.sh 2:连接 [rachel@bigdata-senior01 spark-2.2.0-bin]$ ./bin/beeline ...原创 2018-10-14 10:37:13 · 651 阅读 · 0 评论 -
Spark Streaming第三部分
updateStateByKey算子 需求,统计到目前为止,累计出现的单词个数(需要保持之前的状态) def updateFunction(newValues: Seq[Int], runningCount: Option[Int]): Option[Int] = { val newCount = ... // add the new values with the previou...原创 2018-10-01 20:45:31 · 393 阅读 · 0 评论 -
Spark Streaming 第二部分
Streaming Context To initialize a Spark Streaming program, a StreamingContext object has to be created which is the main entry point of all Spark Streaming functionality. 构造方法 /** * Create ...原创 2018-10-01 15:20:08 · 258 阅读 · 0 评论 -
Spark 中RDD和DataSet之间的转换
什么是RDD:Spark提供了一个抽象的弹性分布式数据集,是一个由集群中各个节点以分区的方式排列的集合,用以支持并行计算。RDD在驱动程序调用hadoop的文件系统的时候就创建(其实就是读取文件的时候就创建),或者通过驱动程序中scala集合转化而来,用户也可以用spark将RDD放入缓存中,来为集群中某台机器宕掉后,确保这些RDD数据可以有效的被复用。 总之,RDD能自动从宕机的节点中恢复过来。...原创 2018-09-17 16:03:56 · 6584 阅读 · 1 评论