
spark
文章平均质量分 68
留歌留歌
只要最后那个人是你,晚一点也没关系
展开
-
Dataset[Row] 转为Array[String]
写在前面在实际开发中,我遇到一个场景:将源数据读取进来,加载为DataFrame之后,其中一个处理步骤是,需要将某一列的数据单独提取出来作为一个数组,然后传递给后面的udf()函数。需求:读取的是日期字段列,因为在数据仓库中,各个数据表的数据形态是不一致的,每种数据形态都有自己的日期字段,一般来说:比如,快照表我们的日期字段可能是DW_XX_DT。这个就看自己公司如何定义了。我这里遇到的情况是:日期字段列中有空字符串""(读出来是null),还有中文字符"为空",然后还有DW_XX_DT 或 Dw_x原创 2020-06-29 19:45:06 · 1881 阅读 · 0 评论 -
PyCharm 开发pyspark 应用程序
创建新的空项目:测试一下环境是否ok同时,也是为了配置一下spark环境添加如下两个环境变量:接下来:达到这样,就okIDE开发环境就配置ok了,开始Coding…...原创 2019-12-26 17:18:21 · 339 阅读 · 0 评论 -
Spark 中 job stage task 关系
写在前面之前在面试的过程中有面到过这个问题,然后在这里简单记录一下。WordCount为例直接执行这个段代码,根据执行结果,进行分析object WCApp { def main(args:Array[String]) = { val conf = new SparkConf().setMaster("local[2]").setAppName("WCApp") va...原创 2019-12-24 16:52:24 · 322 阅读 · 0 评论 -
初探数据平台
1.Yarn 上面有哪几种资源调度策略?并且如何配置?Hadoop规模来看计算资源管理1)Yarn 动态资源2)Spark on Yarn 静态资源调度 动态资源调度Spark 作业一般跑在集群资源好的机器上,一般好的集群会打标签进行区分:例如spark001 hadoop001机器名3)Spark Job 每次触发一个Action 会产启动一个Job运行。 如果跑几次失败,...原创 2019-10-29 21:54:30 · 194 阅读 · 0 评论 -
天池新人实战赛之[离线赛]-初体验-Spark处理
写在前面这种直接提交购物车的方式不涉及任何算法,后续我会逐渐学习引入机器学习的相关算法,从而更好的对结果进行预测。截止 2019-08-07排名77/11111package src.main.scala.com.csylh.august.tianchi.dataclearerimport org.apache.spark.sql.{SaveMode, SparkSession}/**...原创 2019-08-07 09:34:09 · 567 阅读 · 0 评论 -
Spark大数据相关经典面试题总结 【一直更新...】
想问一个问题:Spark Streaming 如何保证有序消费 kafka数据?topic多分区如果是全局有序 kafka只有在单partition才生效,多partitions不支持全局有序,或者比较难;如果是局部有序 可以利用 相同的key映射到同一个partition的特点 保证 key内有序,例如:指定key(比如order id),具有同1个key的所有消息,会发往同1个pa...原创 2019-08-14 11:46:42 · 894 阅读 · 0 评论 -
数据零丢失 + 仅一次消费数据【终极方案】
import java.sql.{DriverManager, ResultSet}import kafka.common.TopicAndPartitionimport kafka.message.MessageAndMetadataimport kafka.serializer.StringDecoderimport org.apache.commons.lang3.StringU...原创 2019-08-16 16:27:34 · 282 阅读 · 0 评论 -
Spark Streaming 整合Kafka的 Offset 管理 【数据零丢失之 checkpoint 方式管理Offset】
import kafka.serializer.StringDecoderimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Duration, Seconds, StreamingContext}/**...原创 2019-08-16 16:33:01 · 559 阅读 · 0 评论 -
Debezium SQL Server Source Connector+Kafka+Spark+MySQL 实时数据处理
写在前面前段时间在实时获取SQLServer数据库变化时候,整个过程可谓是坎坷。然后就想在这里记录一下。在处理实时数据时,需要即时地获得数据库表中数据的变化,然后将数据变化发送到Kafka中。这篇文章将介绍如何使用Kafka Connector完成这一工作。...原创 2019-09-29 11:10:50 · 2284 阅读 · 16 评论 -
Spark Streaming 整合Kafka的 Offset 管理 【数据零丢失之 MySQL管理Offset】
写在前面:在使用SparkStreaming 整合 Kafka 0.8版本的时候, spark-streaming-kafka-0-8 是不提供offset的管理的。为了保证数据零丢失,我们需要自己来管理这个偏移量。参照:http://spark.apache.org/docs/latest/streaming-kafka-0-8-integration.html我们是将偏移量储存在MySQ...原创 2019-08-09 10:20:28 · 454 阅读 · 0 评论 -
Spark 源码编译
写在前面生产上的spark一般来说都是需要我们自己手动编译的,编译适合自己公司生产环境上的spark版本。参照官网http://spark.apache.org/docs/latest/building-spark.html前置:使用Maven构建Spark需要Maven 3.5.4和Java 8.Spark 源码编译首先调大CacheSizevim ~/.bash_profileex...原创 2019-08-03 11:18:03 · 709 阅读 · 0 评论 -
spark 各种骚操作 之日志统计分析 机会终于来了系列
import org.apache.spark.{SparkConf, SparkContext}/** * Description: 日志统计分析 * .collect().foreach(println) * .take(10).foreach(println) * * * 分隔符 , *map()是对每一行数据进行操作 *reduceByKey()是将相...原创 2019-08-02 16:52:50 · 513 阅读 · 0 评论 -
Spark Streaming 入门
概述 WHAT Spark Streaming? Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams. 根据官网的解释,Spark Streaming原创 2017-12-23 15:15:29 · 1695 阅读 · 1 评论 -
基于Spark的电影推荐系统(实战简介)
写在前面一直不知道这个专栏该如何开始写,思来想去,还是暂时把自己对这个项目的一些想法 和大家分享 的形式来展现。有什么问题,欢迎大家一起留言讨论。这个项目的源代码是在https://github.com/LuckyZXL2016/Movie_Recommend这个位置。基于源代码做了一些简单的调整。项目效果类似于国内豆瓣网站,能够在该项目-电影网站-进行电影信息浏览和查询,并且-电影网站...原创 2019-01-10 16:53:08 · 6300 阅读 · 2 评论 -
基于Spark的电影推荐系统(电影网站)
第一部分-电影网站:软件架构: SpringBoot+Mybatis+JSP项目描述:主要实现电影网站的展现 和 用户的所有动作的地方技术选型:技术名称官网Spring Boot容器https://projects.spring.io/spring-boot/Spring MVCMVC框架http://docs.spring.io/spring/docs...原创 2019-01-10 16:59:28 · 11877 阅读 · 5 评论 -
基于Spark的电影推荐系统(后台管理系统)
第二部分-后台管理系统(简介)ps:技术实现上类似于电影网站软件架构: SpringBoot+Mybatis+JSP项目描述: 后台管理系统主要对 用户信息 和 电影信息 进行管理,如添加删除电影信息和完成用户信息的完善。其中为了更好地保存电影的图片信息,搭建了图片服务器,关于图片服务器FastDFS的搭建可参考博客。技术选型:技术名称官网Spring Boot容...原创 2019-01-10 17:05:08 · 4488 阅读 · 0 评论 -
基于Spark的电影推荐系统(Scrapy爬虫)
第三部分-Scrapy爬虫(简介)软件架构: Scrapy框架+Python3+项目描述: 爬取国外电影网站的电影数据 ,保存到本地MySQL服务器技术选型:主要开发工具:JetBrains PyCharm : 开发IDE开发环境项目架构项目流程图更多文章:基于Spark的电影推荐系统:https://blog.youkuaiyun.com/liuge36/column/info/292...原创 2019-01-10 17:12:22 · 3237 阅读 · 1 评论 -
DataFrame 对其列的各种转化处理
前置Oracle中INSTR的用法:INSTR(源字符串, 要查找的字符串, 从第几个字符开始, 要找到第几个匹配的序号)例如:INSTR('CORPORATE FLOOR','OR', 3, 2)中,源字符串为'CORPORATE FLOOR', 在字符串中查找'OR',从第三个字符位置开始查找"OR",取第三个字后第2个匹配项的位置。oracle的substr函数的用法: ...原创 2019-03-21 11:01:42 · 2130 阅读 · 0 评论 -
提交第一个spark作业到集群运行
写在前面 接触spark有一段时间了,但是一直都没有真正意义上的在集群上面跑自己编写的代码。今天在本地使用scala编写一个简单的WordCount程序。然后,打包提交到集群上面跑一下…在本地使用idea开发,由于这个程序比较简单,我这里就直接给出代码。 import org.apache.spark.{SparkConf, SparkContext}object WordCount { de原创 2017-12-02 23:36:33 · 3317 阅读 · 0 评论