Spark
BaideS
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark和数据库时间戳相差14小时
最近在用PySpark做ETL,然后发现了Spark存在的时区问题。Mysql的时区默认是CST格式, 但是Spark默认的是GMT格式,因此直接使用Spark读取Mysql的时间时,会被转为GMT格式,对于这个问题,只需要设置spark.sql.session.timeZone为CST就可以解决了,但由此由引发了一个新的问题。当两者都是CST的时候,将时间转为yyyy-MM-dd hh:mm:ss来看时,两者是相同的,问题在于分别使用unix_timestamp转为时间戳的时候,两个时间戳之间会相差1原创 2020-09-13 16:31:05 · 2244 阅读 · 3 评论 -
Pyspark DataFrame DSL基本使用
基本使用说明创建DataFrame的通用前提及方法;创建SparkSession的实例;SS的实例再创建DataFrame;操作DataFrame的两种方式;类pandas方法;类SQL方法;简单的性能优化;写好脚本后,如何提交;用spark-submit提交的方法;DataFrame的一些细节获取DataFrame的通用前提及方法创建SparkSession必须先创建SparkSession,再通过SparkSession来得到一个或多个DataFrame原创 2020-09-13 15:09:55 · 1020 阅读 · 0 评论 -
Spark基本使用-DataFrame
基本使用说明Spark是一个计算框架,其最简单的对数据的处理方法是对DataFrame,虽然功能有限,但是对于非特大的数据量,也基本上够用了,故此处记录DataFrame的处理方法;创建DataFrame的通用前提及方法;创建SparkSession的实例;由SparkSession的实例去创建DataFrame;操作DataFrame的两种方式;类pandas方法;类SQL方法;简单的性能优化;写好脚本后,如何提交;用spark-submit提交的方法;创建Da原创 2020-09-03 19:19:51 · 1362 阅读 · 0 评论 -
Ubuntu16.04 Spark2.7.7伪分布式从零开始部署
因工作上的需要,尝试在一台Ubuntu16.04部署Spark,因为之前没有了解过Spark,故踩坑时部署了Local版和Standalone单机伪分布式版,现记录如下。因为在部署Spark之前并未明确出Spark是什么,踩了相应的坑,故在此一并说明:Spark的目标是做一个分布式计算框架,因为是分布式所以它需要通讯(故需要安装SSH),有因为只是一个计算框架,所以其分布式数据来源需要由Hadoop的HDFS提供(故需要安装Hadoop),缺少SSH和HDFS,哪怕跑通,也是Local版。1. Spar原创 2020-08-28 17:14:01 · 532 阅读 · 0 评论
分享