
spark
文章平均质量分 78
YWF331
这个作者很懒,什么都没留下…
展开
-
spark启动slave时提示 JAVA_HOME not set
解决方法:spark-config.sh 中添加jdk 路径 export JAVA_HOME=/usr/local/java/jdk1.8.0_171 如下:if [ -z "${PYSPARK_PYTHONPATH_SET}" ]; then export PYTHONPATH="${SPARK_HOME}/python:${PYTHONPATH}" export PYTH...原创 2018-05-09 17:00:18 · 1145 阅读 · 0 评论 -
Spark SQL之 Dataframe/Dataset
Dataframe我们可以理解为 Dataframe 就是按列组织的 Dataset,在底层做了大量的优化。Dataframe 可以通过很多方式来构造:比如结构化的数据文件,Hive表,数据库,已有的 RDD,Scala,Java,Python,R 等语言都支持 Dataframe。Dataframe 提供了一种 domain-specific language 来进行结构化数据的操作,这种操...转载 2018-05-03 11:34:00 · 237 阅读 · 0 评论 -
spark2.0.2集群环境搭建 (基于apache.hadoop 2.9.0)
1.解压root@master ~]# tar zxvf spark-2.0.2-bin-hadoop2.7.tgz mv spark-2.0.2-bin-hadoop2.7 /opt/spark2.配置环境变量 vim .bashrcexport SPARK_HOME=/opt/sparkexport PATH=$PATH:$SPARK_HOME/bin:$SPARK_...原创 2018-05-11 16:51:08 · 467 阅读 · 0 评论 -
被坑了一天 (一条sql搞定)
import org.apache.spark.sql._import scala.util.matching.Regeximport java.text.SimpleDateFormatimport java.util.Dateobject UserProperty { def main(args: Array[String]): Unit = { val spark =...原创 2018-06-04 19:39:28 · 328 阅读 · 0 评论 -
collect_set、collect_list 、concat_ws (多行合并)
collect_set去除重复元素;collect_list不去除重复元素+------+-----------------------------------+------------------------------------+|gender|concat_ws(,, collect_set(children))|concat_ws(,, collect_list(children)...转载 2018-06-14 15:21:59 · 23633 阅读 · 0 评论