spark
stan1111
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark---DataFrame学习(二)——select、selectExpr函数
select:处理列或表达式selectExor:处理字符串表达式数据集格式如下:有三个字段,目的国家、出发国家、count一.select从df中选择列的方式,1.DataFrame.select(“列名”),参数是列名的字符串格式。想要选出多列,可以用相同方式添加更多列名小技巧:传入"*"选择所有列。2.通过函数选择列这些函数有DataFrame.col(“列名”)、col(“列名”)、column(“列名”)、expr(“列名”);以及两种scala特有的语言支持,$“列名原创 2020-08-01 23:49:22 · 31466 阅读 · 5 评论 -
Spark---DataDrame学习(一)
一.结构化API–DataFrameSpark结构化API是处理各种数据类型的工具,能处理非结构化的日志文件、半结构化的csv文件、高度结构化的Parquet文件。包括以下三种核心分布式集合类型API:DatasetDataFrameSQL表和视图DataFrameDataFrame由记录(record)组成,record是Row类型。一个record由多列组成,这里可以类比python中的DataFrame。创建DataFrame1.从Dataset创建这里range函数会返回一个D原创 2020-08-01 12:09:43 · 421 阅读 · 0 评论 -
idea构建spark项目(Libraries在不同级别下的定义--Exception in thread “main“ java.lang.NoSuchMethodError: scala.Pr)
一、构建过程中遇到的一些问题用global libraries的scala就会出现如下错误。(我的改动是把global libraries里面的scala的sdk删除,在project setting下的libraries里面添加了spark里的jars和本机安装的2.10.7版本的Scala。这样按照下面的配置,可以成功执行spark项目)我在idea官网上面查到的信息:In IntelliJ IDEA, libraries can be defined at three levels:.原创 2020-07-26 00:48:06 · 246 阅读 · 0 评论 -
在Spark命令行下添加JDBC
spark-shell --jars D:\Spark\spark\jars\mysql-connector-java-5.1.23-bin.jar --driver-class-path D:\Spark\spark\jars\mysql-connector-java-5.1.23-bin.jar将上面中的路径改为你自己的路径即可。spark-shell --help运行上述命令可以查看spark-shell后可以添加哪些option,如下图所示。...原创 2020-07-25 21:13:24 · 512 阅读 · 0 评论
分享