
Spark
.
Michael-DM
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark自定义排序
在这之前,我们先准备一些数据,使用rdd存放 //获得SparkContext val conf: SparkConf = new SparkConf().setMaster("local[2]").setAppName("SortApp") val sc = new SparkContext(conf) val rdd = sc.parallelize(List("米家激...原创 2020-04-12 15:58:17 · 142 阅读 · 0 评论 -
Spark广播变量的使用
官网信息 通过sc.broadcast广播出去 val broadcastVar = sc.broadcast(Array(1, 2, 3)) 通过broadcastVar.value取到值 broadcastVar.value 这是一个join案例,通过广播变量以降低通信成本 广播变量是把小表的数据通过sc广播出去 def main(args: Array[String]): Unit = ...原创 2020-04-07 10:51:08 · 1075 阅读 · 0 评论 -
Spark整合Kudu-读写操作操作
先加依赖: <dependency> <groupId>org.apache.kudu</groupId> <artifactId>kudu-spark2_2.11</artifactId> <version>1.7.0</version> &...原创 2020-03-24 20:34:39 · 1908 阅读 · 0 评论 -
Spark整合Kudu-创建表和增删改查操作
开启kudu: sudo /etc/init.d/kudu-tserver start sudo /etc/init.d/kudu-masterstart 首先你需要添加依赖 <dependency> <groupId>org.apache.kudu</groupId> <artifactId>kudu-client<...原创 2020-03-24 20:13:58 · 2496 阅读 · 1 评论 -
RDD转DF的两种方式
1.第一种方式: 首先我们展示一下数据文件: Michael, 29 Andy, 30 Justin, 19 然后我们开始编写第一种实现方法: 先写一个case calss,然后再map方式将数据转换成people形式通过toDF直接转换 def run1(sparkSession: SparkSession): Unit = { //隐式转换 import sparkSession.im...原创 2020-03-23 22:30:49 · 4896 阅读 · 0 评论 -
Spark SQL内置函数和自定义函数使用
1.内置函数 准备工作,先写个main方法,准备一些数据 def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession.builder() .master("local").appName("HiveSourceApp") .getOrCreate() //准...原创 2020-03-23 20:04:42 · 755 阅读 · 0 评论 -
thriftserver和beeline的使用,代码连接server(连接hive)
启动thriftserver: ./sbin/start-thriftserver.sh --master local --jars ~/software/mysql-connector-java-5.1.27-bin.jar –master ;指定运行模式 –jars :导入mysql依赖包 这样就算启动成功了 接下来启动beeline ./bin/beeline -u jdbc:hi...原创 2020-03-23 17:47:23 · 540 阅读 · 0 评论 -
Spark对接Hive
我们要使用spark对接hive,首先要把hive-site.xml拷贝到$SPARK_HOME/conf下,接下来我们测试一下 使用spark-shell测试: ./bin/spark-shell --master local[2] --jars ~/software/mysql-connector-java-5.1.27-bin.jar –master指定运行模式 -jars 由于我们要...原创 2020-03-23 17:22:10 · 232 阅读 · 0 评论 -
Spark-Datasource-API操作
Spark-Datasource-API操作 1.text数据源读写操作 写操作时应用mode(“overwritew”)函数,表示如果目标文件夹已存在,那么会覆盖,详情见2 def text(spark: SparkSession): Unit ={ //隐式转换 import spark.implicits._ //读操作 val df: DataFrame = sp...原创 2020-03-21 15:47:40 · 266 阅读 · 0 评论 -
Spark编程,Spark-shell使用方法,Spark-submit运行模式
1.第一个Spark程序:WordCount 第一步:创建sparkContext setMaster:运行模式 setAppName:设置appName val sparkConf = new SparkConf().setMaster("local").setAppName("SparkWordCountApp") val sc = new SparkContext(sparkC...原创 2020-03-20 01:19:18 · 625 阅读 · 0 评论 -
SparkSql API,Spark DataSet 和DataFrame使用
1.SparkSession SparkSession就是设计出来合并SparkContext和SQLContext的。我建议能用SparkSession就尽量用。如果发现有些API不在SparkSession中,你还是可以通过SparkSession来拿到SparkContext和SQLContex的。 val context: SparkContext = sparkSession.spark...原创 2020-03-20 02:03:45 · 322 阅读 · 0 评论