- 博客(9)
- 资源 (4)
- 收藏
- 关注
原创 spark-shell与spark-sql的访问hive
1.spark-shell的使用:安装完spark之后,将spark/bin的路径配置到本地文件,即可不需要进入spark/bin目录下启动任务1)直接打开,运行以下命令会发现无法访问hive表的数据:spark-shell --master local[2]spark.sql("show tables").show()2)将hive/conf目录下的hive-site....
2018-11-22 23:44:10
2587
原创 SparkSession的使用
简单的来说,SparkSession是Spark2.0版本中SparkContext更好用的接口package com.imooc.sparkimport org.apache.spark.sql.SparkSession/** * @author lihanwen * SparkSession是spark2.0之后才有的,可以用来替代SparkContext */objec...
2018-11-22 23:16:17
911
原创 SparkContext任务本地开发与服务器运行
正确启动spark的本地模式与standalone模式之后,我们进入spark项目的开发。1.本地开发:在IDEA中新建一个maven工程:1)maven基础坐标如下: <groupId>com.imooc.spark</groupId> <artifactId>sql</artifactId> <version&g...
2018-11-20 22:37:16
529
原创 hive中的map join
本文主要讲述一下自己在hive中使用map join遇到的一些问题。语言过于直白,请谅解1.什么是map join?map join主要是在关联的时候使用,hive开启map join后可以将关联的小表放入内存中去执行,以此来提高脚本的运行速度 2.map join如何设置?set hive.auto.convert.join=false; --false表示关闭m...
2018-11-18 22:51:30
2098
原创 Spark基础之--启动local与standalone模式
我们得到编译好的spark压缩包之后,进行解压;随后进入spark文件夹,获取到spark的路径:/home/xxx/app/spark-2.1.0-bin-2.6.0-cdh5.7.0为了后续使用方便,我建议将spark的路径添加到本地配置(~/.bash_profile)export SPARK_HOME=/home/xxx/app/spark-2.1.0-bin-2.6.0-...
2018-11-06 22:20:51
1421
原创 hive中max函数无法区分字符串类型的数字
问题描述:需要针对版本号app_version如:6.14.2,6.7.1,10.2.1进行取最大值 原先方法:max(app_version) 结论:失败原因:hive中使用max将会默认对两个字符串从左至右挨个进行比较,即进行第三位比较时发现:“1<7”,故6.14.2<6.7.1 解决方法:首先针对hive本身的函数max无法直接解决,则可以将数据...
2018-10-24 01:42:14
7175
原创 CentOS 7下静态IP配置的一些坑
写在前面:请大神绕道,本人菜鸡,要不是想尝鲜爽一爽7,根本不会遇到这些神坑。虽然不难,但菜鸡的我还是搞了一晚上……真的哭出声来……1、创建虚拟机这个地方我就不赘述了,要是不会……额,百度一波吧2、配置静态IP:7不同于6,图像化界面还是做得不错滴,下面请看图然后进入点击右下角的小齿轮图标,进入设置然后选择IPv4,进行设置,填写虚拟机的IP地址,以及子网掩码和DNS
2017-10-26 18:25:31
3696
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人