
spark
pete1223
这个作者很懒,什么都没留下…
展开
-
Spark3.0 使用域名连接ElasticSearch
Spark3.0 使用域名连接ElasticSearch需求如下:有一个 https的 ElasticSearch的测试数据集群地址给我,内容形式是HTTPS的. 类似于https://abc.def.dasd:443, 网站地址是域名,类似www.sohu.com这种。希望我把数据写进这个地址然后使用spark3 进行连接,后面发现连接不上,报错如下HadoopIllegalArgumentEXception:No data nodex with HTTP-enabled availab原创 2021-09-21 21:08:47 · 600 阅读 · 0 评论 -
2017.06.15--spark中cache和persist的区别
cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间。cache和persist的区别基于Spark 1.4.1 的源码,可以看到/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */def cache():转载 2017-06-15 19:19:43 · 368 阅读 · 0 评论 -
spark 写文件到hive
import java.io.Fileimport org.apache.hadoop.hive.ql.io.HiveFileFormatUtilsimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}object TestSparkSQLHive {...原创 2018-07-18 18:52:28 · 2640 阅读 · 0 评论 -
idea maven Scala全依赖打包
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://原创 2018-07-25 11:46:58 · 3299 阅读 · 0 评论 -
java.lang.NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT
xception in thread "main" java.lang.NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT at org.apache.spark.sql.hive.HiveUtils$.hiveClientConfigurations(HiveUtils.scala:197) at org.apache.spark.sql.hive.HiveUt...原创 2018-07-19 23:23:46 · 6586 阅读 · 11 评论 -
动态增加hive表中数据
1.(有partition)hive增加列 插入数据为null,因为加了partition之后就多加了一个层级 注意事项 1.只修改表的列数,没有修改partition的列数,插入数据进行新创建列,不显示 2.只修改表的列数,插入数据进行新创建列,修改partition的列数,显示 3.只修改表的列数,修改partition的列数,插入数据显示.2. 无parti...原创 2018-08-09 13:54:23 · 1745 阅读 · 0 评论