
spark
mnasd
这个作者很懒,什么都没留下…
展开
-
spark与hive的集成
一:介绍1.在spark编译时支持hive 2.默认的db 当Spark在编译的时候给定了hive的支持参数,但是没有配置和hive的集成,此时默认使用hive自带的元数据管理:Derby数据库。 二:具体集成 1.将hive的配合文件hive-site.xml添加到spark应用的classpath中(相当于拷贝) 2.第二步集成 根据hive的配置参数hive.metastore.u...转载 2018-04-24 14:25:27 · 1884 阅读 · 0 评论 -
spark监控
有几种方法可以监控Spark应用程序:Web UI,指标和外部检测。Web界面默认情况下,每个SparkContext都会在端口4040上启动Web UI,以显示有关应用程序的有用信息。这包括:调度程序阶段和任务的列表 RDD大小和内存使用情况的摘要 环境信息。 有关运行执行程序的信息您只需http://<driver-node>:4040在Web浏览器中打开即可访...转载 2019-02-14 21:55:06 · 474 阅读 · 0 评论 -
Spark常见问题汇总
1、Operation category READ is not supported in state standby org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state stand...转载 2018-12-18 19:09:10 · 763 阅读 · 0 评论 -
搭建Spark所遇过的坑
一.经验1.Spark Streaming包含三种计算模式:nonstate .stateful .window2.kafka可通过配置文件使用自带的zookeeper集群3.Spark一切操作归根结底是对RDD的操作4.部署Spark任务,不用拷贝整个架包,只需拷贝被修改的文件,然后在目标服务器上编译打包。5.kafka的log.dirs不要设置成/tmp下的目录,貌似tmp...转载 2018-09-03 16:26:54 · 452 阅读 · 0 评论 -
spark 2.X 疑难问题汇总
当前spark任务都是运行在yarn上,所以不用启动长进程worker,也没有master的HA问题,所以主要的问题在任务执行层面。作业故障分类故障主要分为版本,内存和权限三方面。 - 各种版本不一致 - 各种内存溢出 - 其他问题版本不一致1)java版本不一致报错:java.lang.UnsupportedClassVersionError: com/immom...转载 2018-06-25 22:36:57 · 840 阅读 · 0 评论 -
Spark SQL CLI 运行
1:运行 ./bin/spark-sql需要先把hive-site.xml 负责到spark的conf目录下 [jifeng@feng02 spark-1.2.0-bin-2.4.1]$ ./bin/spark-sql Spark assembly has been built with Hive, including Datanucleus jars on classpath ...转载 2018-05-21 22:33:32 · 1115 阅读 · 0 评论 -
ClassNotFoundException: org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver解决办法
我们通过源码编译的spark-2.3.0来启动spark-sql进行sql操作,结果出现如下错误:Spark assembly has been built with Hive, including Datanucleus jars on classpath java.lang.ClassNotFoundException: org.apache.spark.sql.hive.thriftse...转载 2018-05-21 22:21:04 · 5307 阅读 · 2 评论 -
spark 包
yaml依赖``` sudo pip install pyyaml```- spark依赖 将spark-2.2.1-bin-hadoop2.7/python/lib下的 `py4j-0.10.4-src.zip` 和 `pyspark.zip` 文件解压, 将解压后的文件放在运行环境所在服务器的python2.7 所在的 site-packages目录下 site-pa...原创 2018-05-07 17:37:14 · 516 阅读 · 0 评论 -
Spark版本
起因:部门准备将数据仓库开发工具从Hive SQL大规模迁移至Spark SQL。此前集群已经自带了Spark-1.5.2,系HDP-2.3.4自带的Spark组件,现在需要将之升级到目前的最新版本(2.2.1)。作为一个提供给第三方使用的开发工具,应该避免第三方过度浪费时间于工具本身的使用(为SQL任务调试合理的资源分配),故需要引入spark的DRA机制(Dynamic Resource Al...转载 2019-02-14 22:00:47 · 1828 阅读 · 0 评论