
大数据
文章平均质量分 93
程序媛_cico
这个作者很懒,什么都没留下…
展开
-
大数据平台中的hive配置项含义
关于MetaStore:metastore是个独立的关系数据库,用来持久化schema和系统元数据。hive.metastore.local:控制hive是否连接一个远程metastore服务器还是开启一个本地客户端jvm,默认是true,Hive0.10已经取消了该配置项;javax.jdo.option.ConnectionURL:JDBC连接字符串,默认jdbc:derby:;databaseName=metastore_db;create=true;javax.jdo.opt..转载 2020-08-22 15:15:03 · 712 阅读 · 1 评论 -
利用idea创建spark工程
实际项目中,我们可以再本地调试程序,再在spark集群上运行。本文记录了win7环境下怎样创建本地spark工程,并传递给spark。1.spark环境搭建Win7 系统下用IDEA创建Spark工程,由于版本之间相互依赖,下载时要看清楚版本。Jdk:1.8.0_171Spark:2.3.0Hadoop:2.7IDEA支持的Scala工程插件Scala:2.11.8 1 Spark...原创 2018-07-11 20:41:03 · 4946 阅读 · 0 评论 -
sparkstreaming+Kafka性能优化
(一)sparkstreaming参数理解使用SparkStreaming集成kafka时有几个比较重要的参数:(1)spark.streaming.stopGracefullyOnShutdown (true / false)默认fasle确保在kill任务时,能够处理完最后一批数据,再关闭程序,不会发生强制kill导致数据处理中断,没处理完的数据丢失(2)spark.strea...原创 2019-04-10 22:18:56 · 4026 阅读 · 1 评论