
Spark
jyj019
向着喜欢的道路前进
展开
-
GeoSpark调研(一):简介
GeoSpark简介GeoSpark是一个用于处理大规模空间数据的开源内存集群计算系统。是传统GIS与Spark的结合。GeoSpark扩展RDD以形成空间RDD(SRDD),并跨机器高效地对SRDD数据元素进行分区,并引入新颖的并行化空间(几何操作,遵循Open Geosptial Consortium(OGC)标准)转换和操作(用于SRDD),提供更直观的界面供用户编写空间数据分析程序。G...翻译 2018-06-27 22:16:03 · 6584 阅读 · 0 评论 -
GeoSpark调研(二):主要特性
主要特性空间SQL GeoSparkSQL完全支持Apache Spark SQL。特点如下:(1)支持SQL / MM-Part3,Spatial SQL标准(2)支持纯的Spark SQL语句。不再支持DSL风格了。(3)支持Spark查询优化器:GeoSpark Spatial Join / predicate pushdown!(4)支持多个GeoSpark参数。(5...翻译 2018-06-27 22:39:07 · 2219 阅读 · 1 评论 -
GeoSpark调研(三):主要应用
应用论文示例应用1:空间聚合(Spatial Aggregation) 假设一位研究空气质量和树木之间的关系的环境科学家想要探索旧金山的树木数量。查询可以利用由GeoSpark提供的SpatialRangeQuery()来返回旧金山的所有树。另外,一个显示旧金山树木分布的热图(空间聚合)也能有帮助。这个空间聚合查询(即:热图)需要计算地图上每一个区域的所有树木。在热图中,在空间查询...翻译 2018-06-27 22:43:36 · 2274 阅读 · 1 评论 -
FiloDB调研:简介,结构和性能分析
FiloDB概念FiloDB是开源分布式,版本化和列式分析数据库,支持Spark SQL查询和流的构建的数据库。存储引擎和计算层FiloDB使用Apache Cassandra作为其存储引擎,使用Apache Spark作为其计算层。Apache Cassandra作为一套开源分布式Key-Value存储系统,具有分布式、基于column的结构化和高可扩展性等特点。FiloDB充分利用...原创 2018-06-28 09:53:47 · 931 阅读 · 0 评论 -
Spark Streaming写入tsdb卡死问题
最近写入程序经常出现写入tsdb卡死问题,经过比较久排查后解决,这里记录下。对我个人而言加深了spark程序和yarn资源管理关系的认知。原创 2019-05-29 21:29:43 · 558 阅读 · 0 评论 -
hdfs写入缓慢问题:思路分析与问题解决
最近遇见加载程序写入hdfs速度缓慢问题。经过长时间的分析后解决,这里写下思路和解决方案。原创 2019-06-04 21:15:47 · 7437 阅读 · 3 评论