转自:https://blog.youkuaiyun.com/cobramonkey/article/details/71124888
作为大数据分析的重要工具,Hadoop在这一领域发挥着不可或缺的作用。有些人认为随着Spark的兴起和应用,Hadoop的MapReduce计算框架已经过时(而事实也是如此),Spark的高效、易用确实功能强大,在大数据分析计算中其作用也日渐提高。但无论分析工具如何改进,Hadoop带给我们的HDFS、HIVE以及NoSQL的代表HBASE在今天这个以数据为核心的大数据时代,依旧是不可或缺的。扯了这么多,就来说说笔者最近进行地理大数据池化时遇到的格式转换问题,即将shapefile转换为GeoJson。
1.GeoJson是啥
谈到GeoJson,就不得不说和它看起来似乎关系密切的Json格式。Json全称JavaScript Object Notation,即Javascript对象标注。在网络传输过程中,大体量和多格式的数据会造成处理的复杂化且消耗大量的网络资源,我的理解是Json格式就是将JavaScript中的对象统一规范化,以键值对的形式保存原有对象的信息,这样在传输时,只需传输与简单文本差不多的内容即可完成网页内容的传输和网页响应。而这部分数据在具体应用时,则可以根据其应用规则来从Json格式还原。大体上说,Json是由一个个键值对组成的具有面向对象思想的数据格式,具有以下特点:
数据在键值对中
数据由逗号分隔
花括号保存对象
方括号保存数组
1
2
3
4
下面的例子可能更加一目了然:
{
"dog":[
{
"name":"旺财",
"food":"骨头"
},
{
"name":"奇福",
"food":"肉"
}
]