
数据格式
BedrockOfAI
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Apache Parquet 列式存储
Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持(Hive、Impala、Drill等),并且它是语言和平台无关的。Parquet最初是由Twitter和Cloudera(由于Impala的缘故)合作开发完成并开源,2015年5月从Apache的孵化器里毕业成为Apache...转载 2018-12-27 11:46:41 · 1400 阅读 · 0 评论 -
将 Spark 中的文本转换为 Parquet 以提升性能
https://www.ibm.com/developerworks/cn/analytics/blog/ba-parquet-for-spark-sql/index.html1列式存储布局(比如 Parquet)可以加速查询,因为它只检查所有需要的列并对它们的值执行计算,因此只读取一个数据文件或表的小部分数据。Parquet 还支持灵活的压缩选项,因此可以显著减少磁盘上的存储。如果您...转载 2019-05-09 16:38:45 · 311 阅读 · 0 评论