参考:
https://www.cnblogs.com/ITtangtang/p/7677912.html
https://blog.youkuaiyun.com/yu616568/article/details/51868447
https://hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/

总结
两者都是参考了Google 的Dremel 的数据格式, 列存储, 有预存统计信息
区别是Parquet 对于 nested data (嵌套类型, 复杂类型 比如struct)有更好的支持
其他方面ORC性能好点
Cloudera推Parquet, Hortonworks推ORC
本文对比了Parquet和ORC两种列存储数据格式。两者皆源于Google的Dremel,支持列存储及预存统计信息。Parquet在处理嵌套数据类型上表现更佳,而ORC则在整体性能上略胜一筹。Cloudera倾向于推广Parquet,Hortonworks则推崇ORC。

被折叠的 条评论
为什么被折叠?



