
storage
文章平均质量分 93
bitcarmanlee
这个作者很懒,什么都没留下…
展开
-
NoSQL 数据库的使用场景
摘要:对比传统关系型数据库,NoSQL有着更为复杂的分类——键值、面向文档、列存储、图数据库。这里就带你一览NoSQL各种类型的适用场景及一些知名公司的方案选择。在过去几年,关系型数据库一直是数据持久化的唯一选择,数据工作者考虑的也只是在这些传统数据库中做筛选,比如SQL Server、Oracle、MySQL。甚至是做一些默认的选择,比如使用.NET的一般会选择SQL Serve转载 2016-03-20 21:27:01 · 1559 阅读 · 0 评论 -
列存储中常用的数据压缩算法
列存储,作为一种针对数据查询和数据分析设计的数据存储策略,在“大数据”越来越普及的今天可以说是相当地火热。相较于行存储,列存储的最大优势有二,其一就是查询涉及到数据库的哪几个列就读哪几个列,不读一点与查询不相关的列,大大减少了数据的读取,其二就是数据库数据分为多个独立的列来存储,相同数据类型的数据连续存储在一起,易于数据压缩,而这再次减少了数据的读取。以上正是列存储在处理数据查询和数据分析方面的天转载 2016-03-20 21:35:25 · 6654 阅读 · 0 评论 -
Apache Parquet 与Apache ORC简介
1.列存储的优势传统的 RDBMS 大多使用的行存储方式,现如今随着大数据技术的发展,对于存储的要求越来越高,列存储相对有自己明显的优势:列数据相对来说比较类似,压缩比更高;一般的查询只涉及几列,列存储的查询性能也更高;可以方便地新增列等。在某些场景下,选择列存储是非常不错的选择,从节省存储的角度来说就非常吸引人了。目前,比较有名的开源实现有 Apache Parquet 和 Apache ORC。原创 2016-07-23 20:08:19 · 5168 阅读 · 0 评论 -
Avro, Protocol Buffers 、Thrift的联系与区别
当想要数据, 比如对象或其他类型的, 存到文件或是通过网络传输, 需要面对的问题是序列化问题 对于序列化, 当然各个语言都提供相应的包, 比如, Java serialization, Ruby’s marshal, or Python’s pickle一切都没有问题, 但如果考虑到跨平台和语言, 可以使用Json或XML 如果你无法忍受Json或XML的verbose和parse的效率,转载 2016-11-27 22:25:41 · 6287 阅读 · 0 评论 -
深入分析Parquet列式存储格式
Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目。1.列式存储列式存储和行式存储相比有哪些优势呢?1.可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。 2.压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使用更高效的压缩编码(例如Run Length Encodi转载 2016-12-17 17:06:37 · 2435 阅读 · 0 评论