作者:禅与计算机程序设计艺术
1.背景介绍
概述
随着互联网的发展,海量的数据、海量的用户数据以及海量的流量使得数据仓库的建设变得十分复杂和困难,因此越来越多的人选择在大数据平台上进行数据分析和决策。数据的采集、存储、计算、分析和处理都需要依靠大数据平台的支持。而对于数据的存储、检索、统计等方面的功能需求,则主要依赖于数据的索引。
什么是数据索引?数据索引又称为搜索引擎索引、全文检索、倒排索引、排序索引等,是一种帮助信息快速找到特定条目的技术。数据索引的建立可以加快数据的检索速度,减少计算资源的消耗,提高数据的利用率。索引通常以文件形式存在,可将索引文件加载到内存中,对文件的查找、统计、排序等操作都能加速。
数据类型
目前大数据平台所涉及到的主要数据类型包括两类,即结构化数据(如数据库中的表)和非结构化数据(如日志文件、网页文本、图片、视频等)。
结构化数据
结构化数据是指以表格的形式组织的数据。典型的结构化数据包括关系型数据库中的表、NoSQL数据库中的文档。通过定义好的字段,数据表能够确切地描述数据对象之间的关系。例如,在一个学生信息表中,“姓名”、“性别”、“出生日期”、“学校”、“班级”都是其属性。这些属性共同决定了一个人的基本信息。通过指定“姓名”作为主键,就可以唯一标识一个