保险行业大数据:概念、特性与架构解析
1. 大数据的定义
大数据是一个通用且广泛使用的术语,对其进行准确定义颇具挑战。维基百科将大数据定义为“规模极大或极为复杂,传统数据处理应用软件难以应对的数据集”。这一定义着重强调了传统工具在处理海量数据时能力的局限性。
从谷歌趋势工具提取的数据来看,自2010年起,人们对“大数据”这一术语的搜索兴趣呈近乎指数级增长,这表明该术语相对较新,也反映出人们对突然失控的数据量感到惊讶。实际上,早在1998年,相关文章就开始探讨数据量和数据库向更大规模发展的未来趋势。2001年,咨询公司高德纳的道格·莱尼(Doug Laney)发表的一篇文章虽未提及“大数据”一词,但提出了大数据的三个关键特性:
- Volume(规模) :描述数据的大小。
- Velocity(速度) :指数据生成、传输和处理的速度。
- Variety(多样性) :表示数据来源和类型的异质性。
后来,又增加了两个特性:
- Veracity(准确性) :关注数据的可靠性,因为数据可能存在错误、不完整或过时的情况。
- Value(价值) :强调数据必须为相关公司或整个社会创造价值。
2. 用五个“V”来刻画大数据
2.1 多样性(Variety)
如今的数据来源广泛,类型多样,包括:
- 文本、照片和视频(互联网等)
- 时空信息(移动设备、智能传感器等)