大数据在保险行业的应用与挑战
1. 大数据编程语言 Python 的崛起
Python 作为一种通用编程语言,正日益受到欢迎。它具有灵活性和开放性,非常适合将分析任务与 Web 应用程序或特定的非常规架构集成。其专门的数据科学库使其成为 R 语言的有力竞争对手。
2. 向数据导向战略的迁移
2.1 大数据采用的四个阶段
很少有公司能够宣称已经成功向数据导向战略迁移。根据相关观点,大数据的采用可分为四个可识别的阶段:
1. 实验阶段 :探索使用大数据基础设施的潜力,目标是处理安装和配置问题,主要目的是查看该技术与现有架构的兼容性。此阶段成本较低,只需配备一些低端服务器和开源软件(如 Hadoop/Spark)。通常会使用带有现有数据的数据存储层,并添加新的数据处理层,如数据库查询。
2. 实施阶段 :企业着手处理一个能证明大数据价值的用例。具体操作步骤如下:
- 为现有数据开发数据处理链。
- 将这个概念验证部署到生产环境中。常见的用例包括欺诈检测、日志分析以更好地理解使用模式、预测客户流失,以及引入推荐系统等。像 Spark 的 MLlib 这样的数据分析库,有大量原生(且经过优化)的算法可用于解决这些问题,此阶段的目标是展示建立大数据架构所带来的附加值和经济影响。
3. 扩展阶段 :将用例推广到企业价值链的不同层面。负责大数据的团队已有早期成功案例,可说服企业内不同利益相关者。由于基础设施已经存在,开发新用例的成本会降低。各业务应用开始出现,每个服务都利用技术优化现有分析、扩展分析范围、提