大数据的挑战是多方面多层次的,《大数据时代》这本书是面向大众的,主要讲大数据分析和应用。实际上大数据对整个计算机领域都提出巨大的挑战,从底层硬件到架构应用再到分析应用都是如此。如:
1、怎样采集到大量全面准确的数据?这跟互联网、物联网、各种联网和各种客户端软件等技术有关。
2、怎样进行大数据的存储与计算?这对传统计算机的硬件和架构提出了巨大的挑战,这几年很火的hadoop平台就是为了解决这方面问题的,目前很多大的互联网公司都是采用这一技术,如百度阿里腾讯(BAT)等。传统的解决方案是采用大型机,如银行金融航空等大数据系统一直以来都是采购IBM的大型机去解决的,成本很高,一台大型机就要上百上千万元,且不容易扩展,现在hadoop提供了大众化解决方案,成本低且易扩展,直接把普通的多台电脑连在一起就可以当作一个大系统来使用,像阿里腾讯的hadoop平台都是有5千台以上的电脑所组成的系统,以支持巨大的数据存储和计算能力需求。hadoop平台包函许多技术:文件系统、数据库、Map/Reduce编程计算等等。。。
3、怎样更好地分析和应用大数据?这也是计算机领域的一个热门课题方向(叫数据挖掘),也是我目前研究和感兴趣的专业方向,通过各种算法去挖掘数据中隐藏的价值。算法有很多,涉及到机器学习、人工智能、模式识别、数据挖掘等等。还要结合具体的平台和商业领域,使用不同的算法去做分析和应用,现在各行各业都已经很普遍地在使用了,就像《大数据时代》里所说的案例。
1、怎样采集到大量全面准确的数据?这跟互联网、物联网、各种联网和各种客户端软件等技术有关。
2、怎样进行大数据的存储与计算?这对传统计算机的硬件和架构提出了巨大的挑战,这几年很火的hadoop平台就是为了解决这方面问题的,目前很多大的互联网公司都是采用这一技术,如百度阿里腾讯(BAT)等。传统的解决方案是采用大型机,如银行金融航空等大数据系统一直以来都是采购IBM的大型机去解决的,成本很高,一台大型机就要上百上千万元,且不容易扩展,现在hadoop提供了大众化解决方案,成本低且易扩展,直接把普通的多台电脑连在一起就可以当作一个大系统来使用,像阿里腾讯的hadoop平台都是有5千台以上的电脑所组成的系统,以支持巨大的数据存储和计算能力需求。hadoop平台包函许多技术:文件系统、数据库、Map/Reduce编程计算等等。。。
3、怎样更好地分析和应用大数据?这也是计算机领域的一个热门课题方向(叫数据挖掘),也是我目前研究和感兴趣的专业方向,通过各种算法去挖掘数据中隐藏的价值。算法有很多,涉及到机器学习、人工智能、模式识别、数据挖掘等等。还要结合具体的平台和商业领域,使用不同的算法去做分析和应用,现在各行各业都已经很普遍地在使用了,就像《大数据时代》里所说的案例。