数据科学:从复杂到实用的变革之路
1. 数据科学的简易化与普及化
如今,数据科学已不再像过去那样复杂和深奥。借助精心设计的软件包和易于使用的应用程序编程接口(API),人们无需自行实现所有的数据科学算法,只需了解每个算法的功能,并能将它们组合起来解决实际问题即可。这种便利性使得数据科学工作负载的设计变得更加容易,从而促使数据科学更加普及。
对于有一定编程基础(尤其是Python)且熟悉业务领域的IT人员来说,完全有能力开始设计数据处理管道,并运用这些编程技能解决业务问题。
2. 云加速数据科学发展
云计算为数据科学带来了巨大的变革。曾经,处理历史天气雷达数据的项目耗时四年,而现在,同样的数据集,团队仅用两周时间就能完成处理。这一巨大的时间差距,主要源于过去的数据处理方式存在诸多问题。
过去,数据处理涉及大量的数据迁移工作,如从磁带驱动器检索数据、将数据暂存到磁盘、处理数据,然后为下一组数据腾出空间。查找失败的作业耗时,重试失败作业还需要人工介入,而且运行环境是固定规模的机器集群。这些因素导致处理历史存档数据需要极长的时间。
而在公共云上进行数据处理后,情况发生了显著变化。可以将所有雷达数据存储在云存储中,只要从同一区域的虚拟机(VM)访问数据,数据传输速度就足够快。虽然仍需将数据暂存到磁盘、进行计算和关闭虚拟机,但整个过程更易于管理。减少数据迁移量并在更多机器上运行进程,使得处理速度大幅提升。
此外,使用云服务的成本并不高。租用处理能力比购买更经济,无论是使用10台机器运行10小时,还是使用100台机器运行1小时,成本是相同的。因此,选择在更短时间内获得结果是更明智的选择。
不
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



