大数据与数据科学职业发展全解析
1. 大数据学习资源推荐
在大数据分析领域,有许多值得阅读的资料。Leskovec、Rajarman 和 Ullman的相关作品,对大数据分析主题的探讨较为全面,若想深入研究相关话题,这是一个很好的参考。该资源及配套视频可在 http://www.mmds.org 获取。
同时,O’Reilly Media出版的书籍是学习软件技术的实用资源。例如,Benjamin Bengfort和Jenny Kim所著的《Data Analytics with Hadoop: An Introduction for Data Scientists》 以及Sandy Ryza、Uri Laserson、Sean Owen和Josh Wills所著的《Advanced Analytics with Spark: Patterns for Learning from Data at Scale》,分别对Hadoop和Spark在数据分析中的应用进行了介绍。
此外,Cathy O’Neil的作品引发了对大数据分析社会危害的思考,强调了不透明模型依赖代理数据源所带来的问题,这些数据源可能形成反馈循环,加剧原本试图解决的问题。
2. 大数据相关练习与挑战
2.1 并行与分布式处理练习
- 概念区分 :需要明确并行处理和分布式处理的区别。
- MapReduce相关 :了解MapReduce的好处,设计MapReduce算法来处理包含整数的大文件,计算最大整数、所有整数的平均值、输入中不同整数的数量、整数
超级会员免费看
订阅专栏 解锁全文
929

被折叠的 条评论
为什么被折叠?



