数据科学入门:从社交网络到实际应用
数据时代的崛起
我们生活在一个数据泛滥的世界。网站会追踪每个用户的每一次点击,智能手机会记录我们每天每秒的位置和速度。“量化自我者”会佩戴能持续记录心率、运动习惯、饮食和睡眠模式的设备。智能汽车收集驾驶习惯,智能家居收集生活习惯,智能营销人员收集购买习惯。互联网本身就是一个巨大的知识图谱,包含了大量交叉引用的百科全书、特定领域的数据库(如电影、音乐、体育赛事结果等)以及众多政府的统计数据。
在这些海量数据中,隐藏着无数我们从未想过要问的问题的答案。那么,什么是数据科学呢?有个玩笑说,数据科学家是比计算机科学家更懂统计学,比统计学家更懂计算机科学的人。实际上,数据科学家的类型多种多样,有的更像统计学家,有的则与软件工程师难以区分,还有的是机器学习专家。但总体来说,数据科学家是从杂乱的数据中提取有价值信息的人。
数据科学社交网络 DataSciencester
假设你刚被聘请为 DataSciencester(一个数据科学家社交网络)的数据科学负责人。虽然这个社交网络是为数据科学家服务的,但它从未真正投入资源来建立自己的数据科学实践,而这将是你的工作。在后续的工作中,我们将通过解决工作中遇到的问题来学习数据科学的概念。
寻找关键连接者
上班第一天,网络副总裁希望你找出数据科学家中的“关键连接者”。他给了你 DataSciencester 整个网络的数据,包括用户列表和友谊对列表。
用户列表如下:
users = [
{ "id": 0, "name": "Hero" },
{
超级会员免费看
订阅专栏 解锁全文
1096

被折叠的 条评论
为什么被折叠?



