数据科学:从数据洞察到实际应用
在当今数字化时代,数据无处不在,如何从海量的数据中提取有价值的信息成为了关键。下面将介绍一些有趣的数据资源以及数据的相关特性,还有常见的数据科学问题类型。
1. 谷歌 Ngrams:洞察语言与文化变迁
自 1439 年古腾堡发明活字印刷术以来,印刷书籍一直是人类知识的主要载体。如今,谷歌为了整理世界信息,对大量出版书籍进行扫描,目前已数字化 3000 万本书籍,占所有出版书籍的 20%以上。
谷歌利用这些数据改进搜索结果,并提供对绝版书籍的访问。其中,谷歌 Ngrams 是一个监测文化潮流变化的强大工具,它能提供每年出版书籍中短短语的出现频率。每个短语在扫描的书籍语料库中至少出现 40 次,这排除了生僻词汇和短语,留下超过 20 亿个时间序列可供分析。
通过这个丰富的数据集,我们可以看到过去 200 年语言使用的变化,例如在计算领域,“数据处理”在 20 世纪 50 年代穿孔卡片和磁带时代是流行术语,直到 1980 年计算机科学的兴起才逐渐取代它,而“数据科学”至今在这个尺度上仍几乎不明显。
你可以访问 谷歌 Ngrams ,比较不同词汇或短语,如“热狗”与“豆腐”、“科学”与“宗教”等,感受这个探索过去的奇妙工具。
利用谷歌 Ngrams 数据,我们可以提出很多有趣的问题:
- 咒骂用语的变化 :自 1960 年以来,一些常见的四字母咒骂词使用似乎激增,但不清楚这是因为咒骂增加还是出版标准降低。
-
超级会员免费看
订阅专栏 解锁全文
2226

被折叠的 条评论
为什么被折叠?



