3、数据科学:从数据洞察到实际应用

数据科学:从数据洞察到实际应用

在当今数字化时代,数据无处不在,如何从海量的数据中提取有价值的信息成为了关键。下面将介绍一些有趣的数据资源以及数据的相关特性,还有常见的数据科学问题类型。

1. 谷歌 Ngrams:洞察语言与文化变迁

自 1439 年古腾堡发明活字印刷术以来,印刷书籍一直是人类知识的主要载体。如今,谷歌为了整理世界信息,对大量出版书籍进行扫描,目前已数字化 3000 万本书籍,占所有出版书籍的 20%以上。

谷歌利用这些数据改进搜索结果,并提供对绝版书籍的访问。其中,谷歌 Ngrams 是一个监测文化潮流变化的强大工具,它能提供每年出版书籍中短短语的出现频率。每个短语在扫描的书籍语料库中至少出现 40 次,这排除了生僻词汇和短语,留下超过 20 亿个时间序列可供分析。

通过这个丰富的数据集,我们可以看到过去 200 年语言使用的变化,例如在计算领域,“数据处理”在 20 世纪 50 年代穿孔卡片和磁带时代是流行术语,直到 1980 年计算机科学的兴起才逐渐取代它,而“数据科学”至今在这个尺度上仍几乎不明显。

你可以访问 谷歌 Ngrams ,比较不同词汇或短语,如“热狗”与“豆腐”、“科学”与“宗教”等,感受这个探索过去的奇妙工具。

利用谷歌 Ngrams 数据,我们可以提出很多有趣的问题:
- 咒骂用语的变化 :自 1960 年以来,一些常见的四字母咒骂词使用似乎激增,但不清楚这是因为咒骂增加还是出版标准降低。
-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值