数据科学:从数据洞察到实际应用
1. 数据资源介绍
1.1 Google Ngrams
自 1439 年古腾堡发明活字印刷术以来,印刷书籍一直是人类知识的主要载体。如今,谷歌致力于扫描全球出版的书籍,虽尚未完成,但已数字化的 3000 万本书籍占出版书籍总数的 20%以上。
Google Ngrams 是一个强大的工具,它能提供每年出版书籍中短词组的出现频率。每个词组在扫描的书籍语料库中至少出现 40 次,这排除了生僻词汇,留下超过 20 亿个时间序列可供分析。通过这些数据,我们可以看到过去 200 年语言使用的变化,例如“data”一词在计算机领域的兴衰。
你可以访问 Google Ngrams ,比较不同词组,如“hot dog”与“tofu”、“science”与“religion”等,感受其魅力。
利用这些免费可得的数据,我们可以提出很多有趣的问题:
- 随着时间推移,咒骂用语的使用量有何变化?
- 新词汇出现并流行的频率如何?它们会持续使用还是迅速消失?能否检测到词汇含义的变化?
- 拼写标准是在提高还是下降?
此外,还可以使用 Ngrams 语料库构建语言模型,通过词频统计和词对频率来改进语音识别系统。
1.2 纽约出租车记录
如今,每笔金融交易都会留下数据痕迹,纽约出租车记录就是一个很好的例子。出租车是城市交通网络的重要组成部分,每辆出租车都配备计量装置,记录行程费用、乘客上下车时间和地点等信息。
由于纽
超级会员免费看
订阅专栏 解锁全文
2213

被折叠的 条评论
为什么被折叠?



