3、数据科学：从数据洞察到实际应用

寂静夜空35

于 2025-10-02 14:39:52 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏：数据科学的艺术与智慧文章标签：数据科学 Google Ngrams 纽约出租车记录

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/vulkan6gpu/article/details/154983284

数据科学的艺术与智慧专栏收录该内容

50 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据科学：从数据洞察到实际应用

1. 数据资源介绍

1.1 Google Ngrams

自 1439 年古腾堡发明活字印刷术以来，印刷书籍一直是人类知识的主要载体。如今，谷歌致力于扫描全球出版的书籍，虽尚未完成，但已数字化的 3000 万本书籍占出版书籍总数的 20%以上。

Google Ngrams 是一个强大的工具，它能提供每年出版书籍中短词组的出现频率。每个词组在扫描的书籍语料库中至少出现 40 次，这排除了生僻词汇，留下超过 20 亿个时间序列可供分析。通过这些数据，我们可以看到过去 200 年语言使用的变化，例如“data”一词在计算机领域的兴衰。

你可以访问 Google Ngrams ，比较不同词组，如“hot dog”与“tofu”、“science”与“religion”等，感受其魅力。

利用这些免费可得的数据，我们可以提出很多有趣的问题：
- 随着时间推移，咒骂用语的使用量有何变化？
- 新词汇出现并流行的频率如何？它们会持续使用还是迅速消失？能否检测到词汇含义的变化？
- 拼写标准是在提高还是下降？

此外，还可以使用 Ngrams 语料库构建语言模型，通过词频统计和词对频率来改进语音识别系统。

1.2 纽约出租车记录

如今，每笔金融交易都会留下数据痕迹，纽约出租车记录就是一个很好的例子。出租车是城市交通网络的重要组成部分，每辆出租车都配备计量装置，记录行程费用、乘客上下车时间和地点等信息。

由于纽

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。