Python 简单应用--统计单词

本文通过Python代码分析了“100个句子背7000单词”这个说法,发现实际单词数量远少于声称的数量。作者读取文件,提取英语单词,统计并去除常见单词,得出实际正儿八经的单词只有1143个,而总单词数为2493个。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


知乎上一篇帖子“有什么相见恨晚的背单词方法?”提到学好英语首先要过7000单词词汇量这道关,而网上看到很多关于“100个句子背7000单词”的故事。可当我下载这100个句子后感觉这里远远没有7000个单词。因而就想用python来确认一下 自己的感觉是否正确。

下面用Python写了几行代码来统计这100个句子到底有多少单词。

100个句子已经下载,若没有下载或感兴趣的朋友可以查看这里  100个句子背7000单词...


代码实现单词统计的简单分析:

1. 读取文件内容,直接使用open()函数

2. 文件内容可能不完全是英语,因而需要提取英语单词,这里采用正则方式来提取

3. 提取单词后生成一个列表,这样便于统计

代码如下: 也可以直接访问Github获得全部代码和数据


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值