具体含义是
- 统计一本书的总单词数;
- 统计单词出现的次数(词频)。
第一个很简单。在Word里就能完成了。因为Word有统计字数的功能。第二个相对要复杂一些。因为要用到EmEditor和一点数据库的操作。下面主要讲一下第二个。
首先要将这本电子书(EPUB格式)转换成DOCX格式。用什么转换工具?Calibre是最好的选择。其次用Word打开这本书后将全部内容Copy到EmEditor里。第三步把所有的空格替换成段落标记。注意要用到正侧表达式。替换掉所有数字,替换掉所有标点符号,去掉多余的空行,使保证一行一个单词后保存为TXT格式。第四步将这个文档内容导入到Access。然后再来一个Group by 单词就搞定了。
统计后发现有时真的很佩服外国的作家。因为在一本40来万单词总量的小说里,有很多单词只使用一次。
下面以Winds of War为例
总词单词数为:37万,去年数据和标点后,总单词数为38万;共用单词:19530个(不重复),只使用过1次的单词7415个!是不是比我学过的单词量都大?下面看看前24个使用频率最高的单词:
|
字段1 |
cc |
|
The |
22421 |
|
and |
10441 |
|
a |
10217 |
|
to |
8299 |
|
of |
7737 |
|
In |
7061 |
|
I |
5099 |
|
s |
4713 |
|
he |
4622 |
|
you |
4191 |
|
that |
3994 |
|
was |
3979 |
|
it |
3740 |
|
His |
3476 |
|
on |
3118 |
|
with |
2992 |
|
had |
2709 |
|
at |
2654 |
|
for |
2426 |
|
said |
2037 |
|
this |
2013 |
|
But |
1877 |
|
they |
1849 |
|
her |
1824 |
是不是很有意思?
根据上面的思路,我就用上千万单词的书来建立了个词库,以后每次遇到生词时都看看词频。如果很低,那就不背这个单词了。
171万+

被折叠的 条评论
为什么被折叠?



