朋友问我，斗破苍穹中到底出现了多少次“恐怖如斯”？

最新推荐文章于 2025-12-15 12:46:33 发布

原创

最新推荐文章于 2025-12-15 12:46:33 发布 · 1w 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

需求分析

最近，斗破苍穹的动画第五季正在热播，我的一个好友，在追动画的同时，也对斗破苍穹的小说，产生了浓厚的兴趣，最近在看完小说了以后，产生了一个疑问，他问我说，“我感觉，读小说的时候，好像经常出现恐怖如斯，但是呢，我又说不清楚，到底小说中出现了多少个恐怖如斯，仙草哥哥，你能不能帮帮我，我想知道，小说中到底出现了多少次恐怖如斯呢？”

嗯，没错，对于一个普通读者来说，想要确切的知道，文章中到底出现了多少次某个关键词，可能不是很容易，但是对于一个“爬虫爱好者”来说，这个问题就显得不是很困难了，那么今天，我们就尝试来统计一下，斗破苍穹中到底出现了多少次“恐怖如斯”吧！

实现分析

首先，我们需要确定一点，在统计小说关键词的时候，我们要先得到整部小说。对于一些老的小说来说，可能你在网站上可以直接下载到整本书的txt文件，这自然就是更容易了。但是对于没有现成的txt文件的小说怎么办呢？很简单，只需要通过爬虫程序，就可以实现了

不过呢，我们需要注意的是，小说是有版权的，我们不可以随便的爬取小说，这是一种侵权的行为，因此，我并不会在本篇文章中爬取整部小说，这是不对的行为

import requests
from lxml import etree
from base64 import b64decode

# 只需要一行代码就可以得到结果了？真的很酷哦！
print(etree.HTML(requests.get(b64decode("aHR0cHM6Ly9yZWFkLnFpZGlhbi5jb20vY2hhcHRlci8yUjlHX3ppQlZnNDEvTXlFY3d0azVpOElleDBSSk9rSmNsUTIv").decode(), headers={"user-agent": "Mozilla/5.0"}).text).xpath("//div[@class='read-content j_readContent']/p/text()"))

好，现在，我们假设，我们已经得到了整部小说了，那么如何进行关键字的统计呢？当然方法比较多，一种简单的实现是，我们可以将整部小说，

最低0.47元/天解锁文章

15 条评论

艾普里莫 2024.10.25
从2024年回来，考古成功[face]emoji:007.png[/face]

2580185125路西 2022.10.27
有没有一种可能，关键字在某一章节出现多次，而最终该关键字出现的总频次大于他的章节频次，这样的话排名就靠前了，个人看法哈，哈哈本来就是写着玩的，也没必要这么较真
- 仙草哥哥回复2580185125路西 2022.10.28
  你说的没错，完全是有可能的哦。一个词语在10章中，每章出现1次，比起另外一个词语在5章中，每章出现20次。如果是计算章数的话是10-5，但是计算次数的话，就变成10-100了[face]emoji:010.png[/face]