仔细想想自己以前也是个爱看小说的人,虽说浪费时间,但感觉还是对语文和语言表达啥的有点帮助的,所以利用自己所学干点喜欢的事也是相当不错的。
这里以笔趣阁的一本叫做《全球高武》小说为例,主要是目的是把自己最近学的东西实践一下。
爬取目标网址:http://www.biqu6.com/23_23465/
分析工作
小说这东西无疑是一章一章的,所以先打开第一章,发现url是http://www.biqu6.com/23_23465/12788392.html,嗯,第二章是
http://www.biqu6.com/23_23465/12788393.html,这就明显找到规律了。
然后就是发现文章的内容是在div id="content"这个标签内的。当然,还有题目是在div class="bookname"这里边的。
代码实现
import requests
from pyquery import PyQuery as pq
import time
def get_one_page(url):
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
}
#这个我最后没用
proxies ={
'http':"http://112.91.218.21