python 爬虫初试

最新推荐文章于 2023-12-04 10:51:16 发布

phoenix_te

最新推荐文章于 2023-12-04 10:51:16 发布

阅读量723

点赞数

CC 4.0 BY-SA版权

分类专栏： python

本文链接：https://blog.youkuaiyun.com/qq_39304201/article/details/79544408

python 专栏收录该内容

9 篇文章

订阅专栏

先阐述一下自己对爬虫的理解。

url即网址，每个网页都有唯一的url，浏览器输入网址（url），即是向服务器发送请求，服务器得到请求后，发送一些文件到本地（即html，css，javascrip等文件），浏览器通过解析这些文件可视化的呈现给我们，我们所看到就是浏览器将文件可视化的结果。

因此，要获取网页的内容，先就要获取网页的源码，然后在源码上定位各个标签（tag），获取标签间我们需要的内容。

原本我以为爬虫程序是不需要修改的，直到写了几个程序后才知晓，由于每个网站内的前端文件不尽相同，所以定位方法也不同，这就要求先去看网页的源代码，总结出我们需要的内容在每个网页源码中的规律性，再定位标签，获取内容。

以下是我利用bs4，与urllib库，爬取起点玄幻小说top500本的程序

import urllib.request
from bs4 import BeautifulSoup

filename = "C:\\Users\Administrator\Desktop\python笔记\meg.txt"

for i in range(1, 26):
    url = "https://www.qidian.com/rank/yuepiao?chn=21&page=" + str(i)
    page = urllib.request.urlopen(url)
    contents = page.read()
    soup = BeautifulSoup(contents, "html.parser")
    for tag in soup.find_all('div', class_="book-mid-info"):
        name = tag.find('a').get_text()
        author = tag.find('a', class_='name').get_text()
        serialize = tag.find('span').get_text()
        update = tag.find('p', class_='update').get_text()
        update_time = update[-17:]
        update_contents = update[5:-18]
        msg = name + " " + author + " " + serialize + " " + update_contents + " " + update_time
        with open(filename, 'a', encoding='utf-8') as f_obj:
            f_obj.write(msg + '\n')