Python爬虫实践——爬取网站文章

最新推荐文章于 2024-07-21 21:39:32 发布

weixin_30526593

最新推荐文章于 2024-07-21 21:39:32 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

文章标签：爬虫 python 数据库

原文链接：http://www.cnblogs.com/liesun/p/10255045.html

本文介绍了初学者使用Python爬虫从中国农业信息网的科技板块抓取种植技术文章的过程。通过分析网站结构，发现了URL的规律，并利用BeautifulSoup解析HTML，获取文章标题和链接，最后将数据存储到数据库。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

初学Python，对爬虫也是一知半解，恰好有个实验需要一些数据，所以本次爬取的对象来自中国农业信息网中下属的一个科技板块种植技术的文章（http://www.agri.cn/kj/syjs/zzjs/）

首先，分析网站结构：各文章标题以列表的形式展示，点击标题获得则是文章的正文，如图所示：

分析网页源码，不难看出图一所示的URL规律，其首页为 http://www.agri.cn/kj/syjs/zzjs/index.htm ，其后续页面分别为 http://www.agri.cn/kj/syjs/zzjs/index_1.htm 、http://www.agri.cn/kj/syjs/zzjs/index_2.htm …… 等等以此类推，因此可以使用循环对URL来赋值得到想要的页数。

下一步，获取新闻的标题和URL，通过解析网页源码，发现所有标题包含在如下结构中：

得到结构后，可以据此使用Beautifulsoup得到所需的a标签链接和标题，并将其存入dictionary中，使用key保存标题，而URL作为其value值

最后，将得到的dictionary遍历，取出每个链接并解析网页代码，得到需要的文章信息，最后一并存进数据库，代码如下：

# -*- coding: UTF-8 -*-
from bs4 import BeautifulSoup
import requests
import sys
import pymysql
import re

#--------set page amount----------

def set_download_urls():
    downloadUrls = []
    baseUrl = 'http://www.agri.cn/kj/syjs/zzjs/'
    downloadUrls.append('