初学Python,对爬虫也是一知半解,恰好有个实验需要一些数据,所以本次爬取的对象来自中国农业信息网中下属的一个科技板块种植技术的文章(http://www.agri.cn/kj/syjs/zzjs/)
首先,分析网站结构:各文章标题以列表的形式展示,点击标题获得则是文章的正文,如图所示:
分析网页源码,不难看出图一所示的URL规律,其首页为 http://www.agri.cn/kj/syjs/zzjs/index.htm ,其后续页面分别为 http://www.agri.cn/kj/syjs/zzjs/index_1.htm 、http://www.agri.cn/kj/syjs/zzjs/index_2.htm …… 等等以此类推,因此可以使用循环对URL来赋值得到想要的页数。
下一步,获取新闻的标题和URL,通过解析网页源码,发现所有标题包含在如下结构中:
得到结构后,可以据此使用Beautifulsoup得到所需的a标签链接和标题,并将其存入dictionary中,使用key保存标题,而URL作为其value值
最后,将得到的dictionary遍历,取出每个链接并解析网页代码,得到需要的文章信息,最后一并存进数据库,代码如下:
# -*- coding: UTF-8 -*- from bs4 import BeautifulSoup import requests import sys import pymysql import re #--------set page amount---------- def set_download_urls(): downloadUrls = [] baseUrl = 'http://www.agri.cn/kj/syjs/zzjs/' downloadUrls.append('