原文链接:http://www.nicemxp.com/articles/11
本文目的抓取腾讯新闻首页中要闻页签下的所有新闻标题和链接。
如图:
地址:http://news.qq.com/top_index.shtml
要闻页签中一般会有几个分页:
所以要爬取要闻下的所有新闻标题和链接就需要一个一个分页的爬取。下面开始写代码。
首先获取腾讯新闻页面内容,写一个获取页面的接口。
先导入本次抓取所必备的库
# -*- coding:utf-8 -*-
#Python抓取网页必备的库
import urllib
import urllib2
#正则表达式
import re
#随机数生成
import random
#gzip
import gzip
from StringIO import StringIO
构建请求头部,请求页面
#构建页面请求的头部
headers = {'User-Agent':user_agent, "Referer":re