在本篇博客中,我们将使用requests+正则表达式爬取指定页面的新闻内容,使用正则表达式解析网页,获取新闻的题目、日期、来源、正文内容。
首先,搭建起主体程序,爬虫四部曲:
import json
import requests
from requests.exceptions import RequestException
import re
import time
def get_page(url):
pass
def get_parser(html):
pass
def write_tofile(title,article):
pass
if __name__=='__main__':
#指定新闻url
url = 'http://it.people.com.cn/n1/2019/0325/c1009-30993121.html'
#发送请求,获取响应
html = get_page(url)
#解析响应
title,article = get_parser(html)
#数据存储
write_tofile(title,article)
发送请求,获取响应。编写get_page()函数:
def get_page(url):
try:
# 添加User-Agent,放在headers中,伪装成浏览器
headers = {
'Use