爬取思路
第一步,用requests获取新闻目录的网页源码。
def get_page(url): #页面源代码
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
else:
print("Fail to get page")
url = "http://news.fzu.edu.cn/html/fdyw/" + str(offset) + ".html"
html = get_page(url)
第二步,获取每一篇文章的url,并先提取日期、标题
def get_articles(html, new_list):
doc = pq(html)
articles = doc('.list_main_content li')
get_articles(html, new_list)
第三步,通过日期限制爬取范围,并对每一则新闻的url发起get请求
if new["date"][:4