爬取思路
第一步,用requests获取新闻目录的网页源码。
def get_page(url): #页面源代码
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
else:
print("Fail to get page")
url = "http://news.fzu.edu.cn/html/fdyw/" + str(offset) + ".html"
html = get_page(url)
第二步,获取每一篇文章的url,并先提取日期、标题
def get_articles(html, new_list):
doc = pq(html)
articles = doc('.list_main_content li')
get_articles(html, new_list)
第三步,通过日期限制爬取范围,并对每一则新闻的url发起get请求
if new["date"][:4

本文介绍了使用Python爬虫抓取学校新闻网站的过程,包括获取新闻目录、提取每篇文章的日期和标题、按日期限制爬取范围、获取详细信息如作者、正文和浏览数。在实施过程中遇到的一个问题是新闻浏览数无法直接爬取,原因是该数据通过Ajax动态加载。
最低0.47元/天 解锁文章
1607

被折叠的 条评论
为什么被折叠?



