如果一个页面上只有标题,想要获取该标题下面的文章,就需要获取文章的url,方法是:定位超链接标签标题,获取其中的href的值。
。
import requestsfrom bs4 import BeautifulSoupurl='http://politics.people.com.cn/n1/2020/1121/c1024-31939065.html'headers={'User-agent':'浏览器请求头的user-agent'}r=requests.get(url,headers=headers)if r.status_code==200: r.encoding = 'gb18030' soup=BeautifulSoup(r.text,'lxml') #print(soup) tags=soup.find('div','clearfix box_pic02') hrefs=tags.find_all('a') for href in hrefs: print("超链接的整个标签内容为:",href) text=href.get_text() print("*超链接中的文本为:",text) get_href=href.get('href') print("*超链接为:",get_href)else: print("连接网页不成功")
最后输出的结果为:

~End~