1.获取各个部件的代码如下
import requests from bs4 import BeautifulSoup from datetime import datetime res =requests.get('http://news.ifeng.com/a/20180428/57954919_0.shtml#_zbs_sogou_bd') #防止中文内容乱码 res.encoding = 'utf-8' soup = BeautifulSoup(res.text,'html.parser') #获取文章标题,根据(div class=xx,来获取文章标题,观察文章标题在哪个标签里面) title=soup.select('.yc_tit h1')[0].text print(title) #获取时间,观察法观察时间在哪个标签里面 time = soup.select('p span')[0].contents[0] print(time) #获取来源,观察法观察来源放在哪个标签内,进行获取 source=soup.select('.h_nav a')[1].text print(source) 获取文章文本内容 article=[] for p in soup.select('p')[1:-1]: #对获取的文本进行处理,将标签去掉 article.append(p.text.strip()) print(article) ' '.join(article) #将主编找出,处理 editor=soup.select('.yc_zb')[0].text.lstrip('责编:') print(editor) #获取编号,(对连接进行分解) newsurl='http://news.ifeng.com/a/20180428/57954919_0.shtml#_zbs_sogou_bd' newsid=newsurl .split('/')[-1].rstrip('.shtml#_zbs_sogou_bd') print(newsid)
2.获取的信息结果如下