Python获取新闻的各个部件

最新推荐文章于 2025-10-21 16:04:53 发布

原创最新推荐文章于 2025-10-21 16:04:53 发布 · 538 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#获取新闻部件 #Python

简单爬取同时被 2 个专栏收录

3 篇文章

订阅专栏

获取新闻内容

1 篇文章

订阅专栏

本文展示了一个使用Python的requests和BeautifulSoup库从凤凰网抓取新闻内容的例子。该示例包括了如何解析网页以获取标题、发布时间、来源、正文内容及责任编辑等信息。

1.获取各个部件的代码如下

import requests
from bs4 import BeautifulSoup
from datetime import datetime
res =requests.get('http://news.ifeng.com/a/20180428/57954919_0.shtml#_zbs_sogou_bd')
#防止中文内容乱码
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'html.parser')
#获取文章标题，根据（div class=xx,来获取文章标题，观察文章标题在哪个标签里面）
title=soup.select('.yc_tit h1')[0].text
print(title)
#获取时间，观察法观察时间在哪个标签里面
time = soup.select('p span')[0].contents[0]
print(time)
#获取来源，观察法观察来源放在哪个标签内，进行获取
source=soup.select('.h_nav a')[1].text
print(source)
获取文章文本内容
article=[]
for p in soup.select('p')[1:-1]:
    #对获取的文本进行处理，将标签去掉
    article.append(p.text.strip())
print(article)
' '.join(article)
#将主编找出，处理
editor=soup.select('.yc_zb')[0].text.lstrip('责编：')
print(editor)
#获取编号，（对连接进行分解）
newsurl='http://news.ifeng.com/a/20180428/57954919_0.shtml#_zbs_sogou_bd'
newsid=newsurl .split('/')[-1].rstrip('.shtml#_zbs_sogou_bd')
print(newsid)