Python爬虫-澎湃新闻标题，内容及评论，分词及去停用词，存入Excel_python 从网页提取新闻标题并保存到excel-优快云博客

本文介绍了如何使用Python进行网络爬虫，目标是澎湃新闻的新闻，包括爬取新闻标题、内容和评论，并将数据存储到Excel文件中。在爬取过程中，使用了bs4和正则表达式解析网页，借助jieba进行分词和去停用词操作。由于评论位于特定URL下，通过分析页面ID规律拼接评论页URL，成功获取评论数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

**

爬取要求

**
来自一次作业，要求根据所给事件搜索相关新闻，爬取新闻标题，内容及评论（5条）部分，存入excel，在对其进行分词及去停用词，存入新的excel

数据爬取中使用bs4，正则表达式
分词过程引用包jieba

选取澎湃新闻为目标，事件“海南一4岁男童被遗忘校车内离世”
在这里插入图片描述
点开其中一个，容易在局部搜索中定位到标题和内容,在爬取过程中却发现，此url下不存在评论内容
当前url为：

通过全局搜索发现评论内容存放于
在这里插入图片描述
发现末尾数字id一致，抓包headers中没有相关参数，考虑截取数字，按固有形式拼接至‘contid=’之后，以此获取评论页url，定位评论

代码：

from bs4 import BeautifulSoup
import requests
import re
import xlwt
import jieba
headers = {
   
   
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3742.400 QQBrowser/10.5.3866.400'
}
url=['https://www.thepaper.cn/newsDetail_forward_3590585',
'https://www.thepaper.cn/newsDetail_forward_3592499',
'https://www.thepaper.cn/newsDetail_forward_3610103',
'https://www.thepaper.cn/newsDetail_forward_3595326',
'https://www.thepaper.cn/newsDetail_forward_3639371']
# 创建停用词list
def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
    return stopwords

爬取部分

title_data=[]   #用于存放标题数据
wenzi_data=[]  #存放文字内容
com_data=[]    #存放评论数据
wenzi_out = []