Python爬虫-澎湃新闻标题,内容及评论,分词及去停用词,存入Excel

本文介绍了如何使用Python进行网络爬虫,目标是澎湃新闻的新闻,包括爬取新闻标题、内容和评论,并将数据存储到Excel文件中。在爬取过程中,使用了bs4和正则表达式解析网页,借助jieba进行分词和去停用词操作。由于评论位于特定URL下,通过分析页面ID规律拼接评论页URL,成功获取评论数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

	**

爬取要求

**
来自一次作业,要求根据所给事件搜索相关新闻,爬取新闻标题,内容及评论(5条)部分,存入excel,在对其进行分词及去停用词,存入新的excel

数据爬取中使用bs4,正则表达式
分词过程引用包jieba

选取澎湃新闻为目标,事件“海南一4岁男童被遗忘校车内离世
在这里插入图片描述
点开其中一个,容易在局部搜索中定位到标题和内容,在爬取过程中却发现,此url下不存在评论内容
当前url为:
在这里插入图片描述

通过全局搜索发现评论内容存放于
在这里插入图片描述
发现末尾数字id一致,抓包headers中没有相关参数,考虑截取数字,按固有形式拼接至‘contid=’之后,以此获取评论页url,定位评论
在这里插入图片描述
代码:

from bs4 import BeautifulSoup
import requests
import re
import xlwt
import jieba
headers = {
   
   
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3742.400 QQBrowser/10.5.3866.400'
}
url=['https://www.thepaper.cn/newsDetail_forward_3590585',
'https://www.thepaper.cn/newsDetail_forward_3592499',
'https://www.thepaper.cn/newsDetail_forward_3610103',
'https://www.thepaper.cn/newsDetail_forward_3595326',
'https://www.thepaper.cn/newsDetail_forward_3639371']
# 创建停用词list
def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
    return stopwords

爬取部分

title_data=[]   #用于存放标题数据
wenzi_data=[]  #存放文字内容
com_data=[]    #存放评论数据
wenzi_out = []  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值