导出新闻网页源代码并在其中查找标题

本文介绍如何使用Python的re库从百度新闻网站抓取新闻标题,通过实例演示了正则表达式的应用,包括查找、匹配和文件操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

学习了re库之后,我动手实验了一下,代码如下

import requests
import re

url='http://news.baidu.com/'
header={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0'
}
response=requests.get(url,headers=header)
info=response.text
with open('新闻页面源代码.txt','w',encoding='utf-8') as a:
    a.write(info)
#print(info)
infos=re.findall(r'title=(.+)mon=.+</a>',info)
#print(infos)

with open('热门头条.txt','w',encoding='utf-8') as f:
    for i in infos:
        f.write(i+'\n')

我访问的是百度新闻的页面,至于最后到处文件名是随便取的。下载下来网页的源代码后就可进行查找,用findall方法,findall会在字符文本中查找匹配内容,匹配成功则返回列表对象,失败则返回None。

def findall(pattern, string, flags=0):
    """Return a list of all non-overlapping matches in the string.

    If one or more capturing groups are present in the pattern, return
    a list of groups; this will be a list of tuples if the pattern
    has more than one group.

    Empty matches are included in the result."""
    return _compile(pattern, flags).findall(string)

在进行调试时,可在查找行设置断点,并在Evaluate中进行测试,以此可降低服务器的请求压力
在这里插入图片描述
evaluate这个小界面很好用,你可以在里面修改测试,成功了再复制到原来的代码中就行了。
代码成功后就可以生成一个txt文件了,上面的代码里输出了两个文件,第二个直接在源代码里进行查找了
我同样尝试对已经保存的文件进行查找,代码如下

import re

info=open('新闻页面源代码.txt','r',encoding='utf-8')
i=info.read()
title1=re.findall(r'target="_blank">(.+)</a></li>',i)
with open('热门头条.txt','a+',encoding='utf-8') as a:
    for k in title1:
        a.write(k+'\n')
title2=re.findall(r'target="_blank".+>(.+)</a></li>',i)
with open('热门头条.txt','a+',encoding='utf-8') as c:
    for n in title1:
        c.write(n+'\n')

因为之前已创建‘热门头条’这个文件,所以我用a+的方式进行打开,可以追加内容,同样用findall这个方法进行查找。查找的正则表达式也要花时间来学习,因为我觉得它的种类也挺多的,但用多了应该就记住了。为了怕我自己忘了,我还是记录一下吧

r'target="_blank".+>(.+)</a></li>'

在行代码中,单引号中的是要查找的内容的正则表达式,单引号中的小括号里的是要输出打印的内容,其余的则是需要进行匹配的形式。
之后运行输出,就可以得到标题了,
在这里插入图片描述这是我得到的文件内容,会发现除了标题外还有一些其他的符号,是因为源代码里的格式并不都是统一的,有的符合那个正则表达式有的则不符合。细节方面我还得学习琢磨一下,等会了再来改一下代码吧。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值