基于python的网络爬虫

最新推荐文章于 2023-11-22 11:52:59 发布

大鹏哥0409

最新推荐文章于 2023-11-22 11:52:59 发布

阅读量1k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： python 文章标签： python 网络爬虫

本文链接：https://blog.youkuaiyun.com/weixin_40393909/article/details/80647669

python 专栏收录该内容

1 篇文章

订阅专栏

本篇博客介绍了一个使用Python编写的简单网络爬虫程序，该程序能够从BBC新闻网站抓取特定区域的新闻内容。通过解析HTML并利用正则表达式匹配目标链接，爬虫实现了对新闻页面的有效抓取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于python的网络爬虫，爬取新闻网站内容。

import re
import time
from html.parser import HTMLParser
from urllib import request


class MyHTMLParser(HTMLParser):

    def handle_data(self, data): #html里的内容
        data = str(data).strip()
        if (data.__len__() == 0):
            return
        mgr = re.match(r'[.\s\S]*[}{;)>/]$', data)
        if(mgr.__str__().__len__()>4):
            return
        print( data)


parser = MyHTMLParser()
with request.urlopen('http://www.bbc.com/news/world-us-canada-44309961') as f:
    data = f.read().decode('utf-8')
regex = '/news/world-.{2,6}-\d{8}'
pat = re.compile(regex)
strurl = re.findall(pat,data)
for strur in strurl:
    time.sleep(1.5)
    with request.urlopen('http://www.bbc.com'+strur) as f:
        data = f.read().decode('utf-8')
    parser.feed(data)