beautifulsoup抓取＜ record ＞

解析网页抓取：利用正则表达式获取链接与标题

最新推荐文章于 2025-11-26 16:17:50 发布

原创最新推荐文章于 2025-11-26 16:17:50 发布 · 693 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

python 专栏收录该内容

8 篇文章

订阅专栏

本文介绍了如何使用BeautifulSoup和正则表达式从网页中提取<a>标签的href和title属性，通过实例展示了如何获取并整理链接列表。

写了个爬爬去标题和内容，用bs4获取a标签的href和text时，获取不到，网页源代码如下去

解决办法：利用re

main_page = BeautifulSoup(resp.text,"html.parser")
    #audit_div = main_page.find("div",attrs={"class":"ny-list"})
audit_div = main_page.find("div", attrs={"id": "4009681"})
obj = re.compile(r"<a  href='(?P<href>.*?)' class='bt_link' title='(?P<title>.*?)'>",re.S)
result = obj.finditer(str(audit_div))
    child_href_list = []
    for it in result:
        child_href = domain + it.group('href')
        title = it.group('title')
        child_href_list.append(child_href)
        print(child_href,title)

效果如下