爬虫---爬取搜狐所有的链接中包含足球的网页内容

最新推荐文章于 2024-03-10 20:38:58 发布

原创

最新推荐文章于 2024-03-10 20:38:58 发布 · 置顶 · 371 阅读

0 ·

CC 4.0 BY-SA版权

该博客介绍了如何使用爬虫技术从搜狐网站出发，抓取所有包含‘足球’关键词的网页内容。首先设定种子地址，然后获取网页HTML，通过正则表达式筛选链接、图片和下载文件。提取有效链接，过滤无效资源，将包含足球内容的网页保存为html文件，文件名按顺序编号。难点在于正确使用正则表达式匹配网页链接。

过程：
种子地址：从哪里开始爬，可以是一个，也可以是多个
获取网页的html代码，还有一些元信息。
用正则：想要什么我就取什么。
1 链接：用于下次继续爬
2 图片
3 下载文件
取完了之后，保存，入库、写文件。
用数据做分析或者其他展示的用途。
练习：
爬取搜狐所有的链接，找到所有包含足球的网页内容，并进行下载保存。
文件序号从1.html。。。。。n.html
算法：
request访问sohu首页，获取源码
使用正则获取网页链接：建议大家获取所有的链接后打印一下内容，再看怎么处理链接。
处理网页链接：拼接http:// 过滤掉jpg\css\js\png等无效链接
放入爬取列表
爬之，判断是否包含关键字足球，如果有，保存到文件中。

# coding: utf-8
import requests
import re
r = requests.get("http://www.sohu.com")
#print(r.text)
valid_link = []
all_links = re.findall(r'href=\"(.*?)\" ',r.text)
for link in all_links:
    if link[-3:] not in ["ico","png","css","jpg","js","gif"]:
        if link.strip(