过程:
种子地址:从哪里开始爬,可以是一个,也可以是多个
获取网页的html代码,还有一些元信息。
用正则:想要什么我就取什么。
1 链接:用于下次继续爬
2 图片
3 下载文件
取完了之后,保存,入库、写文件。
用数据做分析或者其他展示的用途。
练习:
爬取搜狐所有的链接,找到所有包含足球的网页内容,并进行下载保存。
文件序号从1.html。。。。。n.html
算法:
request访问sohu首页,获取源码
使用正则获取网页链接:建议大家获取所有的链接后打印一下内容,再看怎么处理链接。
处理网页链接:拼接http:// 过滤掉jpg\css\js\png等无效链接
放入爬取列表
爬之,判断是否包含关键字足球,如果有,保存到文件中。
# coding: utf-8
import requests
import re
r = requests.get("http://www.sohu.com")
#print(r.text)
valid_link = []
all_links = re.findall(r'href=\"(.*?)\" ',r.text)
for link in all_links:
if link[-3:] not in ["ico","png","css","jpg","js","gif"]:
if link.strip(

该博客介绍了如何使用爬虫技术从搜狐网站出发,抓取所有包含‘足球’关键词的网页内容。首先设定种子地址,然后获取网页HTML,通过正则表达式筛选链接、图片和下载文件。提取有效链接,过滤无效资源,将包含足球内容的网页保存为html文件,文件名按顺序编号。难点在于正确使用正则表达式匹配网页链接。
最低0.47元/天 解锁文章
1915

被折叠的 条评论
为什么被折叠?



