Python 3 爬虫之批量下载字帖图片

原创

于 2015-10-19 11:58:10 发布 · 1.5k 阅读

CC 4.0 BY-SA版权

本文介绍如何使用Python 3爬虫批量下载一批字帖图片，重点包括处理网页编码GB2312，解析源码找到图片链接，并提出在下载过程中遇到错误时的处理策略。

朋友想下载这62个网页中的字帖图片：http://www.yac8.com/news/11003.html

1. Chrome 「审查元素」中看到的源代码与真实的源码不同。

2. 图片网址附近源码：

<img alt="字帖欣赏《顾仲安钢笔行书字帖-中外名人书信选》" title="字帖欣赏《顾仲安钢笔行书字帖-中外名人书信选》"   border="0" src="http://www.yac8.com/upFiles/yac802/20140914064219763.jpg" />

获取源码的正则表达式：

<img\s+alt="字帖欣赏《顾仲安钢笔行书字帖-中外名人书信选》"[^>]*?src="(.+?\.jpg)"[^>]*?>

建议使用Expresso，带有语义分析功能

3. 网页编码是GB2312：

<meta http-equiv="Content-Type" content="text/html; charset=gb2312">

4. 第一页的网址是/11003.html，后面第X页的网址是11003_x.html