朋友想下载这62个网页中的字帖图片:http://www.yac8.com/news/11003.html
一、要点
1. Chrome 「审查元素」中看到的源代码与真实的源码不同。
2. 图片网址附近源码:
<img alt="字帖欣赏《顾仲安钢笔行书字帖-中外名人书信选》" title="字帖欣赏《顾仲安钢笔行书字帖-中外名人书信选》" border="0" src="http://www.yac8.com/upFiles/yac802/20140914064219763.jpg" /> 获取源码的正则表达式:
<img\s+alt="字帖欣赏《顾仲安钢笔行书字帖-中外名人书信选》"[^>]*?src="(.+?\.jpg)"[^>]*?>建议使用Expresso,带有语义分析功能
3. 网页编码是GB2312:
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
4. 第一页的网址是/11003.html,后面第X页的网址是11003_x.html

本文介绍如何使用Python 3爬虫批量下载一批字帖图片,重点包括处理网页编码GB2312,解析源码找到图片链接,并提出在下载过程中遇到错误时的处理策略。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



