
爬虫
六翅兽
人生苦短,我用Python
展开
-
给大家整理了一篇Python:爬虫技巧的资料总结
一些常用的爬虫技巧归纳与以下几点:1、基本抓取网页get方法import urllib2url “http://www.baidu.com”respons = urllib2.urlopen(url)print response.read()post方法import urllibimport urllib2url = “http://abcde.com”...转载 2018-08-03 21:06:14 · 1585 阅读 · 0 评论 -
给大家分享一篇python爬取网站数据
编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了。问题要从文字的编码讲起。原本的英文编码只有0~255,刚好是8位1个字节。为了表示各种不同的语言,自然要进行扩充。中文的话有GB系列。可能还听说过Unicode和UTF-8,那么,它们之间是什么关系呢?Unicode是一种编码方案,又称万国码,可见其包含之广。但是具体存储到计算机上,并不用这种编码,...转载 2018-08-04 16:24:42 · 732 阅读 · 0 评论 -
给大家分享一篇 用Python抓取漫画并制作mobi格式电子书
想看某一部漫画,但是用手机看感觉屏幕太小,用电脑看吧有太不方面。正好有一部Kindle,决定写一个爬虫把漫画爬取下来,然后制作成 mobi 格式的电子书放到kindle里面看。一、编写爬虫程序 用Chrome浏览器打开目标网站,按下F12 启动“开发者人员工具”,分析目标网站的代码,看漫画存放的真实地址。现在网站的防护措施都做的很好,基本不会出现“右键”——“图片另存为” 然后保存漫...转载 2018-08-09 13:38:35 · 2737 阅读 · 0 评论 -
给大家分享一篇 爬虫:把廖雪峰的教程转换成 PDF 电子书
写爬虫似乎没有比用 Python 更合适了,Python 社区提供的爬虫工具多得让你眼花缭乱,各种拿来就可以直接用的 library 分分钟就可以写出一个爬虫出来,今天就琢磨着写一个爬虫,将廖雪峰的 Python 教程 爬下来做成 PDF 电子书方便大家离线阅读。开始写爬虫前,我们先来分析一下该网站1的页面结构,网页的左侧是教程的目录大纲,每个 URL 对应到右边的一篇文章,右侧上方是文章的标...转载 2018-08-08 16:58:17 · 1534 阅读 · 0 评论