u012587295-优快云博客

翻译爬虫开发(2)——序列化

为什么要使用序列化？我们定义了一个字典： aDict = dict(url = 'lu &amp; yi.html', content = 'They will be ...') 这里我们把网页 lu &amp; yi.html 作为起始的网页地址，在之后的爬取过程中，将使用新的网页url来替换它。但是当我们关闭工程，重新启动之后，该字典又重新初始化起始网页为lu &amp; yi.htm...

2018-07-30 14:35:42 279

翻译爬虫开发(1)——文件操作

写在前面：应专业课程要求，曾使用python在链家网爬取过一万四千多条数据(爬了几个小时…在没有反爬虫策略的情况下-_-||)。突发兴致，准备深入研究研究python爬虫，拟定了几个阶段，首先就从啃书开始吧。所用书籍是《Python爬虫开发与项目实战》，范传辉老师编著，希望能坚持下去。文件打开、操作、关闭 f = open(filename, mode=, buffering=, enc...

2018-07-30 13:15:24 277

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

翻译 爬虫开发(2)——序列化

翻译 爬虫开发(1)——文件操作

空空如也

空空如也

翻译爬虫开发(2)——序列化

翻译爬虫开发(1)——文件操作