- 博客(2)
- 收藏
- 关注
翻译 爬虫开发(2)——序列化
为什么要使用序列化?我们定义了一个字典:aDict = dict(url = 'lu & yi.html', content = 'They will be ...')这里我们把网页 lu & yi.html 作为起始的网页地址,在之后的爬取过程中,将使用新的网页url来替换它。但是当我们关闭工程,重新启动之后,该字典又重新初始化起始网页为lu & yi.htm...
2018-07-30 14:35:42
253
翻译 爬虫开发(1)——文件操作
写在前面:应专业课程要求,曾使用python在链家网爬取过一万四千多条数据(爬了几个小时…在没有反爬虫策略的情况下-_-||)。 突发兴致,准备深入研究研究python爬虫,拟定了几个阶段,首先就从啃书开始吧。所用书籍是《Python爬虫开发与项目实战》,范传辉老师编著,希望能坚持下去。文件打开、操作、关闭 f = open(filename, mode=, buffering=, enc...
2018-07-30 13:15:24
250
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人