
python爬虫
u012587295
这个作者很懒,什么都没留下…
展开
-
爬虫开发(1)——文件操作
写在前面:应专业课程要求,曾使用python在链家网爬取过一万四千多条数据(爬了几个小时…在没有反爬虫策略的情况下-_-||)。 突发兴致,准备深入研究研究python爬虫,拟定了几个阶段,首先就从啃书开始吧。所用书籍是《Python爬虫开发与项目实战》,范传辉老师编著,希望能坚持下去。 文件打开、操作、关闭 f = open(filename, mode=, buffering=, enc...翻译 2018-07-30 13:15:24 · 251 阅读 · 0 评论 -
爬虫开发(2)——序列化
为什么要使用序列化? 我们定义了一个字典: aDict = dict(url = 'lu & yi.html', content = 'They will be ...') 这里我们把网页 lu & yi.html 作为起始的网页地址,在之后的爬取过程中,将使用新的网页url来替换它。但是当我们关闭工程,重新启动之后,该字典又重新初始化起始网页为lu & yi.htm...翻译 2018-07-30 14:35:42 · 253 阅读 · 0 评论