
python
zxc123e
这个作者很懒,什么都没留下…
展开
-
Python实现简单爬虫
简单爬虫构架 时序图 Url管理器管理待抓取url集合和已抓取Url集合 通过两个列表(已抓取url列表,未抓取url的列表)防止重复抓取、防止循环抓取 网页下载器 将互联网上Url对应的网页下载到本地的工具 通过的Python urllib2模块来实现 一个网页下载器的示例#coding=utf-8import urllib2import cookieliburl = "ht原创 2016-04-29 17:27:10 · 4551 阅读 · 0 评论 -
python学习笔记
这几天快速学习了下python,感觉python的一些东西还是和javascript相似,两者都是动态语言,只不过一个是后端的,一个是前端的,二者都有闭包的概念,都支持高阶函数,但总体感觉python是我所学过的最高级的语言,封装了不少高级方法,也有@xxx类似java注解的语法,花哨的地方不少,毕竟python的最初宗旨是简洁、优雅,用更少的代码完...原创 2015-03-10 10:58:32 · 899 阅读 · 0 评论 -
Scrapy爬取拉勾网职位信息
很多网站都用了一种叫做Ajax(异步加载)的技术,通常我们会发现这种网页,打开了,先给你看上面一部分东西,然后剩下的东西再慢慢加载,也就是局部加载。所以你可以看到很多网页,浏览器中的网址没变,但是数据照样是可以更新的。这对我们正确爬取数据造成了一定影响,我们必须要分析出正确的要抓取的地址才能成功爬取信息。今天要爬取就的就是这种网站,目标网址是:https://www.lagou.com/zhaopi原创 2017-06-09 16:32:58 · 3149 阅读 · 0 评论