
python爬虫
lvzhanbin
山重水复疑无路,柳暗花明又一村
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫去重策略
1)将访问过的URL存储在数据库中,每次要访问一个URL时,就从数据库中查询该URL是否已经被访问过,这种方法占用内存太大,而且每次访问一个URL都需要到数据库中查询,效率十分低下。2)将访问过的URL存储在set中,可以在O(1)的时间内查询到一个URL是否存在于set中,但是缺点是,占用内存大,比如有1亿条URL,占用的内存是: 1000000000*2byte*50字符/10转载 2017-10-02 16:37:15 · 4894 阅读 · 0 评论 -
关于Unicode编码和UTF-8编码
说到编码,得先从ASCII编码讲起。ASCII编码是由美国人发明,美国的字符不超过255个,所以ASCII编码使用了8bit 即一个字节来存储字符。由于汉字的数量远超255个,所以中国自己发明了一个GB2312编码来表示汉字,一般的汉字使用2个字节,对于一些生僻的汉字则使用更多的字节来表示,当然,GB2313编码是可以兼容ASCII码的。 然后,日本,韩国等等国家也自己发明了一套原创 2017-10-02 17:02:55 · 9789 阅读 · 5 评论 -
正则表达式
首先,先来谈一谈用python开发爬虫时为什么需要使用到正则表达式。我们知道,可以使用xpath或者css选择器来提取网页中标签的元素值,例如有一个标签为<p>中国移动13411001111</p> 此时使用xpath或者css选择器能够将“中国移动13411001111”这整个标签中的元素值提取出来,但是,如果只想要提取号码,不要文字,就需要使用正则表达式来处理了。 接下来开始谈一下正则表达式的原创 2017-10-03 18:00:45 · 329 阅读 · 0 评论 -
Cookie 和 Session
什么是Cookie? Cookie是浏览器支持的一种本地存储的键值对,类似与python中的字典。为什么需要Cookie? 首先,http协议是一种无状态协议。无状态请求是指,当用户发送请求给服务器时,服务器不管是谁的请求,直接返回结果。这样的方式,在一些情况下是没有问题的,然而,如果像淘宝,在用户未登录状态下,服务器是会记住用户浏览过哪一些商品的,这时就需要使用Cookie来判别是哪一个用户了原创 2017-10-06 11:11:34 · 278 阅读 · 0 评论