
爬虫
李呵呵1997
这辈子想搞点大的事情
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第一次爬虫实战--爬取糗事百科段子
第一波:先尝试构造最基本的页面抓取方式# -*- coding:utf-8 -*- #让中文能运行import urllibimport urllib2page = 1 #设置页数参数url = 'http://ww原创 2017-03-04 08:28:12 · 635 阅读 · 0 评论 -
第二次爬虫实战--知乎
对于知乎的爬取已经进行了一段时间了,这也是真正意义上的爬虫实战,在这段时间学到了很多。在这片文章中想进行较详细的总结。思路:对于社交网络的爬取,我们一般利用用户的关注人和粉丝人去进行遍历,而遍历到下一层的用户时再去遍历这个用户的关注和粉丝列表,这样利用递归我们就能够爬取到大部分用户的信息。在我的代码中,我的主要思路是先把所有用户的ID放入一个列表,然后遍历这个列表再分别去收集每个用户的信息。那原创 2017-04-27 16:03:36 · 1524 阅读 · 0 评论 -
第三次爬虫实战--模拟登录Freelancer
这个爬虫我在两个月前就开始做了,后来因为一些技术难题没有解决以及各种期末考试,所以一直搁置了下来。现在终于解决了技术上最难的模拟登录问题,这篇文章中我便会较详细的演示我解决这个问题的方法以及一些心路历程......以下我就完整的展示一遍我解决这个问题的方法:1.当我们需要去模拟登录一个网站的时候,首先要做的就是找到那个网站的登录页面(有些网站的注册登录页面不是像下面这张图一样一个单独的页面原创 2017-07-08 09:49:46 · 1200 阅读 · 0 评论 -
python爬虫之正则表达式笔记 part1
学习爬虫一段时间了,觉得学正则表达式是个好的契机,作为一个大二学生平时课太多,希望通过这种方式提高复习效率...import re #re模块为正则表达式子专用>>> re.search(r'love','i...原创 2016-11-19 10:52:54 · 2381 阅读 · 0 评论 -
python爬虫之正则表达式笔记 part2
>>> re.search(r"love(you|me)","i loveyou") # | 为“或”的意思<_sre.SRE_Match object; span=(2, 9), match='loveyou'>>>> re.search(r"^love",&原创 2016-11-19 21:33:02 · 375 阅读 · 0 评论