
python
文章平均质量分 67
zekizz
这个作者很懒,什么都没留下…
展开
-
python 爬虫试手 requests+BeautifulSoup
工作需要,要爬取新浪微博数据,之前一直用java, 但是遇到页面加密很伤,转到python。先拿糗事百科试试python里爬虫的写法。工具 requests BeautifulSoup工具参考 Python爬虫利器一之Requests库的用法 Python爬虫利器二之Beautiful Soup的用法还有一个据说比较好用的PyQuery, 试用了下,难用的要死!class 里有空格就懵逼了。原创 2016-04-13 23:58:45 · 1150 阅读 · 0 评论 -
python +selenium+phantomjs 登录爬取新浪微博动态js页面
登录新浪微博最近新浪微博好烦,都取消不了验证码这个难搞得东西,而且跳来跳去,一改版以前的代码就都不能用了。目前整理的资料有三种方法: 1. 设Cookie:简单粗暴,免去了模拟登录的好多麻烦,只是要定期更新 2. 模拟登录:验证码是个大麻烦,有把验证码图片截下来,本地识别控制台输入验证 3. 扫码登录 :用app的扫码登录其实除了设cookie ,在有验证码下,后两种方法差不多,都要人工干预原创 2016-04-14 20:17:15 · 18892 阅读 · 3 评论