
爬虫
文章平均质量分 68
kelvinLLL
这个作者很懒,什么都没留下…
展开
-
Python爬虫实战——豆瓣电影top250
很多天没有发博客了,这几天在弄一个文本相似度的项目,问题一个接一个,忙活了好几天。今天分享一下之前的写的爬虫,用来爬豆瓣电影的top250。首先,F12看看电影的信息在哪里每个电影的信息都在这个class="item"的块中,好的,这下好办了,找到这个块,就可以一个个把里面的东西抓出来了。这里面最麻烦的还是处理信息缺失的问题,有的电影没有一句话评论,如果用了list来索引,原创 2017-03-01 20:00:33 · 864 阅读 · 0 评论 -
Python爬虫实战——模拟登录教务系统
之前都是爬静态页面,不用登录的,这次试试有登录的。网页的登录主要是发送POST请求到服务器,得到响应后跳转到登录界面。每次登录,浏览器都会记录下cookie信息,在python中,可以用urllib,urllib2来获取cookie信息,然后利用cookie信息来模拟登录。当然还是得输入登录名和密码的。先在浏览器上登录教务系统,登录后查看POST请求里面请求信息,就可以看到发送了什么信息过原创 2017-02-26 12:20:54 · 2424 阅读 · 0 评论 -
爬虫奇遇记——等待访问处理办法
有时候一些网站访问时间超级慢,爬虫一直在等待访问,没有访问就不执行下一步代码,这时我们可以通过超时设置来控制,当爬虫超过一定时间还没有访问到内容时,退出访问,执行下一步代码。参数是timeout。#coding:utf-8import urllib2try: url = "http://www.baidu.com" f = urllib2.urlopen(url, time原创 2017-03-08 19:24:08 · 718 阅读 · 0 评论 -
爬虫奇遇记——如何按照标签的文本内容来抓取
俗话说的好:只要能爬下来,其他都不是事。昨天写爬虫遇到这样一个情况:父标签的class内容都一样,里面子标签只有标签带文本,还是来张图比较明了:我又要以站长之家的为例说明了可以发现,这两块,父标签和子标签内容一模一样,findall第一个指向的是第一块的,直接用索引我试过,一开始是可以的,但是对于其他网页,有的并没有注册商这一块,这时候索引就对不上了,还有可能报IndexErr原创 2017-02-25 07:46:04 · 2711 阅读 · 0 评论 -
爬虫奇遇记——标签去哪儿
这一系列分享我在写爬虫过程中遇到的奇葩事这次遇到的是在爬html文件时,发现爬下来的标签内容变了,举个例子有可能变成:再看实际的,比如站长之家的whois查询爬下来,却是这样的后面的clearfix没有了!这可能是网络商的策略,以后遇到clearfix的标签要小心了原创 2017-02-24 10:15:57 · 674 阅读 · 0 评论 -
爬虫奇遇记——爬不到想要的内容
这一系列将分享在写网络爬虫时遇到的奇葩事我们在写爬虫时,总是先F12看一下网页的源代码,看到内容后再想策略去抓取想要的内容,这种思路对于文本内容是静态的话是行得通的,但是如果遇到动态加载的内容,就很麻烦了,你会发现你爬下的html文件里根本找不到你想要的内容,这也是网络商应对爬虫的一种策略。下面举例说明,用站长之家的SEO查询来讲比如想抓这个中文网站排名的数据,看一下源码:原创 2017-02-24 09:39:30 · 2458 阅读 · 0 评论 -
Python爬虫实战——豆瓣新书速递
主要以豆瓣图书首页的新书速递为例,练习爬虫过程中的请求网页的方式,还有分别用三种方式来解析爬到的网页文档1.请求网页可以用urllib2,open(),也可以用request(),这里对这两个库的区别不做细讲,主要讲讲爬虫过程中的普通请求方式和伪装浏览器请求。普通请求:# 普通方式读取douban_book_html = urllib2.urlopen("https://book原创 2017-02-23 13:08:41 · 2148 阅读 · 3 评论 -
Python爬虫实战——豆瓣电影Top250
第一篇博客,用我昨天学的爬虫来见证一下,纯粹记录自己的学习。废话不多说,show your code!!#!/usr/bin/python# -*- encoding:utf-8 -*-"""@author : kelvin@file : douban_movie@time : 2017/2/22 23:04@description : """import sysim原创 2017-02-23 10:07:31 · 1716 阅读 · 1 评论 -
Python爬虫实战——蚂蜂窝国内目的地全抓取
上一篇文章爬的是豆瓣电影,是属于静态页面的,而且很有规律的,做起来比较容易。这次的蚂蜂窝国内目的主要有三点比较困难的地方1.不是静态页面,要通过post请求才能获得需要的信息,通过刷新网页可以看到发送了什么请求,或者也可以用网络监听器2.返回的响应是json形式的文件,不能直接用lxml去解析,要通过json模块来进行转化3.缺失信息的情况比较多,需要多种判断源码#!/usr/原创 2017-03-01 20:29:21 · 5059 阅读 · 1 评论 -
Python爬虫实战——代理IP全部抓取
写爬虫程序时,为了使爬虫不被屏蔽,有时需要使用到代理IP,这时就要去免费的代理IP网站找IP,为了省事,我写了个爬虫程序,把代理IP网站的所有IP全部爬了下来,存在本地的文件里,以后需要直接从文件中读取。这个网页的内容比较容易抓取,我主要需要三个内容,http类型,IP地址和端口号以下是源码:#!/usr/bin/python# -*- encoding:utf-8 -*-原创 2017-02-26 13:03:19 · 1330 阅读 · 0 评论