
爬虫
文章平均质量分 77
骑着哈哥去旅行
这个作者很懒,什么都没留下…
展开
-
粗柳簸箕细柳斗,谁嫌爬虫男人丑 之 异步协程半秒扒光一本小说
前阵子,偶然闻同学道,想从某某网站爬取几十万条数据来做数据分析,可是速度实在太慢,为此甚是发愁。。。其实可以提速爬虫的方法常见有多线程,多进程,异步协程等,而小编要说的就是异步协程为爬虫提速!爬虫之所以慢,往往是因为程序等待IO而被阻塞,比如爬虫中常见的阻塞有:网络阻塞,磁盘阻塞等;细点再来讲网络阻塞,假如用requests来进行请求,如果网站的响应速度过慢,程序一直等待在网络响应,最后就导致爬虫效率极其低下!那么何为异步爬虫呢?通俗来讲就是:当程序检测到IO阻塞,就会自动切换到程序的其他任务,这样原创 2021-05-23 15:00:34 · 706 阅读 · 2 评论 -
躲在被窝里偷偷学爬虫(7)---爬虫界的平头哥selenium
selenium库1,爬虫中为何要使用selenium?当你经常爬取网页过程中,就会发现许多我们想要获取的数据并不能通过简单的解析HTML代码来获取,因为这些数据是通过AJAX加载或js渲染等其他手段动态加载才能呈现在页面上的。2,何为selenium库?selenuim是一种自动化测试工具,它支持多种浏览器,如Firefox,Safari,Google Chrome,IE,Edge等。==在爬虫中,我们将其运行在浏览器中,就像真正的用户在操作一样,进而解决以上所提出的难题,==就同平头哥把毒蛇当辣原创 2021-03-28 19:29:01 · 393 阅读 · 0 评论 -
躲在被窝里偷偷学爬虫(6)---处理cookie模拟登录及代理IP
一,处理cookie模拟进行模拟登录前面小编进行爬取的都是没设登录的网站,那么像QQ空间,17k小说网等众多网站,不先进行登录将无法进入个人主页的网站,是不是爬虫就束手无策了呢?答案肯定是否定的,下面就来用代码模拟登录!!!1,何为cookie?cookie时储存在客户端的一组键值对。如下图QQ空间的cookie2,cookie和爬虫之间有何关联?sometimes,对一张网页进行请求时,假如要是在请求过程中不携带cookie值的话,那么我们将无法请求到页面正确的数据。therefore,c原创 2021-03-27 17:14:11 · 1150 阅读 · 0 评论 -
躲在被窝里偷偷学爬虫(5)---xpath练习
一,抓取彼岸图网的图片及对应名称彼岸图网(https://pic.netbian.com/index.html)打开检查,简单先分析一下网页内容目标已经确定,先抓取第一页内容,开始编写代码1,爬取整个页面内容并处理乱码# !/usr/bin/env python# -*- coding:utf-8 -*-# @Author:HePengLi# @Time:2021-03-26import requestsfrom lxml import etreedef page_conte原创 2021-03-26 19:12:45 · 462 阅读 · 5 评论 -
躲在被窝里偷偷学爬虫(4)---xpath
xpath解析xpath解析是最常用的且最便捷高效的一种解析方式。首先就是环境的安装,在dos命令窗口pip install lxml回车片刻即可!使用墙纸网(http://wp.58dashi.com/index/index/category/id/30.html)页面来做练习一,基本使用讲解# !/usr/bin/env python# -*- coding:utf-8 -*-# @Author:HePengLi# @Time:2021-03-25# 导入库from lxml i原创 2021-03-25 21:08:59 · 195 阅读 · 0 评论 -
躲在被窝里偷偷学爬虫(3)---bs4
bs4使用注:bs4是python里面独有的数据解析!首先要安装两个第三方库bs4和lxml,在dos窗口分别输入pip install bs4和pip install lxml回车片刻即完成!一, 基本使用讲解小编在本地写好一个简短的html练习文件<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>bs4</title>原创 2021-03-24 19:07:04 · 273 阅读 · 1 评论 -
躲在被窝里偷偷学爬虫(2)---UA伪装及正则解析
一, U-A伪装接着上一篇:躲在被窝里偷偷学爬虫—概论及初始来处理被某度反爬打脸开始!汽车之家是没有任何反爬虫措施的,但某度有,如果还是按照爬汽车之家的老套路,就会反而被某度所安排!按f12进入开发者工具,仔细观察一下再滑到Headers最下面那么将上图中的User-Agent拿到代码中,看看能不能解决问题# !/usr/bin/env python# -*- coding:utf-8 -*-# @Author:HePengLi# @Time:2021-03-22import req原创 2021-03-23 21:45:27 · 852 阅读 · 3 评论 -
躲在被窝里偷偷学爬虫(1)---概论及初始
谈起爬虫,相信大家应该都并不陌生,但最使人记忆深刻的,近些年火遍大江南北的应该是基于python语言的爬虫。那么接下来就跟随小编的脚步一起在爬虫的世界里遨游????!一, what is 爬虫?对于爬虫的定义,相信看客的你曾经在网上看到过无数的定义,说的也是比较五花八门,对于小编近些日子的学习,小编个人觉得爬虫的定义为:通过自己写的代码爬虫程序(也就是python爬虫代码),高度模仿浏览器上网的过程,然后将互联网上对自己有需求的信息进行抓取,筛选,持久化储存的过程,即为爬虫。二, 爬虫的价值可能你也原创 2021-03-23 00:40:59 · 251 阅读 · 1 评论