
网络爬虫
文章平均质量分 72
feng_zhiyu
这个作者很懒,什么都没留下…
展开
-
【网络爬虫实战】抓取腾讯视频评论
首先 腾讯视频(青云志)中的评论是有多页的,涉及到翻页。猜测评论不是都在网页源码中的,查看网页源码确实不在。 第二, 这里通过fiddler获得firefox中新的js网页的url,然后打开此网页。这里还不能发现什么规律。 第三, 再次点击更多,通过fiddler获取js网页的url,此时比较这两个url,貌似发现了规律, 只有commentid是不同的(url后面的部分可有可无)h...原创 2018-06-08 11:45:58 · 4016 阅读 · 0 评论 -
【网络爬虫】MongoDB存储
原文见:https://germey.gitbooks.io/python3webspider/content/5.2.1-MySQL%E5%AD%98%E5%82%A8.htmlMongoDB 是由 C++ 语言编写的非关系型数据库,是一个基于分布式文件存储的开源数据库系统,其内容存储形式类似 Json 对象,它的字段值可以包含其他文档,数组及文档数组,非常灵活,在这一节我们来看一下 Pyt...转载 2018-08-26 21:53:50 · 511 阅读 · 0 评论 -
【网络爬虫】Redis存储
原文见:https://germey.gitbooks.io/python3webspider/content/5.3.2-Redis%E5%AD%98%E5%82%A8.htmlRedis 是一个基于内存的高效的键值型非关系型数据库,存取效率极高,而且支持多种存储数据结构,使用也非常简单,在本节我们介绍一下 Python 的 Redis 操作,主要介绍 RedisPy 这个库的用法。+1...转载 2018-08-26 21:55:21 · 902 阅读 · 0 评论 -
【网络爬虫】验证码识别(图形验证码识别和极验验证码识别)【问题待解决】
图形验证码的识别目标以知网的验证码为例,讲解利用 OCR 技术识别图形验证码的方法。准备工作识别图形验证码需要库 tesserocr。详见:网络爬虫开发实战,崔庆才著https://blog.youkuaiyun.com/only_Tokimeki/article/details/81429526Linux下的安装:• Ubuntu、 Debian 和 Deepin在 Ubun...原创 2018-08-28 12:02:15 · 3501 阅读 · 0 评论 -
【网络爬虫】点触验证码的识别
crack.pyimport timefrom io import BytesIOfrom PIL import Imagefrom selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.common.by import Byfrom seleniu...原创 2018-08-28 12:02:21 · 3567 阅读 · 0 评论 -
【网络爬虫实战】使用Selenium模拟浏览器抓取淘宝商品美食信息
目标网站分析 打开淘宝网站,关键字搜索美食,根据分析ajax请求的方法查看请求url信息,发现比较多而且杂乱而且preview中不包含商品信息,直接请求或分析ajax很繁琐,因此不采用分析ajax抓取。这里改用selenium模拟浏览器,(selenium可以驱动浏览器实现点击、输入、下拉等功能),这样我们只关心操作,不用关心后台发生了怎样的请求。 流程框架 ...原创 2018-08-20 18:13:07 · 1232 阅读 · 0 评论 -
【网络爬虫实战】PySpider框架基本使用及抓取TripAdvisor
启动 pyspider 时 Could not create web server listening on port 25555 报错输入netstat -atunlp 命令,来显示路由表、实际的网络连接以及每一个网络接口设备的状态信息找到phantomjs 进程,原来phantomjs 在后台已经启动终端键入 kill -s 9 进程号pyspider all 运行...原创 2018-08-20 19:47:25 · 1045 阅读 · 0 评论 -
【Scrapy】Scrapy框架安装及基本使用
Linux下安装Scrapy相关依赖包sudo apt-get install build-essential python3-dev libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-devScrapy基本用法目标站点分析http://quotes.toscrape.com/page/1/ 这是scrapy...原创 2018-08-21 00:59:39 · 450 阅读 · 0 评论 -
【Scrapy】Scrapy命令行
命令行工具(Command line tools)Scrapy是通过 scrapy 命令行工具进行控制的。 这里我们称之为 “Scrapy tool” 以用来和子命令进行区分。 对于子命令,我们称为 “command” 或者 “Scrapy commands”。Scrapy tool 针对不同的目的提供了多个命令,每个命令支持不同的参数和选项。默认的Scrapy项目结构Scrapy...原创 2018-08-21 22:49:41 · 577 阅读 · 0 评论 -
【网络爬虫】CSV文件存储
CSV,全称叫做 Comma-Separated Values,中文可以叫做逗号分隔值或字符分隔值,其文件以纯文本形式存储表格数据。该文件是一个字符序列,可以由任意数目的记录组成,记录间以某种换行符分隔,每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符,不过所有记录都有完全相同的字段序列,相当于一个结构化表的纯文本形式,它相比 Excel 文件更加简介,XLS 文本是电...转载 2018-08-26 21:46:36 · 658 阅读 · 0 评论 -
【网络爬虫】MySQL存储
原文见:https://germey.gitbooks.io/python3webspider/content/5.2.1-MySQL%E5%AD%98%E5%82%A8.html在 Python2 中,连接 MySQL 的库大多是使用 MySQLDB,但是此库官方并不支持 Python3,所以在这里推荐使用的库是 PyMySQL。+本节来讲解一下 PyMySQL 操作 MySQL 数据库...转载 2018-08-26 21:51:24 · 1442 阅读 · 1 评论 -
Python入门爬虫精华版
Python学习网络爬虫主要分3个大的版块:抓取,分析,存储另外,比较常用的爬虫框架Scrapy,这里最后也详细介绍一下。首先列举一下本人总结的相关文章,这些覆盖了入门网络爬虫需要的基本概念和技巧:宁哥的小站-网络爬虫当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入http://www.lining0806.com/,你就会看到宁哥的小站首页。简单来说这段过程发生...原创 2018-06-05 18:01:08 · 1826 阅读 · 0 评论 -
基于Scrapy框架的网络爬虫搭建
有很多开源的网络爬虫,如果我们掌握某一种或多种开源的爬虫工具,再我们获取数据的道路上会如虎添翼,事半功倍。这里我介绍一下我对于Scrapy网络爬虫的学习和搭建。Scrapy使用了Twisted异步网络库来处理网络通讯。整体架构大致如下: Scrapy要包括了以下组件:引擎,用来处理整个系统的数据流处理,触发事务。调度器,用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候...原创 2018-06-05 19:05:26 · 1342 阅读 · 0 评论 -
【待解决】爬取指定关键词的文章(Python3)
# -*- coding: utf-8 -*-# http://weixin.sogou.com/import reimport urllib.requestimport time # sleep()方法 实现延时import urllib.error# 为使用代理服务器爬一个网址def use_proxy(proxy_addr,url): # 建立异常处理机制 ...原创 2018-06-08 13:09:19 · 2763 阅读 · 0 评论 -
【多线程 待解决】爬取糗事百科
代码:# -*- coding: utf-8 -*-'''import urllib.requestimport reimport sslimport urllib.errorheaders = ("User-Agent","Mozilla/5.0(Windows NT 6.1;WOW64) AppleWebKit/537.36(KHTML, like Gecko) Chrome...原创 2018-06-08 16:04:20 · 296 阅读 · 0 评论 -
【网络爬虫】Requests库详解
原文见:[Requests库详解](https://www.jianshu.com/p/ada99b7880a6) 由于最近工作中,与同事对接模拟手机浏览器进行广告模拟跳转。又一次接触用到爬虫的知识,以前用过urllib + bs4 + selenium定向爬取网易一元夺宝的商品信息保存在数据库中,当时,还是太年轻,对爬虫不是很了解,对爬虫的robots协议也不知道。现在...转载 2018-08-22 12:08:15 · 873 阅读 · 1 评论 -
【网络爬虫实战】使用代理处理反爬虫爬取微信文章
流程框架抓取索引页内容:利用requests请求目标站点,得到索引页网页HTML代码,返回结果 代理设置:如果遇到302状态码,则证明IP被封,切换代理重试 分析详情页内容:请求详情页,分析得到标题、正文等内容 将数据保存到数据库: 将结构化数据保存到MongoDB步骤1、分析网页结构,构造网页urlhttp://weixin.sogou.com/weixin?query=%E...原创 2018-08-22 13:25:31 · 1997 阅读 · 1 评论 -
【网络爬虫实战】猫眼电影Top100
抓取首页:http://maoyan.com/board/4?offset=0代码:# -*- coding:utf-8 -*-import requestsfrom requests.exceptions import RequestExceptionimport re # 正则需要的包import json # json.dumps需要的包from multiproc...原创 2018-08-19 17:13:32 · 756 阅读 · 0 评论 -
【网络爬虫实战】分析ajax请求并抓取头条街拍美图
目标网站分析1、目标网站分析进入头条网站,关键字搜索:街拍,出现的页面称为 索引页,如下: 上图中的Request URL为请求地址,取出其中的部分信息https://www.toutiao.com/search_content/?与下图中的请求头参数拼接,用于构造url.通过不断向下拉动滚动条,发现请求的参数中offset一直在变化(每次增加20),所以每次...原创 2018-08-19 20:48:03 · 707 阅读 · 0 评论 -
【Scrapy】Spiders用法
SpidersSpider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 对spider来说,爬取的循环类似下文:1.以初始的URL初始化Request,并设置回调函数。 当该request下载完毕并返回时,将生成re...原创 2018-08-22 00:13:59 · 716 阅读 · 0 评论