- 博客(16)
- 资源 (6)
- 收藏
- 关注
原创 Python爬虫中html数据抽取方法对比分析
Python中常用的html数据抽取方法有正则、XPath和BeautifulSoup这三种。其中,最常用的XPath库是lxml。今天再介绍一个库SimplifiedDoc,一起比较一下他们的优劣。1、安装名称安装方法包大小说明正则不需安装(内置)lxmlpip install lxml4.5MB依赖c语言库BeautifulSouppip ...
2020-02-12 16:18:59
745
1
原创 一个简单好用的Python爬虫框架(*)- 使用requests下载页面
先写个例子import requestsfrom simplified_scrapy.spider import Spider, SimplifiedDocfrom simplified_scrapy.simplified_main import SimplifiedMainclass RequestsSpider(Spider): name = 'requests-spider' ...
2019-12-25 18:15:43
260
原创 与BeautifulSoup一样强的SimplifiedDoc,专为html抽取而生
说到html解析,很多人都会推荐使用BeautifulSoup。BeautifulSoup确实是一款功能强大,使用比较简单的html解析器。但是这里要讲的SimplifiedDoc一样是使用简单功能强大且专为html抽取而生的。这里说的抽取和解析的意思有点不同,解析是把字符串html 解析成对象,抽取是将html中的有用数据取出来。也就是说SimplifiedDoc重点不在解析,而是抽取出用户想要...
2019-12-05 10:26:08
1105
原创 一个简单好用的Python爬虫框架(*)-分布式爬虫
先贴上代码,后续加说明。主要是使用redis存储链接数据,使用mongodb存储抽取出的详情数据,也可以换用其它的方式存储。可以将代码部署在不同的服务器上,数据库配置指向相同的地址就可以了。from simplified_scrapy.spider import Spider from simplified_scrapy.simplified_main import SimplifiedMai...
2019-12-03 11:00:08
268
原创 一个简单好用的Python爬虫框架(2)- 渲染下载
之前介绍了simplified-scrapy框架提供的普通下载类,这里再介绍一下,使用simplified-scrapy框架封装pyppeteer库进行渲染下载的方法。要想使用这个,需要安装pyppeteer,Python版本要求3.5+。先来一个例子def callback(html,url,data): print (url,html)req = RequestRender({#传入C...
2019-11-26 10:06:50
268
原创 一个简单好用的Python爬虫框架(3)- 数据抽取-1
simplified-scrapy库提供了简单的下载类,在文件simplified_scrapy.simplified_doc中。虽然是一个轻量级的库,但是转为抽取页面数据而生,用起来简单方便。在从html中抽取出数据方面,也许比XPath、BeautifulSoup等还好用。对于爬虫,抽取页面中的链接是常有的事,我们先以上节下载图片的页面为例,抽取页面中的图片链接。页面中图片部分的html标签...
2019-11-22 16:15:21
237
原创 一个简单好用的Python爬虫框架(2)- 页面下载
simplified-scrapy库提供了简单的下载类,在文件simplified_scrapy.request中,先来一个例子:from simplified_scrapy.request import reqhtml = req.get('http://www.scrapyd.cn/')print (html)上面是一个简单的下载页面数据的例子,有时候单纯传入一个url,不能返回正确...
2019-11-22 14:47:26
217
原创 一个简单好用的Python爬虫框架(1)- 环境说明
准备基于Python的simplified-scrapy库介绍一下网络爬虫。这个库是一个非常简单,非常轻量,非常容易上手又非常强大的一个Python爬虫框架。这个框架真是不用不知道,一用真是好。想要运行Python,首先要安装Python环境,这是天经地义的,当然也是废话。Python安装包下载地址:https://www.python.org/downloads/如果你已经对Python有所...
2019-11-14 16:53:00
130
原创 Python抽取猫眼电影信息
Python抽取猫眼电影信息,如下面的代码所示,是不是太简单了。from simplified_scrapy.request import reqfrom simplified_scrapy.simplified_doc import SimplifiedDocdef test(html): lst=[] if(html): doc = SimplifiedD...
2019-11-12 09:01:33
374
2
原创 一个最简单好用的Python爬虫框架
标题中有个“最”字,应该很多人都是不服气的,不过继续往下看,不知能不能改变您的看法。下面以采集http://www.scrapyd.cn/为例子from simplified_scrapy.core.spider import Spider class ScrapydSpider(Spider): name = 'scrapyd-spider'#定义爬虫名称 start_urls =...
2019-11-04 18:16:40
452
原创 Python抽取豆瓣电影信息
首先安装依赖pip install simplified-scrapy抽取页面地址为:https://movie.douban.com/top250抽取方法如下:#引入SimplifiedDoc类from simplified_scrapy.simplified_doc import SimplifiedDocdef test(html): #生成SimplifiedDoc对象 ...
2019-11-04 15:23:45
233
原创 Python使用simplified-scrapy下载小说的例子
首先安装依赖的包:pip install simplified-scrapyPython代码如下:import io,jsonfrom simplified_scrapy.core.spider import Spider from simplified_scrapy.core.utils import getTimeNow,printInfo,appendFileclass Tia...
2019-10-22 09:58:46
1049
原创 Python使用simplified-scrapy下载图片的例子
使用simplified-scrapy下载图片的例子首先安装依赖的包:pip install simplified-scrapy下载图片的代码比较简单,下面直接上代码#!/usr/bin/python#coding=utf-8import os,io,sysfrom simplified_scrapy.core.spider import Spider from simplifi...
2019-10-18 16:57:27
259
原创 千能正则
对于抽取数据,这几乎是一个万能的正则,当然“万能”可能把话说的有点满了,所以就叫“千能正则”。就是下面这个式子:• (?<=XXX)[\s\S]*?(?=XXX)其中红色部分是不变的,变动的部分为XXX,如果我们要抽取下面这条数据中的链接<a href="http://www.github.com" target="_blank">GITHUB</a>正...
2019-08-29 15:59:20
183
2
转载 simplified-scrapy
simplified-scrapy-demosimplified scrapy demoRequirementsPython 2.7, Python 3+ pip install simplified-scrapy Works on Linux, Windows, Mac OSX, BSD运行进入项目根目录,执行下面命令python start.pyDemo文件夹de...
2019-08-23 09:46:12
449
1
simplified-scrapy-demos.zip
2019-11-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人