
爬虫
文章平均质量分 76
Mai_Dreizehn
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫基础
1.什么是爬虫互联网就是一张大网,爬虫遇到资源,就会抓取,取什么,有你来控制它2 浏览网页的过程在用户浏览网页的过程,就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器HTML,CSS等文件,浏览器解析出来,用户便可以看到网页内容了。用户看到的网页实质是由HTML代码构成的,爬虫爬来的便是这些内容,通过分析和过来这些...翻译 2018-12-04 10:02:46 · 175 阅读 · 0 评论 -
Scrapy框架(二):Downloader Middleware的用法
Downloader Middleware即下载中间件,它是处于Scrapy的Request和Response之间的处理模块。Scheduler从队列中拿出一个Request发送给Downloader执行下载,这个过程会经过Downloader Middleware的处理。另外,当Downloader将Request下载完成得到Response返回给Spider时会再次经过Download...翻译 2019-01-18 14:36:58 · 377 阅读 · 0 评论 -
Scrapy框架(三):Spider Middleware的用法
Spider Middleware是介入到Scrapy的Spider处理机制的钩子框架。当Downloader生成Response之后,Response会被发送到Spider,在发送给Spider之前,Response会首先经过Spider Middleware处理,当Spider处理生成Item和Request之后,Item和Request还会经过Spider Middleware的处理...翻译 2019-01-18 14:37:22 · 1341 阅读 · 0 评论 -
Scrapy框架(一):基本结构
一、安装相应的库二、创建项目scrapy startproject tutorial我们会得到一个叫tutorial的文件夹,文件夹结构如下:三、创建Spidercd tutorialscrapy genspider quotes quotes.toscrape.com执行genspider命令。第一个参数是Spider的名称,第二个参数是网站域名。执行结...翻译 2019-01-18 14:36:26 · 1466 阅读 · 0 评论 -
pyquery
一、初始化字符串初始化#像Beautiful Soup 一样,初始化pyquery 的时候,也需要传入HTML 文本来初始化一个PyQue1y对象。#字符串初始化html='''<div><ul><li class="item-0">first item</li><li class="item-1">&翻译 2018-12-31 12:56:49 · 189 阅读 · 0 评论 -
解析库的使用XPath&Beau Soup
XPath导入 from lxml import etree 修正HTML文本 etree.tostring(html) 修正编码 tostring返回bytes类型,利用decode转成str 所有节点 html.xpath('//*') 子节点 选择li 节点的所有直接a子节点, html.xpath('//li/a') 父节点...翻译 2018-12-31 11:37:30 · 281 阅读 · 0 评论 -
基本库的使用——urllib&requests
一、request模块HTTP请求模块,可以用来模拟发送请求。urlopen() 实现最基本请求的发起 Request类 可以设置data,headers,method等 Opener Opener可以使用open()方法,返回类型和urlopen差不多, 利用Handler来构建 二、error模块异常处理模块URLError...翻译 2018-12-30 16:04:06 · 199 阅读 · 0 评论 -
正则表达式及在Java程序中的使用
《语法》1.普通字符2.简单的转义字符\n 代表换行符 \t 制表符 \\ 代表\本身 \^ , \$ , \. , \( , \) 匹配这些字符本身 3.标准字符集合:- 能够与“多种字符”匹配的表达式- 注意区分大小写,大写是相反的意思\d 任意一个数字,0~9中的任意一个 \w 任意一个字母或数字或下划线,也就是...翻译 2018-12-03 16:45:54 · 299 阅读 · 0 评论 -
Java爬虫练习(二)
1.定义一个对象package Zhihu;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.Arrays;import java.util.regex.Matcher;import java.util.regex.Pattern;public class Zhihu {...翻译 2018-12-04 14:16:54 · 206 阅读 · 0 评论 -
java爬虫练习(一)
1.定义一个对象存储抓取到的结果 package Zhihu;import java.util.ArrayList;import java.util.Arrays;public class Zhihu { public String question; //问题 public String zhihuUrl; //网页链接 public ArrayLis...翻译 2018-12-04 10:07:42 · 254 阅读 · 0 评论 -
Scrapy框架(四):Item Pipeline的用法
当Spider解析完Response之后,Item就会传递到Item Pipeline,被定义的Item Pipeline组件会顺次调用,完成一连串的处理过程。1.核心方法process_item(item,spider)这个是必须要实现的方法,被定义的Item Pipeline会默认调用这个方法对Item进行处理。open_spider(spider)这个方法是在Spider...翻译 2019-01-18 14:38:02 · 357 阅读 · 0 评论