
爬虫
爬虫讲解
zjb5599
这个作者很懒,什么都没留下…
展开
-
爬虫-Scrapy框架
1.Scrapy介绍Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取。Scrapy使用了Twisted异步网络框架,可以加快我们的下载速度http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html异步和非阻塞的区别:异步:调用在发出之后,这个调用就直接返回,不管有无结果。非阻塞:关注的是程序在等待调用结果时的状态,指在不能立刻得到结果之前,该调用不会阻塞当前线程。2原创 2021-07-30 12:33:58 · 108 阅读 · 0 评论 -
爬虫-多线程进程
1.进程介绍进程:正在执⾏的程序程序:没有执⾏的代码,是⼀个静态的import multiprocessingimport threadingimport timedef demo1(): while True: print('---1--') time.sleep(1)def demo2(): while True: print('---2--') time.sleep(1)def main(): # 多线程 # t1原创 2020-06-20 12:07:42 · 171 阅读 · 0 评论 -
爬虫-爬取表情包
1.思路2.分析原创 2020-06-14 11:30:03 · 1743 阅读 · 0 评论 -
爬虫-- 多线程
1.线程间的资源竞争⼀个线程写⼊,⼀个线程读取,没问题,如果两个线程都写⼊呢?import threadingimport timeimport disnum=0def demo1(nums): global num for i in range(nums): num+=1 print('demo1---%d'%num)def demo2(nums): global num for i in range(nums):原创 2020-06-13 18:30:21 · 224 阅读 · 0 评论 -
爬虫-bs4
1.bs4( BeautifulSoup4)简介1.1 基本概念Beautiful Soup 是⼀个可以从HTML或XML⽂件中提取数据的⽹⻚信息提取库。1.2 安装pip install lxmlpip install bs42.bs4的使⽤from bs4 import BeautifulSouphtml_doc = """<html><head><title>The Dormouse's story</title></head&g原创 2020-05-24 21:43:40 · 212 阅读 · 0 评论 -
爬虫-图形验证码识别
1. Tesseract安装以及简介阻碍我们爬⾍的。有时候正是在登录或者请求⼀些数据时候的图形验证码。因此这⾥我们讲解⼀种能将图⽚翻译成⽂字的技术。将图⽚翻译成⽂字⼀般被称为光学⽂字识别(Optical Character Recognition),简写为OCR。实现 OCR的库不是很多,特别是开源的。因为这块存在⼀定的技术壁垒(需要⼤量 的数据、算法、机器学习、深度学习知识等),并且如果做好了具有很⾼的商业价值。因此开源的⽐较少。这⾥介绍⼀个⽐较优秀的图像识别开源库: Tesseract。 Tesser原创 2020-06-07 15:43:11 · 341 阅读 · 0 评论 -
爬虫-多任务线程
1. 多任务基本介绍有很多的场景中的事情是同时进⾏的,⽐如开⻋的时候 ⼿和脚共同来驾驶汽 ⻋,再⽐如唱歌跳舞也是同时进⾏的。1.1 程序中模拟多任务import time def sing(): for i in range(3): print("正在唱歌...%d"%i) time.sleep(1) def dance(): for i in range(3): print("正在跳舞...%d"%i) time.sleep(1) if __name__ ==原创 2020-06-07 20:54:11 · 160 阅读 · 0 评论 -
爬虫- selenium使⽤
1. 定位元素**find_element_by_id:根据id来查找某个元素1 submitTag = driver.find_element_by_id('su') 2 submitTag1 = driver.find_element(By.ID,'su') find_element_by_class_name:根据类名查找元素1 submitTag = driver.find_element_by_class_name('su') 2 submitTag1 = driver.find_e原创 2020-06-04 06:56:23 · 229 阅读 · 0 评论 -
爬虫-js2py和selenium
1.js2py简介在平时爬虫过程中,我们会遇到网站对js文件加密,无法爬取,现在就让我们来了解一下js2py模块,它可以对js文件进行解密。js2py模块使⽤Python中执⾏JS代码,通常两个库:js2py,pyexecjs;js2py是纯python实现的库,⽤于在python中运⾏js代码,本质上是将js代码翻 译成python代码js2py安装 pip install js2pyimport js2pyjs2py.eval_js('console.log("hello wrold")'原创 2020-06-03 21:52:37 · 252 阅读 · 0 评论 -
爬虫-find_all()和find()方法
1. find_all()和find()find_all()⽅法以列表形式返回所有的搜索到的标签数据。find()⽅法返回搜索到的第⼀条数据find_all(self, name=None, attrs={}, recursive=True, text=None,limit=None, **kwargs)name : tag 名称attrs :标签的属性recursive : 是否递归text : 文本内容limit : 限制返回的条数**kwargs :不定长参数 以关键字来传参fr原创 2020-05-25 21:52:04 · 3114 阅读 · 0 评论 -
爬虫-xpath和lxml模块
1. xpath介绍1.1 基本概念XPath(XML Path Language)是⼀种XML的查询语⾔,他能在XML树状 结构中寻找节点。XPath ⽤于在 XML ⽂档中通过元素和属性进⾏导航。xml是⼀种标记语法的⽂本格式,xpath可以⽅便的定位xml中的元素和其中 的属性值。lxml是python中的⼀个包,这个包中包含了将html⽂本转成xml 对象,和对对象执⾏xpath的功能 。1.2 结点的关系xml_content = ''' <bookstore> &原创 2020-05-18 22:05:37 · 224 阅读 · 0 评论 -
爬虫-正则表达式
1.正则表达式的简介1.概念正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。2.正则表达式的应用场景**.**表单验证(例如 : 手机号、邮箱、身份证… )**.**爬虫2. 正则表达式对Python的支持2.1普通字符字母、数字、汉字、下划线、以及没有特殊定义的符号,都是"普通字符"。正则表达式中的普通字符,在匹配的时候,只匹配与自身相同的一个字符。例如:表达式c,在匹原创 2020-05-08 21:02:58 · 225 阅读 · 0 评论 -
爬虫-请求模块
1. urllib.request模块1.版本:python2 :urllib2、urllibpython3 :把urllib和urllib2合并,urllib.request2. 常⽤的⽅法urllib.request.urlopen(“⽹址”) 作⽤ :向⽹站发起⼀个请求并获取响应。字节流 = response.read()字符串 = response.read().decode...原创 2020-05-04 11:04:47 · 590 阅读 · 0 评论 -
爬虫- 爬虫简介
1.通讯协议1.1 端口我们想要进行数据通讯分几步?找到对方ip数据要发送到对方指定的应用程序上。为了标识这些应用程序,所以给这些网络应用程序都用数字进行了标识。为了方便称呼这个数字,叫做端口。这里的端口 我们一般都叫做 ‘逻辑端口’。定义通讯规则。这个通讯规则我们一般称之为协议。1.2 通讯协议国际组织定义了通用的通信协议 TCP/IP协议。所谓协议就是指计算机通信网络中两台...原创 2020-04-29 19:04:48 · 567 阅读 · 0 评论