
python学习笔记
shaotianyou.ddd
day day up
展开
-
网络爬虫的组成和爬虫类型
一、网络爬虫的组成网络爬虫由控制节点、爬虫结点、资源库组成。网络爬虫中可以有多个控制节点,每个控制节点下有多个爬虫结点,控制节点之间可以互相通信,同时,控制结点和其下的个爬虫结点之间也可以进行相互通信。控制节点:也叫做爬虫的中央控制器,主要负责根据URL地址分配线程,并调用爬虫结点进行具体的爬行。爬虫节点:按照设定的算法,对网页进行具体的爬行,主要包括下载网页以及对网页的文本进行处理,爬行后...原创 2019-01-17 20:33:19 · 5086 阅读 · 0 评论 -
正则表达式与正则表达式常见的函数(python)
正则表达式一个正则表达式可以有原子,元字符,模式修政符,贪婪模式,和懒惰模式构成。1、原子(1)普通字符作为原子:如数字,大小写字母,下划线等。 import re pattern = "abc" string="shuhgabchuh" result=re.search(pattern,string)//调用re模块的search方法来匹配是否有string里...原创 2019-01-21 15:45:13 · 796 阅读 · 0 评论