
爬虫
qq_43109978
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python爬虫基础--1
1,网络爬虫的定义 网络爬虫就是根据网页的地址来寻找网页的,也就是URL。 URL就是同意资源定位符(Uniform Resource Locator),它的一般格式如下(带方括号[]的为可选项): protocol:// hostname[:port] / path / [;parameters][?query]#fragment URL的格式由三部分组成: (1)protocol:第一部分就是...原创 2019-07-13 12:34:53 · 145 阅读 · 0 评论 -
python爬虫基础--2(urlopen)
一、urlopen的url参数 urllib.request.urlopen(url,data = None,[ timeout,] *,cafile = None,capath = None,cadefault = False,context = None ) 其中,url不仅可以是一个字符串,也可以是一个request对象,这就需要我们先定义一个Request对象,然后将这个Request对...原创 2019-07-13 12:38:50 · 342 阅读 · 0 评论 -
python爬虫基础--3(urllib.error异常)
一.urllib.error urllib.error可以接收由urllib.request产生的异常。urllib.error有两个方法,URLError和HTTPError。 1.URLError from urllib import request from urllib import error if __name__ == "__main__": url = "http://...原创 2019-07-13 12:41:15 · 264 阅读 · 0 评论 -
python爬虫基础--4(用User-Agent和代理ip隐藏身份)
一、为何要设置User Agent 有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要隐藏自己的爬虫程序的身份。此时,我们就可以通过设置User Agent的来达到隐藏身份的目的,User Agent的中文名为用户代理,简称UA。 User Agent存放于Headers中,服务器就是通过查看Header...原创 2019-07-13 12:45:49 · 517 阅读 · 0 评论 -
python爬虫基础--5(正则表达式)
1,特殊字符^,$,.,* import re str = "zhaoheng" ^ 匹配字符串的开头,.匹配任意字符 *匹配0次或多次,$匹配字符串的结尾,+至少匹配一次 #表示,匹配以z开头的,中间任意字符,后面以g结尾的 reg_str = "^z.*g$" if re.match(reg_str,str): print("yes") 2,非贪婪匹配之? import re ...原创 2019-07-13 12:54:28 · 291 阅读 · 0 评论 -
scrapy---基础
一,概念 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,可以应用于数据挖掘,信息处理或存储历史数据等一些列的程序中。Scrapy最初就是为了网络爬取而设计的。 <1>, requests和beautifulsoup是库,scrapy是框架 <2>, scrapy框架中可以加入requests和beautifulsoup <3>, scrap...原创 2019-07-13 13:04:16 · 173 阅读 · 0 评论 -
scrapy爬虫示例
一,新建项目及调试 1,先进入虚拟环境(虚拟环境中下载好了scrapy) #创建工程 scrapy startproject ArticleSpider #生成爬虫模板 cd ArticleSpider scrapy genspider wenzhang duwenzhang.com 2,在Pycharm中选择解释器 3,进行调试,新建main文件 <1>启动爬虫 scrapy cr...原创 2019-07-13 22:16:05 · 362 阅读 · 0 评论 -
selenium操作
1,浏览器自动化测试框架selenium pip install selenium selinum是api接口而已,真正调用的还是浏览器,需要浏览器的driver完成 下载谷歌driver,并放到谷歌浏览器的可执行文件下边 使用from selenium import webdriver,在run的时候却出现ImportError: cannot import name webdriver的提示...原创 2019-07-13 22:46:23 · 159 阅读 · 0 评论 -
暂停与重启scrapy爬虫
需要记住爬虫状态,新建job_info scrapy crawl wenzhang -s JOBDIR=job_info/001 爬虫结束的信号是ctrl+c(win+linux都有效)的命令,不能kill掉进程,因为这样无法发送ctrl+c的信号, 按两次ctrl+c意味着强制退出,也无法发送信号 crtl+c后,不会立即停止,会进行一些善后工作,比如一些已经发出去的request,需要等它返...原创 2019-07-23 18:42:45 · 527 阅读 · 0 评论