
爬虫
zhangliang_852469
记录平时学习的内容
展开
-
初识scrapy框架的介绍和命令行使用
一、介绍Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy 是基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞(又原创 2020-06-30 17:27:56 · 249 阅读 · 0 评论 -
python爬虫中常用的异步模块:asyncio aiohttp twisted tornado grequests
序:我们在做爬虫的开发时,往往面临的着需要爬取的页面很多,如果我们还是使用单纯的使用requests模块或者其他不能并发执行的方式爬取页面(即同步调用),会非常的耗时,所以就必要的使用异步的提交方式来尽可能的多得提交爬取任务(异步调用)。同步调用:即提交一个任务后就在原地等待任务结束,等到拿到任务的结果后再继续下一行代码,效率低下import requestsdef parse_page(res): print('解析 %s' %(len(res)))def get_page(url):转载 2020-06-28 17:35:09 · 906 阅读 · 0 评论 -
爬虫-selenium模块介绍
一、介绍;selenium模块最初用于测试的一个自动化工具,而爬虫使用它主要是为了满足requests模块无法执行JavaScript的问题。selenium的本质是通过驱动浏览器,模拟浏览器的操作,比如跳转,点击,下拉,输入,拿到网页渲染之后的结果,并且可以支持多种浏览器。from selenium import webdriverbrowser=webdriver.Chrome() # 谷歌browser=webdriver.Firefox() # 火狐browser=webdriver.P转载 2020-06-24 09:56:17 · 591 阅读 · 0 评论 -
爬虫-requests模块介绍
一 : requests模块的请求方法各种请求方式:常用的就是requests.get()和requests.post()r = requests.get(‘https://api.github.com/events’)r = requests.post(‘http://httpbin.org/post’, data = {‘key’:‘value’})r = requests.put(‘http://httpbin.org/put’, data = {‘key’:‘value’})r =转载 2020-06-22 17:20:34 · 234 阅读 · 0 评论