
Python爬虫
Divine0
这个作者很懒,什么都没留下…
展开
-
scrapy+selenium爬取网页动态加载数据实例讲解
实例:爬取网易新闻五个板块url:https://news.163.com/需求:爬取网易新闻中的国内,国际,军事,航空,无人机这五个板块下所有的新闻数据(标题+内容)首页:板块页:详情页:分析:首页没有动态加载的数据,从中提取五个板块对应的url,每一个板块对应的页面中的新闻标题是动态加载,这里要配合selenium来提取爬取新闻标题和详情页的url,每一条新闻详情页面...原创 2020-05-04 22:15:39 · 2005 阅读 · 0 评论 -
Python基于selenium的12306模拟登陆+自动抢票
说明:上一篇写了Python用selenium实现自动登陆:https://blog.youkuaiyun.com/Divine0/article/details/105829700这一篇是对上一篇的功能拓展,可以实现自动登陆+自动抢票,考虑到自动登陆耗时较久且意义不大,所以增加了手动选择验证码登陆的选项,抢票时可以手动设定的参数包括出发地、目的地、车次和座位类型,当没有余票时将不断刷新页面直到出现余票。...原创 2020-05-03 21:35:10 · 945 阅读 · 0 评论 -
Python基于selenium的12306模拟登陆
实例:基于selenium的12306模拟登陆url:https://kyfw.12306.cn/otn/login/init首页:分析:为了保证我们捕获的验证码和当次登录是匹配的,我们需要将当前selenium打开的登录页面中的验证码图片裁剪下来,识别任务由超级鹰完成,超级鹰的使用方法可以参考:https://blog.youkuaiyun.com/weixin_40576010/article/...原创 2020-04-29 02:35:48 · 497 阅读 · 0 评论 -
Python基于asyncio的多任务异步爬虫框架
基本概念:单线程+多任务异步协程:pip install asyncio特殊的函数如果一个函数的定义被async修饰后,则该函数就变成了一个特殊的函数特殊之处:该特殊的函数调用后,函数内部的实现语句不会被立即执行该特殊函数被调用后会返回一个协程对象协程对象对象。通过特殊函数的调用返回一个协程对象。协程 == 特殊函数 == 一组指定的操作协程 == 一组指...原创 2020-04-28 01:13:02 · 1406 阅读 · 0 评论 -
Python爬虫数据解析bs4+xpath实例讲解
1. bs4解析环境安装:pip install lxml #解析器pip install bs4bs4解析原理:实例化一个BeautifulSoup的对象,且将待解析的页面源码数据加载到该对象中调用BeautifulSoup对象中相关方法或者属性进行标签定位和文本数据的提取BeautifulSoup对象的实例化:BeautifulSoup(fp,‘lxml’):用来将本...原创 2020-04-26 02:15:14 · 3294 阅读 · 0 评论 -
Python爬取网页动态加载数据实例讲解(ajax请求)
笔者之前在慕课学习Python网络爬虫与信息提取时,老师并未讲解如何爬取网页的动态加载数据,之后通过观看其他教学视频学会了如何爬取网页动态数据,下面用一个实例来记录一下爬取动态网页的步骤。实例:爬取药监总局中的企业详情数据url:http://125.35.6.84:81/xk/需求:将首页中每一家企业的详情数据进行爬取。总共爬取前5页企业的数据。首页:详情页:分析...原创 2020-04-22 19:22:28 · 3885 阅读 · 1 评论