
Python爬虫
文章平均质量分 59
本专栏为Python爬虫的一些应用案例,共同学习,一起努力!
Torres-圣君
这个作者很懒,什么都没留下…
展开
-
利用Python爬虫,查询12306车次信息
商丘南汝州检查审查元素网络networkFetch/XHRquery...预览4. 在找到存放的车票信息后,按常理直接对目标链接发送请求即可,但我们通过查看URL携带的参数时,不难发现:- 第一个参数:查询的日期,固定格式(YYYY-MM-DD)- 第二个和第三个参数:不同城市对应的英文代码- 第四个参数:固定值。原创 2022-05-29 20:04:56 · 7162 阅读 · 12 评论 -
Playwright-新一代自动化工具 > 酱紫写爬虫?
playwright介绍playwright是由微软开发的新一代web自动测试工具,相比selenium它的特点:不需要安装webdriver不需要手动设置等待playwright支持异步selenium底层是http(单向通信),而playwright则基于websocket(双向通信)重点:自带录制功能,根据录制过程中的操作,自带生成代码playwright codegen www.xxx.complaywright codegen -o script.pyplaywri原创 2022-05-08 23:16:14 · 1533 阅读 · 0 评论 -
Python实现读写CSV和Excel
CSV文件的读写基本格式:需要导入模块:import csvimport csv# csv表头headers = []# csv数据rows = []# 写入的数据为列表结构with open('test1.csv', 'w') as w: # 创建一个csv的writer对象 w_csv = csv.writer(w) # 写入csv表头--写入一行 w_csv.writerow(headers) # 写入csv数据--写入多行 f原创 2022-05-02 20:23:19 · 2495 阅读 · 0 评论 -
Python绘制词云图
wordcloud:安装模块:pip install wordcloud基本使用:WordCloud(font_path, background_color, width, height, max_words).generate(xxx)font_path:文本的字体collocations:是否包含两个词的搭配,默认为true,所以会有重复的数据background_color:背景色width:幕布的宽度height:幕布的高度max_words:显示的最大词个数generat原创 2022-05-08 18:37:44 · 1219 阅读 · 0 评论 -
获取LOL所有在售皮肤的价格和发布日期
效果展示:分析目标网站:LOL道聚城网址:https://daoju.qq.com/lol/list/17-0-0-0-0-0-0-0-0-0-0-00-0-0-1-1.shtml在进入网站后,右键网站任意位置点击查看页面源代码,但在源代码中无法找到皮肤相关信息返回网站,右键点检查或审查元素,在弹出的控制台中点网络或network,如果没有显示数据的话,刷新一下网页就有了在网络栏下找到GoodsListApp.php?.....开头的那个名称,然后点击右侧的预览,展开数据后发现其皮原创 2022-05-06 19:56:43 · 1316 阅读 · 0 评论 -
壁纸不够用?教你爬空优美图库的动漫壁纸
获取网站的基本信息目标网址:https://www.umei.cc/katongdongman/dongmanbizhi/index.htm在进入网站后,右键网站任意位置点击查看页面源代码在源码中发现居然可以直接找到图片的链接,点进链接核实确实是页面对应的图片,那接下来就省事多了用requests对网站发送请求,代码如下:import requestsurl = 'https://www.umei.cc/katongdongman/dongmanbizhi/index.htm'res原创 2021-12-05 17:39:11 · 3062 阅读 · 1 评论 -
没空看新闻?教你获取实时新浪新闻
效果展示先安装需要使用的第三方库requests库requests是python实现的简单易用的HTTP库,但因为是第三方库,所以使用前需要先安装(如果用的是Anaconda则不用安装),安装方法:pip install requests安装完成后,使用import requests导入该库测试一下,若没有报错则为安装成功bs4库BS4全称是BeatifulSoup,它提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能,但因为是第三方库,所以使用前需要先安原创 2021-03-16 16:28:57 · 690 阅读 · 3 评论 -
爬虫基础-requests模块
requests发送请求:导入模块:import requests基本格式:requests.xxx(url,headers,params...)xxx是http的请求类型 -> get,put,post,delete…参数讲解:url:需要发起请求的链接headers:构建请求URL时的消息头,字典格式params:添加请求URL时的参数,字典格式proxies:添加代理服务器,字典格式data:将放进data的数据转换为form表单数据data.encode('ut原创 2021-12-12 22:44:51 · 515 阅读 · 0 评论 -
爬虫基础-bs4模块
bs4基本使用:它可以从 HTML 或 XML 文档中快速地提取指定的数据导入模块:from bs4 import BeautifulSoup指定html解析器:html.parser基本格式:xxx = BeautifulSoup(xxx, 'html.parser')find()和find_all():xxx.find(标签, 属性=值)找出一条符合属性=值的数据xxx.fina_all(标签, 属性=值)找出全部符合属性=值的数据避免cla原创 2021-12-12 22:46:01 · 157 阅读 · 0 评论 -
爬虫基础-xpath模块
xpath介绍:xpath 是在XML文档中搜索内容的一门语言html是XML的一个子集导入模块:from lxml import etree生成xpath解析对象:xxx = etree.HTML(需要解析的对象)获取层级关系节点:xxx.xpath("")获取节点内的内容:在结尾加上 /text()xpath检索:选取此节点的所有子节点:nodename表示一个层级,从根节点开始定位:/表示多个层级,从任意位置开始定位://通配符,选择所有元素节点与元素名:*选取当前原创 2021-12-12 22:46:57 · 1200 阅读 · 0 评论 -
爬虫进阶-aiohttp异步模块
异步介绍:异步:当一个程序进入I\O时,程序不会一直等待,而是去处理其他工作基本协程&异步的爬虫结构:async def xxx(): passasync def main(): passif __name__ == '__main__': asyncio.run(mian())aiohttp简述:requests.get()是同步的代码,而aiohttp则是强大的异步爬虫asyncio实现了TCP、UDP、SSL等协议,aiohttp则是基于asyn原创 2021-12-12 22:47:36 · 729 阅读 · 0 评论 -
爬虫进阶-selenium自动化
【代码】爬虫进阶-selenium自动化。原创 2021-12-12 22:48:33 · 2842 阅读 · 0 评论