
爬虫
data-life
这个作者很懒,什么都没留下…
展开
-
selenium之find_element_by_xpath定位元素
selenium之find_element_by_xpath定位元素 一 方法selenium为定位元素提供了较多方法,大致分为单元素定位和多元素定位.# 查找单个元素:find_element_by_idfind_element_by_namefind_element_by_xpathfind_element_by_link_textfind_element_by_partial_link_textfind_element_by_tag_namefind_element_转载 2020-12-30 15:04:22 · 3026 阅读 · 2 评论 -
find_element_by_xpath()的6种方法
Xpath (XML Path Language),是W3C定义的用来在XML文档中选择节点的语言一:从根目录/开始有点像Linux的文件查看,/代表根目录,一级一级的查找,直接子节点,相当于css_selector中的>号/html/body/div/p二. 根据元素属性选择:查找具体的元素,必须在前面输入标准开头//,表示从当前节点寻找所有的后代元素//div/* div下面的所有的元素//div//p 先在整个文档里查找div,再在div里查找...转载 2020-12-30 15:03:28 · 5408 阅读 · 0 评论 -
dataframe.to_csv()中文乱码
今天又遇到了dataframe.to_csv()然后文件里的中文乱码了。1、首先吧dataframe.to_csv(“file_name” ,encoding = ‘utf-8’)结果乱码依旧。2、上网查了下,改成了dataframe.to_csv(“file_name” ,encoding = ‘utf_8_sig’)结果乱码依旧3、然后改成了dataframe.to_csv(“file_name” ,encoding = gbk’)终于不再乱码了,如果大家遇到这个问题,可以纷纷试试以上几种编转载 2020-12-30 08:12:23 · 3298 阅读 · 0 评论 -
driver.get(url) 页面加载时间太长
在执行自动化测试用例过程中,发现因为网络慢或其他原因导致driver.get(url) 时,页面一直在加载,页面没有加载完成就不会去继续执行下面的动作,但是实际上需要操作的元素已经加载出来了。解决方法第一步:使用 set_script_timeout() 设置等待最大时间。第二步:到了最大等待时间后页面如果仍然没有加载完成,执行js代码, driver.execute_script("window.stop()") 停止页面加载,执行下面的自动化测试步骤。代码如下:driver = sel转载 2020-12-20 07:46:36 · 3763 阅读 · 1 评论 -
几种Python执行时间的计算方法
转自:https://blog.youkuaiyun.com/wangshuang1631/article/details/54286551感谢:wangshuang1631首先说一下我遇到的坑,生产上遇到的问题,我调度Python脚本执行并监控这个进程,python脚本运行时间远远大于python脚本中自己统计的程序执行时间。监控python脚本执行的时间是36个小时,而python脚本中统计自己执行的时间是4个小时左右。问题暴漏之后首先想到的是linux出了问题,查找各种日志未发现有何异常。然后.转载 2020-10-09 07:31:38 · 4545 阅读 · 1 评论 -
selenium.common.exceptions.TimeoutException: Message: timeout: Timed out receiving message from rend
最近跑自动化测试时遇到的问题,先放到这,后续再深入研究"C:\Program Files\python\python.exe" F:/python/Login—.pyTraceback (most recent call last): File "F:/python/Login—.py", line 28, in <module> driver.get(url_1) File "C:\Program Files\python\lib\site-packages\seleni...原创 2020-10-09 07:22:58 · 6223 阅读 · 10 评论 -
抓取全站URL,获取CSS,JS, img等文件连接,保存文件到本地
空闲的时候随便找了一个网站练习一下爬虫,总结一下自己写爬虫遇到的知识点实现的功能抓取全站URL获取CSS,JS, img等文件连接获取文件名字保存文件到本地用到的模块urllibbs4reos第一部分:抓取全站URL先贴上代码# 获取当前页面子网站子网站def get_urls(url, baseurl, urls): with request.urlopen(url) as f: data = f.read().decode(转载 2020-09-01 14:02:54 · 2053 阅读 · 0 评论 -
利用selenium保存静态网页
用到的工具有chromedriver,pywin32和selenium。chromedriver安装配置过程自行百度,需要注意的是chromedriver和chrome的版本号需要一一对应,否则会出现不必要的报错。1、以新浪的一条新闻网址为例news_url = "http://news.youth.cn/sz/201812/t20181218_11817816.htm"driver.get(news_url)2、需要明确的是,我们现在要保存的是一个完整的网页,不是单独的html文档.转载 2020-09-01 14:00:00 · 2137 阅读 · 1 评论 -
XPath 元素查找方法
SelectNodes("item")从当前节点的儿子节点中选择名称为 item 的节点。SelectNodes("/item")从根节点的儿子节点中选择名称为 item 的节点。SelectNodes("//item")从任意位置的节点上选择名称为 item 的节点。要重点突出这个任意位置,它不受当前节点的影响,也就是说假如当前节点是在第 100 层(有点夸张),也可以选择第一层的名称为 item 的节点。SelectNodes(".")选择当前节点。SelectNodes转载 2020-09-01 13:58:04 · 1604 阅读 · 0 评论 -
Selenium-webdriver Chrome实战
什么是seleniumselenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Seleni转载 2020-09-01 13:49:22 · 3444 阅读 · 0 评论