
网络爬虫
文章平均质量分 62
翠花上酸菜
这个人很懒,只想着摸鱼
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Python】给程序的循环加一个运行定时,让它运行一个小时就停止程序
本文介绍了一个Python定时停止程序的方法 ,适用于需要控制爬取时长的场景原创 2025-06-11 14:19:32 · 189 阅读 · 0 评论 -
【RPA】“影刀RPA由于违反 Mozilla 政策,已被阻止” 问题的解决方法
在火狐浏览器安装影刀RPA插件时出的问题原创 2025-05-28 15:36:46 · 329 阅读 · 0 评论 -
【Python】处理“Message: stale element reference: element is not attached to the page document” 的解决方法
解決seleniu爬取遇到的問題原创 2025-05-14 17:23:46 · 425 阅读 · 0 评论 -
怎么查询电脑的网络IP地址是多少?
查询电脑网络IP地址的方法汇总原创 2025-05-14 16:18:57 · 1286 阅读 · 0 评论 -
【Python】让Selenium 像Beautifulsoup一样,用解析HTML 结构的方式提取元素!
能不能让selenium也能像Beautifulsoup一样,可以根据html的结构找到需要的部分,并解析出来?原创 2025-05-07 11:06:02 · 529 阅读 · 0 评论 -
Selenium的driver.get_url 和 手动输入网址, 并点击的操作,有什么不同?
跳转到目标特定的网址的时候,会被强制跳转到其他的网址上,但是如果是自己手动,在网址栏那里输入网址,并点回车,却能完成跳转。原创 2025-05-07 10:28:29 · 640 阅读 · 0 评论 -
Selenium模拟人类行为,操作网页的方法(全)
模拟人类在整个网页操作的行为的整理原创 2025-05-06 18:21:10 · 1728 阅读 · 0 评论 -
selenium 打开网络页面的时候,模拟关闭弹窗的方法(汇总,全!)
在使用 Selenium 自动化测试或爬取网页时,可能会遇到弹窗,影响脚本执行,例如广告、登录提示、浏览器通知。原创 2025-04-30 16:25:16 · 652 阅读 · 0 评论 -
【Python】保持Selenium稳定爬取的方法(防检测策略)
防止网络检测的方法汇总原创 2025-04-25 14:53:22 · 777 阅读 · 1 评论 -
Selenium 怎么加入代理IP,以及怎么检测爬虫运行的时候,是否用了代理IP?
使用selenium爬虫的时候,如果不加入代理IP,很容易会被网站识别,容易封号;使用代理ip的一些整理原创 2025-04-24 15:31:37 · 1413 阅读 · 0 评论 -
【Python】每隔一段时间自动清除网站上cookies的方法
我在写爬虫的时候,经常会因为点击浏览太多的页面,而导致很多的cookies累积。以下是解决的方法原创 2025-04-23 18:07:51 · 428 阅读 · 0 评论 -
【Python】Selenium切换网页的标签页的写法(全!!!)
selenium切换标签页的方法原创 2025-04-22 15:20:39 · 704 阅读 · 0 评论 -
【selenium】遇到no such window: target window already closed的解决方法
处理selenium爬取下的,NoSuchWindowException的方法原创 2025-04-17 18:03:41 · 349 阅读 · 0 评论 -
【Python】使用 selenium模拟敲键盘输入的方法汇总
我在使用selenium弄模拟登陆,需要模拟输入账号和密码,往往都使用selenium的send_keys函数。可是我昨天在写测试的时候,有时候有些网站,居然使用send_keys函数,无法在输入框里输入文字!在Python中,你可以使用多种方式来模拟键盘输入。原创 2025-01-17 17:24:11 · 1308 阅读 · 0 评论 -
【Python】Selenium根据网页页面长度,模拟向下滚动鼠标,直到网页底部的操作
分享几种在Python中根据页面长度模拟滚动鼠标的操作方法。原创 2025-01-17 17:14:32 · 1817 阅读 · 0 评论 -
【Python】selenium结合js模拟鼠标点击、拦截弹窗、鼠标悬停方法汇总(使用 execute_script 执行点击的方法)
我们在写selenium获取网络信息的时候,有时候我们会受到对方浏览器的监控,对方通过分析用户行为模式,如点击、滚动、停留时间等,网站可以识别出异常行为,进而对Selenium爬虫进行限制。这里我们可以加入JavaScript的使用。Selenium可以执行JavaScript,通过使用方法,来执行点击操作。它可以绕过一些 Selenium 直接操作元素时可能遇到的问题,比如或者需要更复杂的交互。原创 2024-12-31 11:09:16 · 1305 阅读 · 0 评论 -
【Python】selenium 获取滑块和背景图在电脑屏幕的相对位置【解决滑块验证码问题】
在使用python模拟爬取的时候,解决滑动验证码是不可缺少的环节。怎么解决滑动验证码的问题呢,我们可以试着使用这个方法。原创 2024-12-30 16:14:02 · 689 阅读 · 0 评论 -
【Python】使用匿名函数Lambda解析html源码的任意元素(Seleinium ,BeautifulSoup皆适用)
一直都发现lambda函数非常好用,它可以用简洁的方式编写小函数,无需写冗长的过程就可以获取结果。干脆利落!它允许我们定义一个匿名函数,在调用一次性的函数时非常有用。最近整理了一些,lambda函数结合或者selenium 的库,来解析HTML,并提取任意标签下的元素的方法。原创 2024-12-27 18:04:17 · 859 阅读 · 0 评论 -
【Python】Selenium模拟滚动鼠标的各种示例(一口气滚动到网页底部、逐步滚动、滚动到某个元素可见,按照次数滚动)
我们在使用Selenium获取网页元素的时候,有时候会遇到网页要加载刷新,要用鼠标下拉滚动鼠标更新页面,才能显示到我们需要的元素。这时候就要模拟向下拖动、下拉按钮或者滚动操作了。原创 2024-12-20 14:50:21 · 3807 阅读 · 0 评论 -
【Python】 使用Selenium获取网页表格的方法(find_element的方法)
有时候 ,我们在使用selenium获取网页信息的时候,如果想要获取表格,用常用的pandas 的read_html,会遇到无法绕开登录等问题,无法进入下一个页面获取表格。所以这里分享使用 Selenium的 find_element的方法获取表格!原创 2024-12-16 17:17:05 · 1576 阅读 · 0 评论 -
【Python】解决运行selenium调用chrome浏览器,监听端口被占用的方法
最近,我在获取网址登陆的过程中,遇到了下面的问题: “Found process 12372 - chrome.exe listening on port 10222”,下面是解决方法原创 2024-12-13 16:49:09 · 922 阅读 · 0 评论 -
【Python】使用Selenium的find_element模块获取网页上的大段文字和表格的方法(建议收藏!)
发现了一个使用Selenium的模块,快速获取文字和表格的方法,很实在,以后爬网的时候,就不用beautifulSoup 和 pandas的read_html 混起来用了!原创 2024-12-13 14:16:42 · 1215 阅读 · 0 评论 -
Python使用Selenium库获取 网页节点元素、名称、内容的方法
除了使用Beautifulsoup来解析,还可以直接用Selenium库打印节点(元素)名称,用来获取元素的文本内容或者标签名。这种方法可以写判断节点结构。原创 2024-12-11 16:56:07 · 1503 阅读 · 0 评论 -
【Python】selenium爬取过程中,解决点击去掉弹窗的方法
在测试网页运行爬取的时候,最害怕的就是遇到弹窗。有时候也不能忽略,因为如果不把它去掉,获取页面的元素就会失败原创 2024-12-11 16:54:44 · 1615 阅读 · 0 评论 -
【Python】selenium 的find_element居然可以通过下一个节点去做点击!
使用find_element得通过一层层地查找,可以快速找到节点信息。原创 2024-12-06 16:54:25 · 724 阅读 · 0 评论 -
【Python】Selenium模拟在输入框里,一个字一个字地输入文字
想要模拟人在一个字一个字地敲键盘,让输入框一个字一个字得打出来原创 2024-11-29 16:10:59 · 964 阅读 · 0 评论 -
【Python】seleniuim 计算滑块元素的位置,以及拖动完成滑块验证码
如果我们要了解某个元素在整个屏幕中的位置,例如滑动验证码的滑块之类的。这就像是在网页上画了个直角坐标系,找到它在网页或者电脑屏幕的横坐标和纵坐标的位置,就像是在地图上找到我们所在的位置一样,定位到那个元素的位置。原创 2024-11-26 17:51:16 · 714 阅读 · 0 评论 -
【Python】selenium获取定位元素大小、电脑屏幕的像素、屏幕尺寸信息、以及网页尺寸的方法
进行自动化测试的时候,有时候会使用获取网页的大小做一些计算,计算定位元素,电脑屏幕像素、尺寸等信息原创 2024-11-20 11:31:40 · 1514 阅读 · 0 评论 -
【Python】遇到TypeError: The view function for XXX did not retumn a valid response的解决方法
Flask运行接口遇到的问题原创 2024-11-12 15:34:44 · 619 阅读 · 0 评论 -
【Python】解决pyautogui移动而导致的FailSafeException的问题
使用pyautogui在模拟鼠标移动和键盘交互的时候,一旦鼠标移动,可能就会发生这个异常FailSafeException原创 2024-11-06 17:12:42 · 2006 阅读 · 0 评论 -
【Python】selenium获取鼠标在网页上的位置,并定位到网页位置模拟点击的方法(pyautogui的使用)
如果直接通过css_selector或者xpath的元素来点击验证按钮,无法通过验证的话,可以模拟鼠标点击的方法,这样更像模拟人类的行为。原创 2024-10-12 18:00:34 · 1699 阅读 · 0 评论 -
【Python】BeautifulSoup解析HTML时,遇到空白的文本节点怎么提取?
解决html中提取空白行下的文本的内容原创 2024-09-12 15:24:28 · 295 阅读 · 0 评论 -
【Python】谷歌浏览器总是自动更新,使用selenium跟chromedriver版本不匹配怎么办?
解决谷歌浏览器自动更新后,影响selenium的chromedriver驱动的解决方法,分为下载历史浏览器和自动下载当前浏览器对应的驱动原创 2024-09-12 15:23:20 · 1230 阅读 · 0 评论 -
【Python】selenium的find_element的By的方法是用不了了!!!?
最近,我发现selenium 的webdriver包最近改的有点看不懂了,原本的find_element(By.ID,“”),已经用不了了!不清楚为啥这个包会更新成这个样子原创 2024-08-23 15:30:29 · 509 阅读 · 2 评论 -
【Python】获取网页源码进行解码过程中,遇到“gbk”编码的问题
获取网页源码进行解码过程中,遇到“gbk”编码的问题,以及对gzip的了解原创 2024-08-15 10:50:08 · 816 阅读 · 1 评论