爬虫
文章平均质量分 66
番茄酱料
耐心沉淀,努力向前
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
利用Selenium添加cookie实现自动登录(fofa)
Selenium可以模拟浏览器进行自动化操作,但一些网站需要进行登录才能进行一些操作,比起输入账号密码,cookie是更加方便的。而且fofa首先登录邮箱账号时获得的cookie并不是fofa的cookie,因此我们直接选择利用fofa的cookie进行自动登录。但是selenium需要先打开一个网站才会加载进去cookies,因此我们需要将cookies写在代码中,加载进去。原创 2021-05-06 16:18:12 · 16855 阅读 · 15 评论 -
fofa爬取ip
from bs4 import BeautifulSoupimport requestsfrom time import sleepheaders = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36', 'cookie': 'Hm_lvt_9490413c5eebdadf7原创 2021-05-06 13:59:13 · 1626 阅读 · 0 评论 -
Selenium WebDriver定位元素
一.元素定位:id与name属性的定位打开百度,搜索Selenium自学,然后点击搜索按钮,在搜索页面结果按F12,检查按钮点击搜索框发现其属性id,属性值为”kw”,属性name,属性值为”wd”接下来在用检查去寻找百度一下这个按钮发现其属性id,属性值为”su”因此,我们写一个python代码模拟浏览器在百度自动输入Selenium自学,并且自动点击百度一下按钮。(这其中涉及到对该元素的定位)代码如下:from selenium import webdriverfrom time i原创 2021-05-05 14:18:43 · 459 阅读 · 3 评论 -
Python爬虫之动态网页抓取(万科更新时间)
爬取的页面分为静态页面和动态页面,静态的页面爬取很常见,就如豆瓣top250的爬取,展示的内容都在HTML源代码中。而动态页面,很多内容不会出现在HTML源代码中,例如使用JavaScript时,很可能出现这种情况。豆瓣Top250页面标题https://movie.douban.com/top250?F12—>检查(选择触不可及),可以看到源码定位到触不可及标题这里。在右键打开源码。原创 2021-04-28 22:00:16 · 14742 阅读 · 12 评论
分享