
Python爬虫
文章平均质量分 50
生信天地
不积跬步无以至千里,不积小流无以成江海。关注“生信天地”获取更多优质资源!
展开
-
无法用requests获取网页源码时,改用selenium获取
今天想从某个网站上爬取信息,发现无法通过requests获取网页源码,代码如下:import requestsfrom fake_useragent import UserAgentheaders = { 'User-Agent': UserAgent().random }url = 'https://www.sxpdf.com/jisuan/page/50/'r = requests.request(method = 'get',url=url,headers=headers)print原创 2021-06-03 14:47:48 · 950 阅读 · 0 评论 -
selenium中常用的下拉框定位Select
1.在selenium自动化测试中,我们常常遇到更重下拉框。本文介绍三种常用的下拉框定位方法select_by_index(index) 通过索引定位select_by_value(value) 通过value值定位select_by_visible_text(text) 通过文本内容定位2.html 代码如下,大家可以复制一下内容然后保存为select.html格式<!DOCTYPE html><html lang="zh-CN"><head>.原创 2021-05-19 16:52:23 · 8144 阅读 · 0 评论 -
Python使用selenium模拟点击
道虽迩不行不至,这些东西虽然简单,如果只是看别人写,但是不自己动手做,还真的学不会啊o(╥﹏╥)o。selenium 的定位方法前八种是大家都熟悉的,经常会用到的1.id定位:find_element_by_id(self, id_)2.name定位:find_element_by_name(self, name)3.class定位:find_element_by_class_name(self, name)4.tag定位:find_element_by_tag_name(self, name原创 2021-04-25 11:23:01 · 797 阅读 · 0 评论 -
Python发送邮件
from email.header import Headerfrom email.mime.text import MIMETextfrom email.utils import parseaddr,formataddrimport smtplibdef _format__addr(s):name,addr = parseaddr(s)return formataddr((Header(name,'utf-8').encode( ),addr))#发件人地址from_addr = "xX.原创 2021-04-19 08:33:14 · 192 阅读 · 0 评论 -
selenium的使用
爬虫和反爬虫的斗争爬虫建议尽量减少请求次数 保存获取到的HTML,供查错和重复使用 关注网站的所有类型的页面 H5页面 APP 多伪装 代理IP 随机请求头 利用多线程分布式 在不被发现的情况下我们尽可能的提高速度 ajax基本介绍动态了解HTML技术JS 是网络上最常用的脚本语言,它可以收集用户的跟踪数据,不需要重载页面直接提交表单,在页面嵌入多媒体文件,甚至运行网页 jQuery jQuery是一个快速、简介的JavaScri.原创 2021-04-12 21:47:42 · 376 阅读 · 0 评论 -
BeautifulSoup4
基本概念Beautiful Soup 是一个可以从HTML或XML文件中提取数据的网页信息提取库源码分析github下载源码 安装 pip install lxml pip install bs4 bs4的使用快速开始html_doc = """<html><head><title>The Dormouse's story</title></head><body><p class="tit原创 2021-04-12 21:45:15 · 152 阅读 · 0 评论