
爬虫
旧时光下的浮影
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
nltm认证登录
NTLM 非交互式认证过程, 第一步中提供了用户的 NTLM 认证信息,该步是用户交互式认证(Logon)过程的一部分。(交互式登录到某客户机)用户使用:域名、用户名、密码,登陆到某台客户端。客户端计算并存储用户密码的加密散列值(Hash),然后将真实的密码丢掉(即不保存用户真实的密码) 客户端将用户名以纯文本的方式发送到要访问的服务器 服务器产生一个 16 字节的随机数并将该随机数发送给客户端,该随机数通常称为:挑战(Challenge) 客户端使用用户密码的散列值加密服务器发送过来的 Cha.原创 2020-07-08 21:39:58 · 1349 阅读 · 0 评论 -
xpath解析文本有空格问题处理
使用xpath的参数normalize-space 通过去掉前导和尾随空白并使用单个空格替换一系列空白字符,使空白标准化。html.xpath('normalize-space(//*[@id="MailUser"]//xxxx/text())')html.xpath('//a[normalize-space(text())="高校精选专题"]')...原创 2020-07-08 21:21:30 · 4196 阅读 · 0 评论 -
xpath无法解析部分javascript内嵌HTML页面,获取结果为空问题
在工作中,碰到在页面中html为xpath可解析的格式,但是在实际脚本获取中却获取不到的情况,通过查看网页源代码发现该部分内容为<script>标签对嵌入页面显示,改为如下两种获取方式:xpath+正则 将获取到的javascript内容用正则解析pattern = re.compile(r'target="_blank">(.*?)</a>') creatorId = re.match(pattern,hanlder).group(1)xpa...原创 2020-06-28 21:19:41 · 2050 阅读 · 0 评论 -
urllib模块
urllib.request.ProxyHandler网络代理的用法 设置代理地址 创建ProxyHandler代理对象 构建Opener 安装Opener# -*- coding:utf-8 -*-import requestsimport urlliburl = "http://www.baidu.com/"# 代理启用开关proxySwitch =...原创 2020-03-15 22:15:48 · 142 阅读 · 1 评论 -
Selenium+Chrome
1.由于新版Selenium不支持PhantomJS,所需chromedriver插件需要下载和本地Chrome浏览器同一个版本,并放到本地Chrome浏览器安装目录和Python安装根目录:chromedriver:http://npm.taobao.org/mirrors/chromedriver/from selenium import webdriverfrom selenium...原创 2020-03-21 16:12:12 · 353 阅读 · 0 评论 -
爬虫解析库:XPath
from lxml import etreefrom fake_useragent import UserAgentfrom urllib import parseimport requestsclass TBImage(): def __init__(self): self.ua = UserAgent().ie self.headers =...原创 2020-03-19 19:45:55 · 159 阅读 · 0 评论