
爬虫
寸草心2130
致力于轻微改变世界
展开
-
使用 lxml 中的 xpath 高效提取文本与标签属性值
# 我们爬取网页的目的,无非是先定位到DOM树的节点,然后取其文本或属性值myPage = '''<html> <title>TITLE</title> <body> <h1>我的博客</h1> <div>我的文章</div>...原创 2019-02-27 18:04:32 · 6554 阅读 · 0 评论 -
Appium报错Command failed: C:\Windows\system32\cmd.e...adb.exe -s 16fcb2be shell "ps 'uiautomat
appium目前最新的windows版本是1.4.16,在真机上测试程序时会报错:selenium.common.exceptions.SessionNotCreatedException: Message: A new session could not be created. (Original error: Command failed: C:\Windows\system32\cmd...原创 2019-04-09 20:47:45 · 3549 阅读 · 6 评论 -
解决Appium报错Message: A new session could not be.Original error: Requested a new session but one was in
解决Appium报错Requested a new session but one was in progress报错信息如下:selenium.common.exceptions.SessionNotCreatedException: Message: A new session could not be created. (Original error: Requested a new s...原创 2019-04-09 18:46:56 · 5537 阅读 · 0 评论 -
WebDriverException: Message: A new session could not be created...without first uninstalling报错解决
环境介绍:1、appium版本:1.4.16.12、真机运行实现结果:运行appium第一次运行则安装Appium settings和Unclock的apk,再次之后的运行则无需手动卸载,再次安装。问题描述:第一次:Android手机运行appium,自动安装Appium settings和Unclock的apk,第二次:第一次运行完毕,若不手动删除已经安装的Appium set...原创 2019-04-09 18:00:17 · 1096 阅读 · 0 评论 -
selenium.common.exceptions.SessionNotCreatedException: Message: A new session could not be created.
在用appium启动网易新闻时报错Traceback (most recent call last): File "D:/onedriver/OneDrive/python/python爬虫/appium/test.py", line 11, in <module> driver = webdriver.Remote('http://127.0.0.1:4723/wd/h...原创 2019-04-09 16:10:36 · 5076 阅读 · 0 评论 -
adb查看android手机设备型号、品牌、机型等信息
1.型号adb shell getprop ro.product.model2.品牌机型等详细信息adb devices -l原创 2019-04-09 14:08:06 · 6117 阅读 · 0 评论 -
带你认识Scrapy框架
1.scrapyScrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等。通常我们可以很简单的通过 Scrapy 框架实...原创 2019-04-09 13:03:35 · 284 阅读 · 0 评论 -
Scrapy response获取当前页url和url补全
获取当前页urlurl = response.body_as_unicode()补全urlurl = response.urljoin(url)这样就能在url前拼接上https:原创 2019-04-09 12:46:03 · 12673 阅读 · 0 评论 -
fake-useragent常用的三个参数
# 禁用服务器缓存:ua = UserAgent(use_cache_server=False)# 不缓存数据:ua = UserAgent(cache=False)# 忽略ssl验证:ua = UserAgent(verify_ssl=False)默认都是True原创 2019-04-12 11:01:59 · 1527 阅读 · 0 评论 -
反爬虫之利用chrome的debug模式破解不允许selenium模拟的网站
原因: 我们利用selenium爬取很多网站都很方便,但是有的网站如知乎和淘宝会检测selenium.这些网站如果直接通过selenium打开网站,selenium会携带一些指纹信息,如:window.navigator.webdriver网站js通过检测类似的指纹信息,可以检测到你在使用自动化工具,就不让你登录解决:这时我们可以利用chrome的远程调试结合selenium来遥控chr...原创 2019-04-04 15:12:27 · 10542 阅读 · 6 评论 -
src // 的意思/src相对协议/src为//开头的图片怎么加载
“相对协议”,也就是链接以 // 开头,前面省去了 http: 或 https: 字样,这样做的好处是浏览器能够根据你的网站所采用的协议来自动加载 CDN 上托管的文件!爬虫项目里抓取的图片为//开头的可以查看下图片加载开头是http:还是https,添加上即可访问图片,也可以两个都试试....原创 2019-03-30 16:53:33 · 4089 阅读 · 2 评论 -
获取真实手机(android)软件的包名和活动名
命令:adb shell dumpsys window Windows | findstr /I current如图,命令结果中包名就是当前界面对应的包名,“/”之后的是当前界面对应的activity。原创 2019-03-29 21:10:42 · 3628 阅读 · 0 评论 -
python爬虫之使用fake_usragent随机更换User_Agent
python爬虫爬取网站内容时,如果什么也没带,即不带报头headers,往往会被网站管理维护人员认定为机器爬虫。因为有的网站会根据请求的user-agent判定你是不是机器爬虫。所以,此时往往就需要伪装user-agent,模拟成真实的浏览器去取出内容。一般主要应用Chrome或者Firefox,爬虫应用的时候,可以把他们都放到列表里面。然后import random,使用random.c...原创 2019-03-09 11:53:42 · 1815 阅读 · 0 评论 -
爬虫User-Agent整理复制直接使用
复制直接使用user-agents=['Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0','Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT ...原创 2019-03-08 20:20:26 · 1109 阅读 · 0 评论 -
使用 lxml 中的 xpath 高效提取文本与标签属性值
我们爬取网页的目的,无非是先定位到DOM树的节点,然后取其文本或属性值myPage = '''&lt;html&gt; &lt;title&gt;TITLE&lt;/title&gt; &lt;body&gt; &lt;h1&gt;我的博客&lt;/h1&gt;原创 2019-02-27 19:10:09 · 1250 阅读 · 1 评论 -
Appium定位Android元素与操作
一、常用识别元素的工具uiautomator:Android SDK自带的一个工具,在tools目录下monitor:Android SDK自带的一个工具,在tools目录下Appium Inspector:Appium自带的一个功能,只有mac下可以使用该功能下面是用monitor抓取到的页面元素二、元素定位1.格式:find_element_by_定位方式(value)通过...原创 2019-04-09 21:04:36 · 2265 阅读 · 0 评论