
爬虫
tantao666
这个作者很懒,什么都没留下…
展开
-
xpath 解析后和原网页结构不一致
一下为网页内容, 具体url为http://travel.qunar.com/travelbook/list/23-shanxi-296903/hot_heat/2.htm解析出错的地方是<a href="/youji/6630500">中原礼佛 <span class="colOrange">山西</span>寻神——重走古建</a><p class="icon_r ganhuo"></p></h2>p节点在原创 2020-05-29 15:44:57 · 16552 阅读 · 0 评论 -
xpath 少见常用 兄弟节点 父子节点
<div> <a id="1" href="www.baidu.com">我是第1个a标签</a> <p>我是p标签</p> <a id="2" href="www.baidu.com">我是第2个a标签</a> <a id="3" href="www.baidu.com">我是第3个a标签</a> <a i...转载 2020-05-13 10:48:10 · 649 阅读 · 0 评论 -
超简单app爬虫
爬取(食品招商网)app www.spzs.com 里面的代理信息,web上无法显示,只能下载app爬取流程:1.电脑和手机连接同一个wifi,设置fiddler端口8888,设置手机wifi为手动连接,ip地址同电脑,端口同fiddler2.手机浏览器访问 ip:端口,下载fiddler证书(我刚刚连接的时候可能是操作太快,网络无法访问,下次记得重启一下fiddler或者等待一会)...原创 2020-05-04 19:33:35 · 5975 阅读 · 0 评论 -
Redirecting (meta refresh) scarapy 重定向
https://www.buyelec.net写京北数据爬取的时候遇到的问题,由于反爬,使用了https://center.abuyun.com/#/cloud/http-proxy/tunnel/lists 阿布云的代理,然后爬不了6页就会出现上面的错误,而且还找不到原因,各种方法都尝试了HTTP_RETRY_CODES = [404, 303, 304, 301,302]RE...原创 2020-04-08 20:13:51 · 1182 阅读 · 0 评论