
爬虫
文章平均质量分 91
法萌
这个作者很懒,什么都没留下…
展开
-
关于爬取企业信息类的爬虫(二)
在上一篇中,对企查查进行了数据获取,关于爬取企业信息类的爬虫(一),本篇对cookie中的js进行解析。在企查查的cookie中,主要包含以下几个:acw_tc=701ec49416327465587377184eb448e3cf457f2bbf56789e0313b461cd QCCSESSID=42negcpgs96lali07famk9fsp2 qcc_did=7009749f-0fb0-4fb4-ad93-c0bb260c9a81 UM_distinctid=17c27475a7c26原创 2021-09-30 21:53:51 · 3020 阅读 · 0 评论 -
关于爬取企业信息类的爬虫(一)
最近需要用到,根据营业执照来查询企业的名称和地址,首先想到的是企查查之类的网页版,在手动查询几十条之后,发现跳出了个账号登录的页面,无法继续查询,且网页每天每个IP的查询量有限制,遂想到了写个爬虫脚本,使用代理的方式来查。一、urllib实现依据fillder抓包,发现在请求qcc.com网址时(GET),会发送相关的6个cookie信息给服务器,之后由服务器返回2个cookie值(包括CDN节点acw_tc、以及企查查服务器QCCSESSID)。由于本人能力有限,无法查到GET请求中,cookie原创 2021-09-25 15:15:01 · 7595 阅读 · 0 评论 -
静态网页爬取
使用python爬取网页有很多的API可以使用,但由于API太多,导致有时不知选择哪个。有时,我们想要设置proxy,就要用这套API,想要设置cookie,就得用另一套API。故总结了一个较为全面的爬取流程API,可实现timeout、proxy、cookie、header(7个字段的值设置)以及访问网页可能出现的Error。proxy:代理,有些网站使用代理时无法访问。 co...原创 2018-03-03 16:52:15 · 1441 阅读 · 0 评论 -
Ajax网页爬取
Ajax网页,指的是类似豆瓣电影排行这样的页面。鼠标拉到最下面时,会自动加载;同时,网页的url没有改变;https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action=Ajax动态网页,是通过GET的方式,将表单发送给服务器原创 2018-03-22 21:25:11 · 1653 阅读 · 0 评论 -
web客户端授权验证-proxy
对于一般的proxy设置可以参考:静态网页爬取对于web客户端授权的验证如下网页的验证,无法查看网页源码的。比如登录ftp。可以使用如下代码:# -*- coding:utf-8 -*-import urllib.requesttest = "admin"password = "admin"webserver = "192.168.1.1"# 构建一个密码管理对象,可以用来保存和H...原创 2018-03-23 20:52:55 · 1290 阅读 · 0 评论 -
爬虫之xpath
一、xpath的语法xpath是用来对XML文件进行解析的。针对如下的XML文件: Everyday Italian Giada De Laurentiis 2005 30.00 Harry Potter J K. Rowling 2005 29.99 XQuery Kick Start James M原创 2018-03-24 14:47:43 · 392 阅读 · 0 评论 -
selenium和PhantomJS爬取动态网页
一、selenium和PhantomJS用法简介selenium是web的自动化测试工具,类似按键精灵,可以直接运行在浏览器上。pip install seleniumPhantomJS是基于webkit的无界面浏览器,使用时,无需输入header等。需要从 phantomjs.org处下载,再将bin目录添加到环境变量path中。1.1 基本使用流原创 2018-03-25 09:25:04 · 5200 阅读 · 0 评论 -
爬虫杂谈
1. cookie是用来记录访问WEB信息的,所以要维持账号密码登录状态的就要其用cookie。一般情况下,建议关闭,特别是使用随机proxy代理的时候。因为你IP变了,cookie没变,服务器一看就知道请求有问题。2. 关于fiddler。当URL需要传送表单数据,或者需要进行网页跳转时,可用Fiddler抓包,比如模拟登录时。其他的时候使用浏览器上方的URL或者F12就足够了。3. 关于hea...原创 2018-04-10 13:55:39 · 333 阅读 · 0 评论 -
python多线程爬取ts视频
http://www.xigua66.com/ 视频网站,可能会报病毒,慎点。1、http过程由于ts文件是m3u8的传输文件,m3u8是苹果公司推出一种视频播放标准,是m3u的一种,不过 编码方式是utf-8,是一种文件检索格式,将视频切割成一小段一小段的ts格式的视频文件,然后存在服务器中(现在为了减少I/o访问次数,一般存在服务器的内存中),通过m3u8解析出来路径,然后去...原创 2019-04-07 09:51:52 · 5437 阅读 · 3 评论