
爬虫
Duke_LH
这个作者很懒,什么都没留下…
展开
-
a_bogus逆向纯算
这里主要是根据时间戳和一些数组前面的值经过位运算后生成,里面的76位是取的环境值拼接成的字符串,77位是第76位加密得到的数组,可以写死。第一个是一个50位的数组,取自大数组里面固定位置的值,这个位置可以插桩得到,剩下两个是第82位和第87位。由第86位和第90位拼接后转字符串,和另外一个固定数组循环生成一串乱码。不断的调整断点跟栈发现整个vmp加密流程依靠着一个大数组,不断的往里进行取值,一番操作后又往里存,包括最后生成的。由第86位和数组前面的一些固定顺序的值通过位运算生成,参与第88位的生成。原创 2024-10-14 17:24:33 · 1406 阅读 · 4 评论 -
爬虫:Sentry-Span参数逆向
在抓某眼查数据太过频繁时会出现极验的验证码。极验的教程有很多,主要是发现在这里获取验证码的时候需要携带参数。在这里记录一下逆向的主要过程,直接上补环境的代码。原创 2024-07-08 16:55:10 · 345 阅读 · 1 评论 -
爬虫 — 大众点评商户信息的爬取和文字反爬
信息爬取import requestsfrom lxml import etreeimport timeimport jsonimport pandas as pdimport reimport json# 获取商户名称和IDresult = []for i in range(1,51): print(i) url = r'http://www.dianping.com/haikou/ch10/p{page}'.format(page=i) headers =原创 2021-12-11 20:40:06 · 4658 阅读 · 2 评论 -
Python — 爬取饿了么外卖店信息
在学数据可视化,缺少点数据进行实操,就想着从饿了么上面爬点外卖店信息。主要是获取数据,所以代码比较简陋,直接上代码:import requestsimport jsonimport csvdef crawler_ele(page=0): def get_page(page): url = 'https://h5.ele.me/restapi/shopping/v3/resta...原创 2018-12-22 16:44:09 · 7511 阅读 · 6 评论 -
Python+Selenium — 爬取京东搜索商品页数据
用 request 下载京东搜索商品页面源码后,发现得到的数据只有30条,怀疑京东搜索页面加载方式应该是动态渲染的,所以打算采用 Selenium 驱动谷歌浏览器来爬取搜索页面。代码如下:from selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.web...原创 2018-11-05 16:34:07 · 1415 阅读 · 0 评论 -
爬虫 — 爬取携程的航班信息
功能介绍:输入起点、终点、时间就能得到携程上的航班信息代码:from prettytable import PrettyTableimport requestsimport jsondef xiecheng(dcity,acity,date): date = date[0:4]+'-'+date[4:6]+'-'+date[6:8] headers = { "User-A...原创 2018-11-07 17:54:45 · 14554 阅读 · 44 评论 -
爬虫 — curl转requests
最近在弄爬虫,有些网站需要传入headers,自己将网站的 headers 一一弄下来形成字典太麻烦了。偶然发现 Chrome 可以生成一个叫 cURL 的东西,里面包含该网页的 headers 。就写了个函数自动提取并返回字典形式的 heades。先介绍一下怎么获取到网页的 cURL:按上面步骤执行就能得到下面的东西:curl "https://www.baidu.com/" -H &amp原创 2018-11-02 11:52:21 · 1629 阅读 · 0 评论 -
爬取大众点评网的酒店信息
输入城市的拼音,就能爬取大众点评上面该城市酒店的信息,将数据写入 csv 文件。不完善点:只能输入拼音,当然可以下载第三方库 pinyin 进行转换。未对输入的城市进行判断 。代码如下:import requestsfrom lxml import etreeimport csvimport reclass DPHotel(): def __init__(self,c...原创 2018-10-30 15:23:20 · 771 阅读 · 0 评论 -
Scrapy 爬取网易云音乐播放量百万以上的歌单以及歌单详情
创建爬虫查看歌单链接 https://music.163.com/#/discover/playlist用 requests 下载此链接的网页发现不是原网页,应该是被跳转到了登录页面。分析之后得到真实网页应该是:https://music.163.com/discover/playlist (去掉 #)同时还需要设置一下 headers,如下:DEFAULT_REQUEST_HEADER...原创 2018-10-24 17:59:29 · 4992 阅读 · 0 评论 -
Scrapy通用爬虫笔记—配置文件与配置加载
Scrapy通用爬虫个人理解就是针对一系列相似的站点建立一个爬虫框架,包含基本的框架代码,不同点可能在于各个站点的数据形式、爬取规则、页面解析形式。将爬取各个站点所需要的代码分开保存,爬取时再在框架中导入即可。1. 配置文件配置文件内容:简单点就是针对要爬取的站点所需要的独有的信息,参数都应该写进去。可以包括该爬虫的信息,起始链接和域名,爬虫设置(settings),爬取规则(Rule),以...转载 2018-10-09 17:55:52 · 2746 阅读 · 2 评论 -
Scrapy通用爬虫笔记 — CrawlSpider和Item Loader
CrawlSpiderCrawlSpider:继承自Spider类,有两个重要的属性和方法。process_start_url():当start_urls里的Request执行下载得到Response后,执行该函数进行解析,必须返回Item或者新的Request。rules:定义爬取规则的属性,是一个包含一个或多个Rule规则的列表。通过定义的Rule可以筛选出符合我们要求的链接。通过...转载 2018-10-07 12:04:58 · 651 阅读 · 0 评论 -
ImagesPipeline的源码
学习scrapy框架时,用到了自定义继承自ImagePipeline的类下载图片,对于函数中的参数存在疑问,查看了ImagePipeline的源码,如下:class ImagesPipeline(FilesPipeline): """ Abstract pipeline转载 2018-10-06 11:48:00 · 856 阅读 · 0 评论