爬虫从入门到放弃
文章平均质量分 69
requests、scrapy及移动端爬虫,加部分爬虫案例
不问散人
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
豆瓣电视剧评分加日期加评论爬取
参考了大佬的正则表达式,暂时不写教程,直接上代码import requestsimport randomimport refrom lxml import etreedef get_html(url): user_agent = [ 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36原创 2021-06-11 23:52:25 · 519 阅读 · 0 评论 -
js逆向-2 f天下模拟登录-pwd参数逆向
时隔多天,好久不见传送门 仅供学习,请勿用于非法用途第一步,也是最重要的一步,打开开发者工具(就按F12就得行)第二步,我们要模拟登陆就要知道它有哪些参数,并且是怎么加密的,所以, 输入一个11位的手机号,加一个随便是个什么啥的密码,只要不能成功登录就ok的啦,点击登录,在NetWork里 找XHR(XHR就是创建ajax请求的javascript api),很明显,这个login.api就是我们要研究的小可爱了。第三步,直接扒拉到下面看FormData显然,加密参数就一个pwd,uid是我们原创 2021-03-17 11:55:08 · 551 阅读 · 0 评论 -
京东商品信息爬取
上一回写到:在做课设的时候爬淘宝遇到了滑块验证码,不会验证码,也没有钱买代理,就只能换个网站来完成作业了哎,老三套,分析网站,提取数据,保存数据,走你!传送门随便搜索个随便,然后翻页,分析url,这个比较简单,直接上结果!我们在构造url的时候要添加三个参数,其中前两个是我们要搜索的关键字(用urllib.parse的quote() 进行编码),然后就是page, 就是页码数 x 2 - 1.ok,然后在看看数据在哪里,通过分析页面和查看网页源代码,我们可以看到数据就在HTML中,好办了,直接上xp原创 2020-12-23 17:52:53 · 711 阅读 · 1 评论 -
淘宝商品信息爬取
这两天做的python课设有一个关于python爬虫的题目,要求是从某宝爬取,那今天就来个某宝的商品信息爬取的内容吧!首先确定个目标,根据某关键词搜索,从获取的页面信息中提取商品标题、价格、发货地点、付款人数、以及点名这些信息,这些信息都是直接在网页源代码中。ok,目标定好了,就直接瞄准进攻吧!在淘宝中随便输入一个关键词,看一下url,顺便来个翻页,查看一下url的变化,为了方便查看不同页码的url的不同,就把他们放一起了,依次是1,2,3,4https://s.taobao.com/search?原创 2020-12-20 12:39:33 · 4138 阅读 · 16 评论 -
js逆向-1 模拟登陆微信公众号平台
今天的主要任务是破解模拟登陆中的pwd参数,比较简单,毕竟开头要稳嘛!我们首先,先说一下这篇文章中我用到的东西,在调试的时候推荐使用浏览器的无痕模式。具体是为了啥我也不知道哈,反正用就对了。然后js代码的调试 是用的 webstrom,附上破解链接https://www.cnblogs.com/yixiongqiang/p/13035699.html好了,现在开始分析页面吧 https://mp.weixin.qq.com/,进去之后点击使用账号登录,然后随便输入一个账号密码,打开浏览器自带的抓包工具,原创 2020-12-16 13:34:31 · 1056 阅读 · 4 评论 -
python爬虫之图片验证码识别
将图片翻译成文字的技术被称为光学文字识别,即OCR(Optical Character Recognition)技术Tesseract 是有谷歌赞助的,目前公认最优秀、最准确的开源OCR库安装下载exe文件,https://digi.bib.uni-mannheim.de/tesseract/,目前最新版本为 tesseract-ocr-w64-setup-v5.0.0-alpha.20201127.exe下载数据集:链接:https://pan.baidu.com/s/1HQTtLEKAJeF原创 2020-12-15 23:08:35 · 921 阅读 · 0 评论 -
lol图片爬取
LOL英雄图片爬取这篇文章是我分析这个页面的一个过程,请耐心看到最后,所谓分析页面就是不断的对自己的思路进行调整,如有不到之处,还请指正。附上url这是我们要爬取的主页面通过上两个图可以看出,注意标注出的url, 这是每个英雄的详情页面的url地址,而每个英雄的页面的url不同的地方为id(这个id很重要),所以可以判断每个英雄都对应着一个自己的id。而在每个英雄单独的页面中有每个皮肤的大图。在1.js这个文件中,我们看到了每个皮肤图片的对应的url, 多观察几个页面,你会发现每个英原创 2020-11-20 00:47:54 · 1228 阅读 · 2 评论 -
爬虫之selenium
selenium配置ChromeDriverFirefox查看浏览器对应版本,在以上连接中下载对应相似度最高的版本的驱动,然后将其放在python目录下的Scripts目录下即可。安装seleniumpip install selenium -i https://pypi.douban.com/simple简单使用实例化from selenium import webdriver# 实例化# 谷歌driver_1 = webdriver.Chrome()# 火狐原创 2020-10-19 00:14:20 · 183 阅读 · 0 评论 -
BeautifulSoup4
bs4简介本文中的父节点等各种节点关系见https://blog.youkuaiyun.com/Starfish_S/article/details/108809734BeautifulSoup 是一个可以从HTML 或者 XML文件中提取数据的网页信息提取库-pip install bs4 -i https://pypi.douban.com/simple使用from bs4 import BeautifulSoup创建一个BeautifulSoup对象bs = BeautifulSoup(html,原创 2020-10-08 11:20:32 · 207 阅读 · 0 评论 -
requests的get方法和post方法
requestsrequests模块的安装 ------- pip install requests -i https://pypi.douban.com/simple常用方法:- requests.get()- requests.post()具体采用哪种方法可以通过在网站右键打开检查(这里我用的是谷歌浏览器,火狐的是打开检查元素)然后点击Network,查看所需要的请求。通过调用requests.get(url, params=None, **kwargs)方法,会返回一个resp原创 2020-09-25 19:22:15 · 3202 阅读 · 0 评论
分享