
python爬虫
文章平均质量分 51
倚东
Coding Lover
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
JS逆向案例分享----prototype的妙用
prototype的妙用原创 2023-02-12 21:51:33 · 1066 阅读 · 1 评论 -
手把手操作JS逆向爬虫入门(三)---Headers请求头参数加密
index.js文件里搜索 getApiKey,不难发现,getApiKey由comb函数处理e,t两个 参数,而comb函数 就是对参数拼接后进行base64编码(如图方框处btoa)。抠出是上述js代码,新建js文件okyunlina.js,并写一个生成x-apiKey参数的函数入口。通过搜索encryptApiKey和encryptTime两个函数名,不难找出其生成原理。通过抓包分析请求,不难发现,该网站的请求头headers里有一个参数x-apiKey。这样只要找到两个参数的来源,就解决问题了。原创 2022-11-06 15:22:10 · 3041 阅读 · 4 评论 -
手把手操作JS逆向爬虫(二)
本文是本人100%完成,没有参考任何资料。虽说不是什么高难度的JS逆向,但对新手来说还是有点难度的。话不多说,开始整体。本次破解的目标是音乐网站的歌曲下载。目标音乐网站。请找解密网站破解如下地址,应该看得出用了什么加密方式吧:-):aHR0cHM6Ly93d3cua3Vnb3UuY29tLw==基本思路:搜索歌曲名字,获得歌曲地址,完成下载。逆向过程:1、搜索歌曲,通过手动观察和查找,不难在Network下的JS面板下找到目标请求信息。2、我们来看一下这个请求的具体信息:Hea原创 2022-02-21 21:09:25 · 817 阅读 · 1 评论 -
Pyspider 安装的那些坑(解决你所有的问题)
1.async成为关键字,不能作为变量名,所以要把相关文件(run.py、tornado_fetcher.py、webui>app.py,)的async变量统一改成别名,比如shark2.phantomjs 的目录需要添加到系统的环境变量Path中。3.报ImportError: cannot import name 'DispatcherMiddleware'错误:pip uninstall werkzeugpython -m pip install werkzeug==0.16.1原创 2022-01-11 18:22:56 · 475 阅读 · 0 评论 -
手把手操作JS逆向爬虫入门(一)
本文爬取的网站如下(可以找解密工具解码)aHR0cHM6Ly9uZXdyYW5rLmNuLw==爬取的内容为网站的资讯情报版块的新闻资讯鼠标点击翻页,在开发者工具中查看请求包,很容看出请求地址和参数,其中post请求的参数如图:请求中的变化参数为nonce和xyz,我们的目标就是找出这两个参数的加密原理,就是加密函数。然后用python代码编写函数生成该加密参数,或者抠出JS代码,然后再python中调用生成加密参数,然后出入post请求,实现爬虫。逆向过程:1、搜索.原创 2022-01-05 22:47:43 · 7949 阅读 · 14 评论 -
招聘岗位爬虫 selenium+pyquery
爬虫目的:爬取某直聘的岗位信息,如果是新岗位,就发送邮件至指定邮箱。重点:selenium的使用以及如何避免被检测。 pyquery解析数据的规则。import time,randomimport redisfrom selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom pyquery import PyQuery as pqfrom mylibrary impor..原创 2022-01-04 11:20:43 · 650 阅读 · 0 评论 -
python微信公众号文章爬虫(上)
微信公众号爬虫关键是获取请求地址。这篇文章是方法之一。登录自己的公众号后台,微信公众平台,进入图文消息编辑界面,输入超链接,选择公众号文章,搜索公众号,比如人民日报,然后会弹出最新的文章列表。此时可以找到相应的请求,通过公众号文章翻页,可以找到请求的参数规律。注意:请求是需要cookies参数,可以拷贝浏览器访问的cookies。代码如下:''' the key is to use cookies'''import requestsheaders={'User-Agent':'...原创 2021-11-12 20:57:23 · 2514 阅读 · 0 评论 -
2021-10-22 爬取电商网站信息(不采用async)
重点掌握BeautifulSoup的使用,用class或者id属性进行select 和select_one定位,正则表达式的试用。from bs4 import BeautifulSoupimport requestsimport timeimport jsonimport re# import phantomjsheaders={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTM原创 2021-10-22 20:36:48 · 200 阅读 · 0 评论 -
2021-07-27 爬取教育类网站的新闻列表,发送邮件,并转化为exe文件
爬取芥末堆网站的新闻列表!非常简单的一段代码,待完善。import requestsheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36','Referer':'https://www.jiemodui.com/'}url0='https://www.jiemodui.com原创 2021-07-27 14:38:15 · 768 阅读 · 0 评论 -
Python爬取招聘网站岗位信息
import timeimport csvfrom selenium import webdriverif __name__=='__main__': positions = [] while (True): position = input('请输入要搜索的岗位名称,如python,数据分析等,按回车完成。可以输入多次,"n"或"N结束输入:') if position == 'n' or position == 'N': .原创 2021-07-17 13:45:03 · 3397 阅读 · 2 评论 -
Celery分布式爬虫牛刀小试
本案例旨在展示celery的功能。from celery import Celeryimport jsonimport timeimport requestsheaders={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0....原创 2020-03-19 21:07:01 · 696 阅读 · 1 评论 -
Python异步并发爬虫-----gevent库爬取知名问答网站问题列表
掌握 Gevent库的使用。经验:1、猴子补丁的使用。from gevent import monkey;monkey.patch_all() 必须写上,否则效果同单线程。2、知乎网站采用了Ajax技术动态传递数据,Chrom浏览器F12,在Network菜单下的XHR栏下找到相应个的链接,其返回数据为字典和列表多重嵌套的字典。乍看有点复杂,需要理清结构。3、需要加入cookies信息,...原创 2020-02-29 21:41:41 · 305 阅读 · 0 评论 -
Scrapy+Mysql+SqlAlchemy爬取招聘网站信息
爬虫目的:爬取拉勾网站杭州分站的python岗位基本信息和岗位详情,并写入mysql数据库。后附经验总结。知识点,1、解析函数多个yield以及多个pipeline的使用2、Sqlalchemy框架的使用3、Scrapy FormRequest请求,以及反爬难点:岗位详细信息的url不能直接从爬虫返回信息获得,而需要另外构建url。然后通过request再次请求,以及回调的解析函数...原创 2020-01-08 21:59:07 · 704 阅读 · 0 评论 -
Requests电商网站爬虫+SQLAlchemy框架数据入库
知识点:1、SQLAqlalchemy框架的使用,数据库连接,建立表格,数据入库Mysqll等操作。2、解决重复入库问题3、图片元素变动的反爬应对from sqlalchemy import create_enginefrom sqlalchemy.ext.declarative import declarative_basefrom sqlalchemy import Column,...原创 2020-01-02 22:06:51 · 1312 阅读 · 0 评论 -
redis牛刀小试 ----requests爬虫
技术要点:1、python操作redis的基础,如建立连接,插入数据,读取数据等等。2、爬虫代理的使用。目标:爬取拉勾网站数据分析师岗位信息,将公司、薪水、城市及岗位详细信息地址写入redis数据库,然后爬取每个岗位详细信息页面,获取职位诱惑和岗位要求的详细信息,再次写入redis。import requestsimport timeimport randomimport redi...原创 2019-12-29 21:58:14 · 286 阅读 · 0 评论 -
单线程、异步伪并发及多线程爬虫实例比较(附经验总结)
技术要点:1、BeautifulSoup库select方法选取元素2、Selenium+phantomjs反爬动态网页3、asyncio + aiohttp异步爬虫技术4、多线程threading库的使用。爬取京东网站信息:页数20页,单线程爬虫:from bs4 import BeautifulSoupimport requestsimport timeimport pha...原创 2019-12-29 21:36:40 · 415 阅读 · 1 评论 -
Requests+Mongodb爬取拉勾python岗位
本案例为爬取拉勾网站python岗位招聘信息,并写入mongdb数据库。爬取拉勾网站招聘信息的时候会面临的反爬技术,解决问题主要两个方法,第一是用selenium模拟浏览器暴力爬取,第二种办法是用requests加上cookies信息完成。第二种方式,本人尝试过多次,爬到10页以上就爬不出数据了,相信这样也是反爬的作用。经过再三尝试摸索,最终解决问题。解决的核心很简单,就是10页以上就更换coo...原创 2019-12-13 22:10:16 · 314 阅读 · 0 评论 -
学习爬虫的常见问题分享(四)---Scrapy框架 进阶
学习爬虫的最后阶段应该就是利用框架进行爬虫了,其中scrapy是最常用的框架了。本次爬虫的对象是快代理网站代理IP,并写入Mysq数据库。 网站地址为https://www.kuaidaili.com/free/inha/1/,如下图所示,网站的结构非常简单,本例主要是展示scrapy最简单的爬虫功能。1、建立项目。在命令行下,进入需要的目录,输入命令:scrapy startproject...原创 2019-11-29 11:38:31 · 315 阅读 · 0 评论 -
学习爬虫的常见问题分享(三)---爬虫遇坑之旅
今天继续跟大家分享我的爬虫进阶之旅。相信各位看到过很多网友分享的求职网站上职位信息的爬取案例,其中爬取拉勾网的案例最多了。加上本身最近也打算换工作,今天就来爬取拉勾网的求职信息吧。缘以为这个网站信息爬取是很简单的,一个招聘网站吗,能有啥技术含量的,结果却让我大跌眼镜,且听我慢慢道来。案例二:求职网站职位的爬取。目标:爬取拉勾网上所有“”数据分析“”岗位的招聘信息。打开lago.com,输入...原创 2019-11-10 00:33:51 · 662 阅读 · 0 评论 -
学习爬虫的常见问题分享(二)---爬虫遇坑之旅
这个系列的主题个改成初学爬虫容易遇到坑,更加合适。相信大多数初学者学了爬虫技能后就迫不及待的开始自己的爬虫尝试,遗憾的是书本上学到的知识可能已经过时,或者实际操作时相关网站已经加入了反爬虫技术,导致大家动手时无法获得教程上一样的效果,很打击我们学习的积极性,有木有?!今天继续跟大家分享我的爬虫遇坑之旅。案例一:电商网站产品图片的爬取。这是我入门阶段的有一个爬虫尝试,爬取京东网站餐桌的图片。网...原创 2019-11-08 10:13:32 · 430 阅读 · 1 评论 -
学习爬虫的常见问题分享(一)
爬虫是python应用的一个方面,且是比较容易上手并看到结果的应用。说是容易上手,不过对新手而言,也不免碰到各种各样的坑。今天用多个案例跟大家分享本人学习爬虫技术中碰到一些问题,希望对初学爬虫者有一定参考价值。对于完全的小白而言,建议先自行学习爬虫基础知识,如常见库的安装和常用功能,如requests, beautifulsoup4, Selenium, Scrapy等。欢迎各位指点交流!案...原创 2019-11-04 13:53:35 · 699 阅读 · 0 评论