
python爬虫
余晖下的少爷
这个作者很懒,什么都没留下…
展开
-
GitHub:基于搜狗微信搜索的微信公众号爬虫接口
hello,小伙伴们,大家好,今天给大家分享的开源项目是微信公众号爬虫,感兴趣的朋友可以参考一下这个开源项目,看看是否可以给你提供一个新的思路。项目简介基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫安装pip install wechatsogou --upgrade使用import wechatsogou# 可配置参数# 直连ws_api = wechatsogou.WechatSogouAPI()# 验证码输入错误的重试次数,默认为1ws_api =原创 2020-09-15 18:19:55 · 2181 阅读 · 0 评论 -
GitHub:哔哩哔哩的API调用模块
#hello,小伙伴们,大家好,今天给大家介绍的开源项目是:bilibili_api,这个开源项目主要是用Python写的调用 Bilibili 各种API的库,范围涵盖视频、音频、直播、动态、专栏、用户、番剧等[1]。你可以使用很简短的代码去调用API,而不需要自己去寻找API,指定各种参数。安装pip install bilibili_apirequestsbeautifulsoup4aiohttpwebsocketscssutils特色范围涵盖广,基本覆盖常用的爬虫,操作原创 2020-09-15 18:19:23 · 5250 阅读 · 1 评论 -
GitHub:记录一些JS逆向和爬虫
hello, 大家好,由于最近在找工作的原因,好久没有写博文了,最近刚刚入职,把以前落下的功课给补上,好了,废话不多说,今天给大家分享的开源项目是:JSpider,这个开源项目适合新手入门练习,写好的案例,包含但不仅限于大小厂网站,可能有你工作中遇到的,感兴趣的小伙伴可以了解一下以上就是改项目的全部内容了,后期大家感兴趣的话可以加我微信好友,我给大家找一些比较适合新手入门的js逆向或者自己写一些东西给大家分享,peace(手动狗头)开源地址:https://github.com/EnjoyScrap原创 2020-08-21 23:01:28 · 493 阅读 · 0 评论 -
GitHub:反爬技术方案的研究与落地
hello,大家好,今天给大家介绍一下爬虫反爬虫的技术方案研究和落地,对于内容型的公司,数据的安全性不言而喻。一个在线教育的平台,题目的数据很重要吧,但是被别人通过爬虫技术全部爬走了,那结果就是“凉凉”。再比说有个独立开发者想抄袭你的产品,通过抓包和爬虫手段将你核心的数据拿走,然后短期内做个网站和 App,短期内成为你的劲敌。成果:segmentfault 上发表过文章,获赞 148。大前端时代安全性如何做如果想了解大前端(Web、App、接口)层面的安全性,可以查看我的这篇文章。爬虫工程师的爬虫手原创 2020-08-21 22:54:14 · 903 阅读 · 0 评论 -
Github:Python爬虫实战-模拟登陆各大网站
hello,小伙伴们,大家好,今天给大家介绍的开源项目是:Python3-Spider,这个开源项目主要写的是关于Python模拟登陆各大网站 包含但不限于:滑块验证、拼多多、美团、百度、bilibili、大众点评、淘宝等,感兴趣的小伙伴可以自己clone下来自己动手实践一下。【推荐】爬虫练习网一个很不错的爬虫练习题网,内涵十几个爬虫题目,由浅到深涵盖 ip反爬、js反爬、字体反爬、验证码等题目。安利给大家,博主已撸完。登录网址 http://www.glidedsky.com/login.原创 2020-07-31 16:20:38 · 1228 阅读 · 0 评论 -
GitHub:逆向Android app获取或调用签名算法
hello,小伙伴们,大家好,今天给大家介绍的开源项目是:sign-algorithms,这个开源项目项目写的是关于逆向Android APP获取或调用签名算法相关的爬虫解密相关项目,感兴趣的小伙伴不妨看一下。项目目录项目不多,但是如果把这几个项目完完全全搞明白了,及时是遇到其它的APP或者是类似于的加密,我相信你大概都会有一个思路,不至于一点想法儿没有,感兴趣的小伙伴一定要clone下来这个项目好好研究一下,好记性不如烂笔头,加油,你一定可以的!!!(手动狗头)开源地址:https://gith原创 2020-07-18 21:53:37 · 602 阅读 · 0 评论 -
GitHub:随机生成UserAgent浏览器
hello,小伙伴们大家好,今天给大家推荐的开源项目是:fake-useragent,这个开源项目对搞爬虫的业务的人来说是一个福利,不用去自己搭建自己的UA池,只需要调用对应的方法即可,简单易用,感兴趣的小伙伴不妨去下载尝试一下。使用方法from fake_useragent import UserAgentua = UserAgent()ua.ie# Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US);ua.msie# Mo原创 2020-07-14 21:50:42 · 1574 阅读 · 1 评论 -
GitHub:JS逆向和爬虫
hello,小伙伴们大家好,今天给大家推荐的开源项目是:JSreverse,这个开源项目总结的是js逆向和爬虫,个人感觉适合新手入门JS反爬,感兴趣的小伙伴可以参考一下这个开源项目的逻辑,建议感兴趣的小伙伴可以下载一下这个开源项目,最好是自己上手练一下,然后捎带手输出一下你做项目的这个思路,流程等,共勉(手动狗头)。以上就是这个开源项目的详细介绍了,感兴趣的小伙伴可以尝试应用一下。开源地址:https://github.com/downdawn/JSreverse今天的推荐不知道大家喜欢吗?如果你原创 2020-07-13 22:15:49 · 625 阅读 · 0 评论 -
GitHub: ProxyPool 爬虫代理IP池
hello,小伙伴们,大家好,今天给大家分享的开源项目是:proxy_pool,这个开源项目是抓取个大免费代理IP网站,感兴趣的爬虫可以尝试把代码clone下载然后尝试应用一下,加油!!!______ ______ _| ___ \_ | ___ \ | || |_/ / \__ __ __ _ __ _ | |_/ /___ ___ | || __/原创 2020-07-10 14:29:40 · 4319 阅读 · 2 评论 -
GitHub:Python爬虫过程中遇到的JS加密问题
hello,小伙伴们,大家好,今天给大家分享的开源项目是:Crack-JS-Spider,这个开源项目主要写的是关于python爬虫过程中遇到的js反爬虫的问题,感兴趣的小伙伴可以参考一下作者是怎么写的或许可以给你提供一个新的思路。用于学习Chrome调试技巧,JS解密与代码AST混淆还原的教程。感兴趣的小伙伴可以研究一下。开源地址:https://github.com/LoseNine/Crack-JS-Spider今天的推荐不知道大家喜欢吗?如果你们喜欢话,请在文章底部留言或点赞,以表示对我的原创 2020-07-08 19:09:29 · 845 阅读 · 0 评论 -
GitHub:今日头条机器人
hello,小伙伴们大家好,今天给大家介绍的开源项目是:TTBot,这个开源项目是使用今日头条web版API实现的头条机器人,涵盖账密登陆、滑动验证、关注与粉丝操作、头条号内容操作, 转发评论等。支持定时器任务,实现预定的用户互动,又可以作为头条新闻文章爬虫,采集相关资讯存储。 默认使用 MongoDB 数据库进行存储。感兴趣的小伙伴可以clone一下这个代码。目录项目结构│ config.py #项目配置文件│ README.md│ requirement原创 2020-07-08 19:08:37 · 2058 阅读 · 0 评论 -
GitHub:分布式爬虫从零开始
GitHub:分布式爬虫从零开始hello,小伙伴们,大家好,今天给大家分享的开源项目是:Python-crawler-tutorial-starts-from-zero,这个开源项目主要写是分布式爬虫从零到一,感兴趣的小伙伴可以阅读一下。目录我分享过很多关于Python爬虫入门到精通的开源项目,每个作者的侧重点都不一样,感兴趣的小伙伴可以翻阅一下历史文章,希望可以给你提供一个不错的选择。开源地址:https://github.com/Kr1s77/Python-crawler-tutoria原创 2020-07-06 16:56:24 · 421 阅读 · 0 评论 -
GitHub:《反爬虫JS破解与混淆还原手册》
hello,小伙伴们,大家好,今天给大家推荐的开源项目是:Restore-JS,这个开源项目主要是做Python反爬虫的,如:发布JS破解,App协议分析,Xposed和Frida教程做爬虫方向的小伙伴可以了解一下,这个开源项目才刚刚起步,以后会一直更新,感兴趣的小伙伴可以持续关注!!!项目目录感兴趣的小伙伴可以长期关注,加油你可以的!!!开源地址:https://github.com/LoseNine/Restore-JS今天的推荐不知道大家喜欢吗?如果你们喜欢话,请在文章底部留言或点原创 2020-07-04 21:34:56 · 921 阅读 · 0 评论 -
GitHub:爬虫集合:微博、Twitter、玩加、知网、虎牙、斗鱼、B站、WeGame、猫眼、豆瓣、安居客、居理新房等
hello,小伙伴们大家好,今天给大家推荐的开源项目是 :CxSpider,这个开源整合了作者自己的采集过的所有产品,包括微博、Twitter、玩加、知网、虎牙、斗鱼、B站、WeGame、猫眼、豆瓣、安居客、居理新房感兴趣的小伙伴可以下载看看,应该可以给你提供一个可借鉴的思路。Project爬虫详情1. Twitter用户信息爬虫(twitter.user_info)@author ChangXing@version 4.1@create 2017.12.25@revise 2020.原创 2020-07-03 19:18:17 · 1687 阅读 · 0 评论 -
GitHub:Python爬虫逆向JS经验
hello,小伙伴们,大家好,今天给大家分享的开源项目是:Review_Reverse,这个开源项目是由Python语言编写的关于JS逆向的相关项目,想了解关于如何做好JS逆向,JS反爬虫的同学可以clone一下这个开源项目,做一个参考,说不定可以给你提供一些意向不到的思路。????目录感兴趣的小伙伴可以尝试一下,种好一棵树????最好的时间是十年前,其次就是现在。开源地址:https://github.com/lateautumn4lin/Review_Reverse今天的推荐不知道大家原创 2020-07-03 14:59:48 · 629 阅读 · 0 评论 -
GitHub:爬虫入门JS 模拟登陆各大网站
hello,小伙伴们,大家好,今天给大家介绍的开源项目是:Spider-Crack_Js,想学习爬虫解密js登陆的可以看看这个开源项目,这个开源项目可以给你提供一个不错的思路。代码教程【OpenLaw】登陆参数加密过程分析【中华英才网】登陆参数加密过程分析【大众点评网】登陆参数过程分析【新浪微博】登陆参数过程手把手分析JS解密案例目录JS解密案例├─ openlaw │ ├── openlaw_login.js // JavaScript解密demo│原创 2020-06-25 19:53:10 · 893 阅读 · 0 评论 -
GitHub:新浪微博爬虫,用Python采集新浪微博数据
hello,小伙伴们,大家好,今天给大家分享的开源项目是:weiboSpider,看名字也可以猜到这个项目是做什么的了!没错,这个开源项目就是采集新浪微博一个或多个用户(如:胡歌、迪丽热巴、郭碧婷)数据,并将结果信息写入文件或数据库,写入信息几乎包括用户微博的所有数据,包括用户信息和微博信息两大类。这个开源项目需设置cookie来获取微博访问权限,后面会讲解如何获取cookie。如果不想设置cookie,可以使用免cookie版,二者功能类似。具体的写入文件类型如下:写入txt文件(默认)写入csv原创 2020-06-21 21:09:32 · 3765 阅读 · 4 评论 -
一些非常有趣的python爬虫例子
hello,小伙伴们,大家好今天给大家分享的开源项目是一个关于爬虫的开源项目。这个开源项目,对新手比较友好, 主要爬取淘宝、天猫、微信、豆瓣、QQ等网站。感兴趣的小伙伴可以看一下。项目简介一些常见的网站爬虫例子,代码通用性较高,时效性较久。项目代码对新手比较友好,尽量用简单的python代码,并配有大量注释。下载没有或不懂如何设置代理的用户,可跳转至镜像仓库码云Gitee进行下载, 以便获...原创 2020-05-02 01:23:35 · 3726 阅读 · 3 评论 -
python爬虫requests_html库快速入门,你确定还要使用requests库吗?
hello,小伙伴们,大家好,今天给大家分享的开源项目是:requests_html库,熟悉python的小伙伴应该使用过requests库,requests库的作者kennethreitz又设计出一个新的库requests-html. 目前stars数高达10K.requests库号称是给人用的请求库,而requests-html号称是给人用的html解析库。kennethreitz的牛掰我是...原创 2020-04-13 23:16:01 · 991 阅读 · 0 评论 -
解决request-html chromium下载失败原因
我们在第一次使用requests-html中render函数的时候,当你第一次调用render()方法时,代码将会自动下载Chromium,并保存在你的根目录下(如:~/.pyppeteer/)。它只会下载这一次。唯一缺点就是chromium下载实在太慢了,下载过程容易出现超时现象导致失败。第一种解决方案修改Pyppeteer中的下载路径,因为默认的下载路径不能访问,原因你懂的。这里介绍...原创 2020-04-13 18:02:59 · 3208 阅读 · 0 评论 -
python爬虫利器 cURL你用过吗?
hello,小伙伴们,今天给大家分享的开源项目是一个python爬虫利器,感兴趣的小伙伴看完这篇文章不妨去尝试一下,这个开源项目就是curlconverter,不知道小伙伴们分析完整个网站后去code代码的时候,有一个工作特别繁琐,不知道小伙伴们平时有没有注意,就是复制请求头中的header信息,需要重复复制,粘贴,过程有点冗余。今天给大家推荐的这个项目就完美的解决了这个问题,话不多说,直接看效...原创 2020-04-09 23:48:17 · 993 阅读 · 0 评论 -
python存csv中文乱码问题
这两天做了一个小测试是抓的天气信息本来想村数据库,后来觉得还是存csv比较好,使用方便,但是在使用的过程中,发现存中文的时候会出现乱码的情况,于是就Google了一下,跟大家分享一下python3中存csv乱码的问题。亲测在python2中是不能设置这个编码格式,不支持这个方式。with open(filename, 'a', newline='', encoding='utf-8-s...原创 2018-05-03 10:15:10 · 22594 阅读 · 9 评论