
python爬虫个人测试项目分享
纯为个人喜好,切勿拿来商用,后果自负,若有侵权,请联系本人删除。
我心心念的爬虫啊
一给我里giao giao
展开
-
最新网易云盾滑块验证码破解,代码可以直接用
代码请勿商用,后果自付,仅供学习。from PIL import Image, ImageEnhancefrom selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support imp原创 2020-06-05 11:37:40 · 6909 阅读 · 1 评论 -
最新腾讯防水墙滑块验证码破解,代码可以直接运行
此代码请勿用来商用,后果自负。仅供学习。import numpy as npimport randomimport requestsfrom selenium.webdriver import ActionChainsimport timefrom selenium import webdriverfrom PIL import Imageimport osfrom selenium.webdriver.support.ui import WebDriverWaitimport cv转载 2020-06-05 11:35:33 · 8561 阅读 · 6 评论 -
python多线程爬虫教学,清晰易懂。
首先需要知道什么是多线程,多线程的作用。首先举个例子,并发和并行:并发:并发,在操作系统中,是指一个时间段中有几个程序都处于已启动运行到运行完毕之间,且这几个程序都是在同一个处理机上运行,但任一个时刻点上只有一个程序在处理机上运行。并行:并行是指“并排行走”或“同时实行或实施”。在操作系统中是指,一组程序按独立异步的速度执行,不等于时间上的重叠(同一个时刻发生)。例子:吃一碗米饭和菜。并发...原创 2020-01-21 15:00:52 · 612 阅读 · 2 评论 -
Python创建文件夹并保存图片、文本、视频、影音。简单详细!
创建文件夹这里使用的是os模块.import osos.makedirs('文件夹演示',exist_ok=True)data = '123456'with open(os.path.join('文件夹演示','1.txt'),'w') as f: f.write(data)如上所示,makedirs()里面有两个参数,第一个是所要创建的文件夹名称,第二个是当文件夹已经存...原创 2019-12-31 11:20:34 · 5866 阅读 · 0 评论 -
如何将mongodb数据保存到本地txt、json、csv,超详细!
第一步打开cmd,如果不知道怎么打开,在左下角搜索里面输入cmd,然后记住“右键管理员身份打开”!!!,反正我不这样的话最后保存文件会提示没有权限。打开之后用cd mongodb所在位置,如下:然后回车,输入 mongoexport -h localhost:27017 -d 演示2 -c scrapy -o ./演示2.txt其中27017是数据库的端口,没改变的话应该默认是27017,...原创 2019-12-31 11:38:11 · 2928 阅读 · 0 评论 -
pyppeteer网络协议问题
遇到这种错误:pyppeteer.errors.NetworkError: Protocol error Network.getCookies: Target close方法:卸载websockets 7.0 安装6.0版本就行了。pip uninstall websockets #卸载websocketspip install websockets==6.0 #指定安装6.0版本亲测成...原创 2019-12-31 14:41:40 · 1533 阅读 · 2 评论 -
IP代理池proxy,自建,免费,详细教程
这篇文章教你如何白嫖免费代理网站构造自己的一个ip代理池,不在为反爬检测而烦恼。思路就是找到一个免费ip网站,然后抓取上面的ip,去一个一个测试,能用的返回,不能用的扔掉。网站:http://www.nimadaili.com/。import requests as rfrom pymongo import MongoClientimport lxml.htmlurl = 'http...原创 2020-01-02 17:41:57 · 9069 阅读 · 4 评论 -
requests+cookie爬取淘宝任意商品评论。超详细教程!
首先使用的工具:python3.7,火狐浏览器思路分析:现在网页版淘宝搜索商品之后,点进去,基本上都会弹出登录框,当我们直接把一个商品的链接去爬取的时候,返回的会是登陆页面的Html,所以我们第一步就是先在网页版登陆淘宝。然后思考,为什么会返回登陆页面呢,因为淘宝的反爬会识别你的参数,也就是浏览器请求头的信息,里面包含了什么浏览器伪装,cookie了,如下图。(记住打开的是淘宝的商品,不是天猫...原创 2020-01-02 11:31:17 · 8160 阅读 · 20 评论 -
python爬虫抓取天猫商品评论模板,有详细教程
详细教程,天猫和淘宝是一样的,在我主页里有淘宝的,在这发下天猫的import requestsimport reimport time#需要修改的参数#url_1#a和b#cookie不能用时重新修改def set_up():#打开商品的主页面链接 url_1 = 'https://detail.tmall.com/item.htm?id=548071255763&am...原创 2020-01-02 11:35:07 · 2780 阅读 · 15 评论 -
多线程爬取视频~,超详细,超简单
对于多线程我在这使用的是threading模块,反正挺好用的,这个模块是有大致格式的,比如下面的先定义一个myspider类,然后__init__函数,run函数了,这些都是必须的。首先导入我们需要的模块 ,os是为了创建文件夹,redis是为了将视频链接导入redis来进行去重操作,redis需要提前打开,没安装的可以去搜索一下教程,安装好之后,先cmd进入redis下载的文件夹下,然后输入r...原创 2019-12-30 17:25:19 · 54226 阅读 · 0 评论