- 博客(19)
- 收藏
- 关注

原创 python爬虫抓取天猫商品评论模板,有详细教程
详细教程,天猫和淘宝是一样的,在我主页里有淘宝的,在这发下天猫的import requestsimport reimport time#需要修改的参数#url_1#a和b#cookie不能用时重新修改def set_up():#打开商品的主页面链接 url_1 = 'https://detail.tmall.com/item.htm?id=548071255763&am...
2020-01-02 11:35:07
2780
15

原创 requests+cookie爬取淘宝任意商品评论。超详细教程!
首先使用的工具:python3.7,火狐浏览器思路分析:现在网页版淘宝搜索商品之后,点进去,基本上都会弹出登录框,当我们直接把一个商品的链接去爬取的时候,返回的会是登陆页面的Html,所以我们第一步就是先在网页版登陆淘宝。然后思考,为什么会返回登陆页面呢,因为淘宝的反爬会识别你的参数,也就是浏览器请求头的信息,里面包含了什么浏览器伪装,cookie了,如下图。(记住打开的是淘宝的商品,不是天猫...
2020-01-02 11:31:17
8159
20
原创 最新网易云盾滑块验证码破解,代码可以直接用
代码请勿商用,后果自付,仅供学习。from PIL import Image, ImageEnhancefrom selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support imp
2020-06-05 11:37:40
6909
1
转载 最新腾讯防水墙滑块验证码破解,代码可以直接运行
此代码请勿用来商用,后果自负。仅供学习。import numpy as npimport randomimport requestsfrom selenium.webdriver import ActionChainsimport timefrom selenium import webdriverfrom PIL import Imageimport osfrom selenium.webdriver.support.ui import WebDriverWaitimport cv
2020-06-05 11:35:33
8558
6
原创 pymysql读取本地表格存入数据库(二)
读取表格使用pandasimport pymysqlimport pandas as pd#这个是表格的路径filepath =r'C:\Users\22053\Desktop\总部\同学信息\学生信息采集表.xlsx'connect = pymysql.connect('localhost','root','root','data_2')cursor= connect.curso...
2020-03-20 15:35:11
522
原创 pymysql数据库表格创建插入删除读取操作详解(一)
首先你需要提前安装好数据库mysql,python模块pymysql,以及数据库可视化管理工具Navicat(方便我们来查看数据内容)一、创建数据库打开我们的Navicat,先新建一个我们自己的连接,软件基础操作教程网上都有,右键创建好的连接,选择新建数据库,数据库名字随便起,字符集选择最下面的utf8,排序规则随意选择一个,然后确定,如下二、创建表格打开我们的pycharm,先导入...
2020-03-20 11:03:09
754
原创 python多线程爬虫教学,清晰易懂。
首先需要知道什么是多线程,多线程的作用。首先举个例子,并发和并行:并发:并发,在操作系统中,是指一个时间段中有几个程序都处于已启动运行到运行完毕之间,且这几个程序都是在同一个处理机上运行,但任一个时刻点上只有一个程序在处理机上运行。并行:并行是指“并排行走”或“同时实行或实施”。在操作系统中是指,一组程序按独立异步的速度执行,不等于时间上的重叠(同一个时刻发生)。例子:吃一碗米饭和菜。并发...
2020-01-21 15:00:52
612
2
原创 python读取open本地文件。
打开并读取文件。注意文件的路径,open()里面的参数是文件的路径,例如:r’C:\User\22053\Desktop\myfile.txt’。最好前面带上r,防止反斜杠\转义。F=open('myfile.txt').read()print(F)读取文件的第一行。F=open('myfile.txt').readline()print(F)...
2020-01-21 13:25:56
3041
3
转载 FaskApi教程:比Falsk更好用速度更快的FaskApi
文章转载自:https://mp.weixin.qq.com/s?__biz=MzI2MzEwNTY3OQ==&mid=2648978169&idx=1&sn=87fedaf0ee4037a4b4760a547bc50532&chksm=f2506f19c527e60f0cb4e0e550c4683f247f97891721b872c7f1cf43d1ed5fcd4...
2020-01-20 08:41:50
4357
原创 python笔记新手常用函数方法总结—3
insert():在列表的指定位置添加元素。a=[1,2,3,4]a.insert(0,100)#在下标为0处,添加元素100print(a)>>>[100,1,2,3,4]items():将字典的键和值组合为元组的形式,总体是一个列表,能够遍历,但是不能使用下标方法。a={'0':'a','1':'b'}for i in a.items(): print(i[...
2020-01-19 15:58:22
771
1
原创 python笔记新手常用函数方法总结—2
今天带来十个常用方法:get()函数:返回字典键的值。dict={'name':'a','age':'21'}print(dict.get('age')) #get()里面填键的名字>>>21index()方法:返回元素下标。a=[1,2,3,4]print(a.index(3)) #index()里面填写元素,注意元素有没有引号,没有就不加。>>...
2020-01-18 15:15:24
336
原创 python笔记新手常用函数方法总结—1
python我主要学的是爬虫,在这里开始总结一下经常会用到的实用性比较大的函数或者方法。怕自己寒假期间忘掉,也方便新手一起学习。输出结果我用>>>提示。zip()函数zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表,如果各个迭代器的元素个数不一致,则返回列表长度与最短的对象相同,利用 * 号操作符,可以将元组解压为...
2020-01-17 15:32:59
682
2
原创 Session提高requests的抓取速度小技巧
使用requests抓取数据的时候,爬虫会模拟浏览器的行为,但是可能不知道,当打开一个网页的时候,requests.get()可能速度很快,但是如果几十个上百个网址的时候呢,这个差距就出来了,例如下面。import requestsimport timestart = time.time()for _ in range(100): resp = requests.get('ht...
2020-01-17 14:43:08
2601
原创 IP代理池proxy,自建,免费,详细教程
这篇文章教你如何白嫖免费代理网站构造自己的一个ip代理池,不在为反爬检测而烦恼。思路就是找到一个免费ip网站,然后抓取上面的ip,去一个一个测试,能用的返回,不能用的扔掉。网站:http://www.nimadaili.com/。import requests as rfrom pymongo import MongoClientimport lxml.htmlurl = 'http...
2020-01-02 17:41:57
9068
4
原创 pyppeteer网络协议问题
遇到这种错误:pyppeteer.errors.NetworkError: Protocol error Network.getCookies: Target close方法:卸载websockets 7.0 安装6.0版本就行了。pip uninstall websockets #卸载websocketspip install websockets==6.0 #指定安装6.0版本亲测成...
2019-12-31 14:41:40
1533
3
原创 如何将mongodb数据保存到本地txt、json、csv,超详细!
第一步打开cmd,如果不知道怎么打开,在左下角搜索里面输入cmd,然后记住“右键管理员身份打开”!!!,反正我不这样的话最后保存文件会提示没有权限。打开之后用cd mongodb所在位置,如下:然后回车,输入 mongoexport -h localhost:27017 -d 演示2 -c scrapy -o ./演示2.txt其中27017是数据库的端口,没改变的话应该默认是27017,...
2019-12-31 11:38:11
2928
原创 Python创建文件夹并保存图片、文本、视频、影音。简单详细!
创建文件夹这里使用的是os模块.import osos.makedirs('文件夹演示',exist_ok=True)data = '123456'with open(os.path.join('文件夹演示','1.txt'),'w') as f: f.write(data)如上所示,makedirs()里面有两个参数,第一个是所要创建的文件夹名称,第二个是当文件夹已经存...
2019-12-31 11:20:34
5866
原创 多线程爬取视频~,超详细,超简单
对于多线程我在这使用的是threading模块,反正挺好用的,这个模块是有大致格式的,比如下面的先定义一个myspider类,然后__init__函数,run函数了,这些都是必须的。首先导入我们需要的模块 ,os是为了创建文件夹,redis是为了将视频链接导入redis来进行去重操作,redis需要提前打开,没安装的可以去搜索一下教程,安装好之后,先cmd进入redis下载的文件夹下,然后输入r...
2019-12-30 17:25:19
54225
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人