
python
简单记录一下
liuy5277
这个作者很懒,什么都没留下…
展开
-
python 自动识别图形验证码
本文以知网注册验证码为例1. 安装tesseract,并将路径加到环境变量中下载地址:https://digi.bib.uni-mannheim.de/tesseract/2. 安装pytesseractpip install pytesseract代码示例# coding = utf-8import timeimport pytesseractfrom PIL import Imagefrom selenium import webdriverdef.原创 2021-08-22 09:27:03 · 28047 阅读 · 0 评论 -
爬取csdn,排名前200作者的原创文章
1. 队列保存前200位作者用户名,每次取一个出来用独立线程取获取其所有的原创博客2. 使用线程锁,写csv文件,防止多线程写入错乱 ( with csv_writer_lock:)3. 每次最多运行5个线程,并行爬取5个用户的博客# coding = utf-8import csvimport jsonimport threadingimport timeimport osimport jsonpathimport requestsfrom queue impo原创 2021-08-20 21:24:46 · 27164 阅读 · 0 评论 -
python 爬取全国最新省市区数据,并存入表
本文通过调取高德行政区划查询接口,获取最新的数据信息(省、市、区、经纬度、行政级别、城市编码、行政编码等),并通过mysql.connector存入mysql数据库表结构设计如下:CREATE TABLE `districts` ( `districtId` int(11) NOT NULL AUTO_INCREMENT, `districtPid` int(11) DEFAULT NULL COMMENT '上级ID', `name` varchar(32) DEFAULT NULL原创 2021-08-08 23:08:04 · 29836 阅读 · 2 评论 -
python 之免费ip代理池
基于proxy_pool,部署了一个开放的免费ip代理池,提供出来供大家使用。数据有效性每2分钟更新一次。地址:http://proxy.linuxdba.ltd/all/开源项目地址:https://github.com/jhao104/proxy_pool原创 2021-08-06 22:26:55 · 31511 阅读 · 1 评论 -
爬取站大爷的免费ip代理
coding = utf-8“”"Created by linuxdba at 2021/8/2mail: linuxdba@qq.com“”"import requestsfrom lxml import etreebase_url = ‘https://www.zdaye.com’url = ‘https://www.zdaye.com/dayProxy.html’header = {‘User-Agent’: ‘Mozilla/5.0 (Linux; Android 6.0; Ne原创 2021-08-05 22:47:21 · 30460 阅读 · 0 评论 -
python 生成6位随机验证码
# coding=utf-8import randomfrom captcha.image import ImageCaptchadef randomText(textArr): length = len(textArr) if length < 1: return '' if length == 1: return str(textArr[0]) randomNumber = random.randint(0, lengt.原创 2021-07-02 15:05:58 · 30733 阅读 · 0 评论 -
python 解析页面内嵌链接,并访问是否正常
import timeimport urllib.requestfrom bs4 import BeautifulSoupt = time.time()def scanpage(url, suburl): websiteurl = url t = time.time() n = 0 html = urllib.request.urlopen(websiteurl).read() soup = BeautifulSoup(html, "lxml") .原创 2021-07-02 14:57:22 · 29367 阅读 · 0 评论