
Python
aknoob
这个作者很懒,什么都没留下…
展开
-
Python-进行代理池的维护
利用python创建自己的代理池,可以自己以后使用。初始数据proxypool.setting# Redis数据库地址REDIS_HOST = '127.0.0.1'# Redis端口REDIS_PORT = 6379# Redis密码,如无填NoneREDIS_PASSWORD = NoneREDIS_KEY = 'proxies'# 代理分数,最高为100分,最低我0分。初始分数为10分MAX_SCORE = 100MIN_SCORE = 0INITIAL_SCORE原创 2020-08-18 10:01:09 · 751 阅读 · 0 评论 -
Python-网络爬虫代理设置
requestshttp/https代理设置import requestsproxy = '120.78.225.5:3128'proxies = { 'http': 'http://' + proxy, 'https': 'https://' + proxy,}try: response = requests.get('http://httpbin.org/get', proxies=proxies) print(response.text)except r原创 2020-08-18 10:00:05 · 1343 阅读 · 0 评论 -
Python-极客验证码识别
简单验证码识别import tesserocrfrom PIL import Imageimage = Image.open('PFET.jpg')# 利用 Image 对象的 convert() 方法传入参数 "L" ,即可将图片转化为灰度图像image = image.convert('L')# 阈值默认为127threshold = 127table = []for i in range(256): if i < threshold: tabl原创 2020-08-18 09:59:25 · 762 阅读 · 0 评论 -
通过-Python-使用-Selenium-爬取淘宝商品
无注解版import pymongofrom selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait imp原创 2020-08-18 09:57:56 · 448 阅读 · 0 评论 -
Python-调用-Splash-API
render.htmlrender.html 接口用于获取 JavaScript 渲染的页面的 HTML 代码,接口地址就是 Splash 的运行地址加此接口名称。例如:http://0.0.0.0:8050/render.html?url=https://www.baidu.com&wait=5http://0.0.0.0:8050 + render.html + https://www.baidu.com + wait=5import requestsurl = 'h原创 2020-08-18 09:56:09 · 641 阅读 · 0 评论 -
Splash的简单使用
Splash Lua脚本http://localhost:8050,端口为8050入口及返回值function main(splash, args) splash:go("http://www.baidu.com") splash:wait(0.5) local title = splash:evaljs("document.title") return {title=title}end通过 evaljs()方法传人 JavaSer刷脚本, 而 document.title 的执行原创 2020-08-18 09:55:06 · 5035 阅读 · 0 评论 -
Python-自动化库-Selenium-的使用
title: Python 自动化库 Selenium 的使用date: 2020-04-30 15:17:03tags: Python网络爬虫categories: Pythoncomments: truetoc: truethumbnail: …/…/thumbnail/image16.pngbanner:@Author: YiHua Lee @Address: Guangdong province, China基本使用from selenium import webdrive.原创 2020-08-18 09:54:07 · 701 阅读 · 0 评论 -
Python-网络爬虫之-Ajax-数据爬取
Ajax 概述Ajax是利用 JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。Ajax基本原理发送请求解析内容渲染页面查看请求Ajax结果提取爬取一个人微博的前面10页分析过程Python代码实现from urllib.parse import urlencodeimport requests# 对https://m.weibo.cn/u/2830678474网页审查分析base_url = 'https://m.原创 2020-08-18 09:53:16 · 693 阅读 · 0 评论 -
Python-操作-MongoDB-数据库
MongoDB是一个存储文档型的数据库(非关系型数据库)利用pymongo连接MongoDBimport pymongoclient = pymongo.MongoClient(host='localhost', port=27017)# 或 pymongo.MongoClient('mongodb://localhost:23017/')# 默认端口为:27017指定数据库# 指定操作test数据库db = client.test 或 db = client['test']指定集合原创 2020-08-18 09:52:13 · 266 阅读 · 0 评论 -
Python-操作-MySQL-数据库
利用PyMySQL连接MySQL连接数据库import pymysql# 连接MySQL MySQL在本地运行 用户名为root 密码为123456 默认端口3306db = pymysql.connect(host='localhost', user='root', password='123456', port=3306)# cursor()方法获得MySQL的操作游标,利用游标来执行SQL语句,其中执行方法为execute()curs原创 2020-08-18 09:51:02 · 194 阅读 · 0 评论 -
爬虫数据存储之文件存储
TXT 文件存储爬取知乎上的热门话题,获取话题的问题、作者、答案,然后保存在TXT文本中import requestsfrom pyquery import PyQueryurl = 'https://www.zhihu.com/explore'headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) '原创 2020-08-17 10:57:37 · 640 阅读 · 0 评论 -
pyquery-的简单使用
pyquery 的初步了解(实例引入)简单举例from pyquery import PyQuery as pqhtml = '''<div><ul><li class="item-O"><a href="linkl.html">first item</a></li><li class="item-1"><a href="link2.html">second item</a></原创 2020-08-17 10:56:48 · 195 阅读 · 0 评论 -
爬虫基本库的使用之urllib库
urllib的简单使用urllib模块是Python内置的HTTP请求模块urllib包含模块:request模块、error模块、parse模块、robotparser模块例子举例1:向指定的url发送请求,并返回服务器响应的类文件对象response = urllib.request.urlopen('https://www.python.org')读取文件全部内容html = response.read()将其他编码的字符串转换成unicode编码print(htm原创 2020-08-17 10:54:26 · 261 阅读 · 0 评论 -
爬虫基本库的使用之requests库
使用requests由于处理网页验证和Cookies时,需要写Opener和Handler来处理,为了更方便地实现这些操作,就有了更强大的库requests。requests库功能很强大。能实现Cookies、登录验证、代理设置等操作。简单使用requests库import requestsr = requests.get('http://wwww.baidu.com/')print(type(r), r.status_code, r.text, r.cookies, sep='\n\n')G原创 2020-08-17 10:53:07 · 269 阅读 · 0 评论 -
正则表达式和python中的re模块
常用的正则匹配规则元字符量词字符组字符集转义符贪婪匹配re模块使用正则表达式举例:判断一个手机号码是否合法不使用正则表达式# 不使用正则表达式phone_number = input("请输入一个11位数导入手机号码 :")if len(phone_number) == 11 \ and phone_number.isdigit() \ and (phone_number.startswith('13') o原创 2020-08-17 10:50:14 · 281 阅读 · 0 评论 -
XPath-的简单使用
XPathXPath是一门在XML文档中查找信息的语言,它提供了非常简洁明了的路径选择表达式。表达式描 述nodename选取此节点的所有子节点/从当前节点选取直接子节点//从当前节点选取子孙节点.选取当前节点…选取当前节点的父节点@选取属性举例1://title[@lang='eng'] 它代表选择所有名称为title,同时属性lang的值为eng的节点举例2:处理HTML文本from lxml import etre原创 2020-08-17 10:48:06 · 213 阅读 · 0 评论 -
网络爬虫基础
HTTP基本原理URI全称UniformResource Identifier,即统一资源标志符,用来唯一的标识一个资源。URLUniversal Resource Locator,统一资源定位符。它是一种具体的URI,即URL可以用来标识一个资源,而且还指明了如何locate这个资源Hypertext网页源代码是一系列 HTML 代码,里面包含了一系列标签,如 img 显示图片,p 指定显示段落等,浏览器解析这些标签后便形成了我们平常看到的网页,而这网页的源代码HTML 就可以称作超文本(Hy原创 2020-08-17 10:44:57 · 216 阅读 · 0 评论 -
BeautifulSoup 的简单使用
Beautiful Soup初了解解析工具Beautiful Soup,借助网页的结构和属性等特性来解析网页(简单的说就是python的一个HTML或XML的解析库)Beautiful Soup支持的解析器解析器使用方法优势劣势Python标准库BeautifulSoup(markup, " html. parser ")Python 的内 宜标准库、执行速度适中、文档容错能力强Python 2.7.3及 Python3.2.2 之前的版本文档容错能力差原创 2020-08-17 10:42:11 · 387 阅读 · 0 评论