
python爬虫
qq_36606793
这个作者很懒,什么都没留下…
展开
-
python爬虫: 爬取boss网站数据 保存到mysql
爬取boss数据并保存到mysqlboss的反爬虫控制尤其恶心 cookies大概用3次左右就不能用了所以爬取不了太多东西 只可用来学习等学习完逆向爬虫课程 再来挑战挑战example.pyimport scrapyfrom bs4 import BeautifulSoupfrom boos_scrapy.items import BoosScrapyItemfrom time import sleepclass ExampleSpider(scrapy.Spider): n原创 2021-04-16 16:34:31 · 673 阅读 · 0 评论 -
python爬虫: 制作全球疫情分布图
import requestsfrom jsonpath import parsefrom pyecharts.charts import Map,Geofrom pyecharts import options as optsheaders = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Sa原创 2021-04-15 14:40:31 · 734 阅读 · 0 评论 -
python jsonpath的使用
在网上找jsonpath的教程都是用from jsonpath import jsonpath 但是按教程使用 会报错没有这个模块通过jsonpathe模块调用parse可运行 但是无法写入表达式查询from jsonpath import parseresponse =requests.post(url=url,headers=headers)order = response.json()name = parse("$..name").find(order)confirm = pa原创 2021-04-15 14:02:24 · 395 阅读 · 0 评论 -
python爬虫:爬取多页斗鱼颜值图片 并且下载到本地
项目结构main.py运行scrapyfrom scrapy import cmdlinecmdline.execute("scrapy crawl douyu_scrapy".split())douyu_scrapy.py爬虫代码import scrapyimport jsonfrom douyu.items import DouyuItemclass DouyuScrapySpider(scrapy.Spider): name = 'douyu_scrapy'原创 2021-04-15 11:03:13 · 294 阅读 · 0 评论 -
python爬虫:基于Scrapy的淘宝登陆后实现数据爬取并保存到Mysql
main.py#整个scrapy项目可以直接右键main.py运行,不用到命令行输入命令启动。from scrapy import cmdlinecmdline.execute("scrapy crawl taobaobao".split())taobaobao.pyscrapy代码import scrapyfrom selenium import webdriverfrom time import sleepfrom docs.conf import username,passwor.原创 2021-04-14 17:55:49 · 1812 阅读 · 4 评论 -
淘宝网登录滑动验证报错解决办法--改参数 让淘宝检测失败 2021-4
使用selenium打开淘宝网的时候,淘宝网通过检测navigator的值检测你是否使用了自动化脚本,此时需要在页面上按F12,在console中输入window.navigator.webdriver,显示的值为true,则表示被检测到了,这样无论你怎么去滑滑块,都会显示出错。显示的值为undefined,则表示没有被检测到,此时就需要修改navigator的值 options = webdriver.ChromeOptions() options.add_argument("--disable-bl原创 2021-04-14 15:57:24 · 15016 阅读 · 6 评论 -
学习scrapy笔记
scrapy框架- 什么是框架? - 就是一个集成了很多功能并且具有很强通用性的一个项目模板。- scrapy框架的基本使用 - 环境的安装: - mac or linux:pip install scrapy - windows: - pip install wheel - 安装twisted: pip install Twisted -i http://pypi.doubanio.com/simple原创 2021-02-24 15:08:22 · 132 阅读 · 1 评论 -
selenium模拟用户登录12306 实例
#!/usr/bin/env python# coding:utf-8import requestsfrom hashlib import md5class Chaojiying_Client(object): def __init__(self, username, password, soft_id): self.username = username password = password.encode('utf8') self.原创 2021-02-10 10:40:43 · 253 阅读 · 1 评论 -
selenium规避检测
chrome 79以前版本from selenuim import webdriverfrom selenium.webdriver import ChromeOptionsoption = ChromeOptions()option.add_experimental_option('excludeSwitches',['enable-automation'])driver = webdriver.Chrome(options=option)chrome 79以后版本from selenui原创 2021-02-09 23:09:01 · 470 阅读 · 0 评论 -
selenium 处理iframe和动作链
-selenium 处理iframe -如果定位的标签存在iframe标签之中,则必须使用switch_to.frame(id) -动作链(拖动)from selenium import ActionChains -实例化一个动作链对象 action =ActionChains(bro) -click_and_hold(div) 长按且点击 -move_by_offset(x,y) 移动x,y方向 -perform() 让动作链立即执行 -action.原创 2021-02-09 23:06:04 · 162 阅读 · 0 评论 -
aiohttp实现多任务异步协程 简单实例
import timeimport asyncioimport aiohttpstat = time.time()urls = ['http://127.0.0.1:5000/bobo', 'http://127.0.0.1:5000/jay', 'http://127.0.0.1:5000/ja']async def get_page(url): async with aiohttp.ClientSession() as session:原创 2021-02-08 10:39:11 · 288 阅读 · 1 评论 -
python爬虫 循环爬取多页图片 并下载以图片名称保存
import requests,os,timefrom lxml import etreedef handle_request(url, page): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36' } # 由于第一页和后面页码规律不一原创 2021-01-21 21:46:53 · 1327 阅读 · 0 评论 -
爬取4K美女照片到本地持久化保存
import requests,osfrom lxml import etreeurl = 'http://pic.netbian.com/4kmeinv/'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}meinu = requests.get(url=url原创 2021-01-20 22:10:29 · 426 阅读 · 0 评论 -
python+requests——响应内容以及设置编码格式
响应内容我们能读取服务器响应的内容。再次以 GitHub 时间线为例: import requests r = requests.get('https://api.github.com/events') r.textu'[{"repository":{"open_issues":0,"url":"https://github.com/...Requests 会自动解码来自服务器的内容。大多数 unicode 字符集都能被无缝地解码。请求发出后,Requests 会基于 HTTP 头部对响应的转载 2021-01-23 21:06:21 · 8278 阅读 · 0 评论 -
lxml 无法导入 etree
使用pycharm 下载 lxml 一直无法调入 etree模块解决办法: 卸载pycharm 安装的lxml 使用命令行 重新安装lxml原创 2021-01-20 10:17:06 · 665 阅读 · 0 评论 -
xpath 表达式基础
原创 2021-01-20 10:15:44 · 111 阅读 · 0 评论 -
解决lxml报错 : lxml.etree.XMLSyntaxError
使用pycharm 下载 lxml 一直无法调入 etree模块解决办法: 卸载pycharm 安装的lxml 使用命令行 重新安装lxml原创 2021-01-20 10:13:13 · 1265 阅读 · 2 评论 -
使用BS4 循环读取三国章节和内容 并使用章节名创建文件夹 持久化存储章节内容
from bs4import BeautifulSoupimport requests,osif __name__ =='__main__':if not os.path.exists('./三国'):os.mkdir('./三国')url ='https://www.xingyueboke.com/sanguoyanyi/'headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36原创 2021-01-20 10:10:26 · 175 阅读 · 1 评论