DrissionPage拽神知网PDF论文下载辅助

原创

已于 2024-04-02 22:50:43 修改 · 1.2k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#目标检测

于 2024-04-02 22:49:41 首次发布

本文介绍了如何使用Drission的ChromiumPage和ChromiumOptions进行网页自动化操作，包括设置本地端口、填写搜索参数并抓取数据，同时处理滑动验证和PDF下载。

from DrissionPage import ChromiumPage, ChromiumOptions
co = ChromiumOptions().set_local_port(9222)
page = ChromiumPage(addr_or_opts=co)
from DrissionPage.common import Settings
Settings.singleton_tab_obj = True

def log():
    zhuti1 = '经营者'
    zhuti2 = '民宿经营者'
    page.get('https://kns.cnki.net/kns/advsearch?dbcode=CJZK')
    page.set.window.max()
    page.ele('#txt_1_value1').input(zhuti1)
    page.ele('x:/html/body/div[2]/div[3]/div[3]/div[2]/div[1]/div[2]/span[2]/select[2]').click(by_js=True)
    page.ele('text=或含').click(by_js=True)
    page.ele('#txt_1_value2').input(zhuti2)
    page.ele('#startYear').click(by_js=True)
    page.ele('x://*[@id="startYear"]/option[5]').click(by_js=True)
    page.ele('#endYear').click(by_js=True)
    page.ele('x://*[@id="endYear"]/option[3]').click(by_js=True)
    page.ele('#SCI').click(by_js=True)
    page.ele('#CSSCI').click(by_js=True)
    page.ele('.search').click(by_js=True)
    page.wait.load_start()  # 等待页面进入加载状态
    page.ele('tx=经营者').

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zchuanj

关注关注

11
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

爬虫神器之DrissionPage(快速采集数据)

我不是码农的博客~~~

02-29

2481

【代码】爬虫神器之DrissionPage(快速采集数据)

爬虫自动化（DrissionPage）

eqwaak0的博客

12-23

3808

dDrissionPage官网✨️ 概述来自官网的介绍：DrissionPage® 是一个基于 Python 的网页自动化工具。既能控制浏览器，也能收发数据包，还能把两者合而为一。下载DrissionPage,还是我们熟悉的pip：操作系统：Windows，Linux，Macpython版本：3.6及以上浏览器：Chromium内核。

1 条评论您还未登录，请先登录后发表或查看评论

python爬虫自动库DrissionPage保存网页快照mhtml/pdf/全局截图/打印机另存pdf

十一姐的博客

11-08

1936

三种保存快照的方法，分别是保存pdf、保存mhtml文件、保存全局截图，具体看网页加载情况可以设置滚动到底部再进行如下操作等

DrissionPage下载文件

最新发布

得塔云的博客

10-15

338

在DrissionPage中实现下载文件重命名的两种方法：1）推荐动态修改download_path为完整路径（含目标文件名），可一步完成下载与重命名；2）备选方案是下载后通过os.rename重命名。关键注意动态命名（如添加时间戳）、路径权限检查，并注意服务器强制命名的特殊情况。方法一更高效，但若响应头强制指定文件名则需采用方法二。（150字）

DrissionPage Web自动化操作集成工具 v4.0.2.zip

03-21

DrissionPage Web自动化操作集成工具 v4.0.2.zip

DrissionPage Web自动化操作集成工具 v3.2.35.zip

03-21

DrissionPage Web自动化操作集成工具 v3.2.35.zip

DrissionPage下载图片示例代码

weixin_45091564的博客

01-07

852

DrissionPage实现翻页爬取并下载图片img.save()和图片字节获取 img.src()方法。

Python自动化测试之 DrissionPage 的下载、安装、基本使用详解

沐枫

03-24

3351

DrissionPage 是一个基于 python 的网页自动化工具。它既能控制浏览器，也能像requests一样收发数据包，更重要的是还能把两者合二为一。因此，简单来说DrissionPage可兼顾浏览器自动化的便利性和 requests 的高效率。

【Python】以PDF格式批量下载网页包含的超链接网页

u011355943的博客

06-11

288

【代码】【Python】以PDF格式批量下载网页包含的超链接网页。

DrissionPage-Python资源

07-05

在这众多资源中，DrissionPage-Python资源作为一个专注于页面解析和数据提取的Python框架，受到了开发者的广泛关注。 DrissionPage框架的开发初衷是为了提供一个轻量级、高效且易于使用的页面解析工具。它基于...

DrissionPage 技术文档

gitblog_01422的博客

08-08

988

DrissionPage 技术文档【免费下载链接】DrissionPage 基于python的网页自动化工具。既能控制浏览器，也能收发数据包。可兼顾浏览器自动化的便利性和requests的高效率。功能强大，内置无数人性化设计和便捷功能。语法简洁而优雅，代码量少。 ...

【DrissionPage】开源下载和安装教程

gitblog_01404的博客

08-19

463

【DrissionPage】开源下载和安装教程【免费下载链接】DrissionPage 基于python的网页自动化工具。既能控制浏览器，也能收发数据包。可兼顾浏览器自动化的便利性和requests的高效率。功能强大，内置无数人性化设计和便捷功能。语法简洁而优雅，代码量少。 ...

基于Python的网页自动化工具DrissionPage设计源码

04-03

DrissionPage是一个功能强大的基于Python的网页自动化工具，它结合了浏览器自动化的便利性和requests库的高效率。项目包含79个文件，主要使用Python和HTML编程语言。它能够控制浏览器并收发数据包，同时提供了丰富的内置功能和人性化的设计，使得自动化任务变得简单而高效。DrissionPage的语法简洁优雅，代码量少，便于学习和使用。

【限时免费】【DrissionPage】开源下载和安装教程

gitblog_01402的博客

08-05

573

Drissionpage采集Boss直聘数据

qq_47459180的博客

04-01

2688

DrissionPage高级技巧：10行代码实现文件自动上传与下载管理

gitblog_00588的博客

09-07

746

你是否还在为文件上传下载的繁琐流程而困扰？传统自动化工具实现上传需要定位元素、处理弹窗，下载则要管理路径、处理重名文件，动辄上百行代码。本文将带你掌握DrissionPage的文件处理黑科技，用10行代码完成从文件选择到断点续传的全流程管理，彻底解决Web自动化中的文件交互痛点。读完本文你将获得： - 3种上传方案的零冗余实现代码 - 下载任务的并发控制与进度监控技巧 - 100%可用的文件路...

告别文件下载重命名烦恼：DrissionPage自动化命名完全指南

gitblog_01425的博客

08-06

317

你是否还在为网页自动化中文件下载的命名问题头疼？当需要批量下载文件时，默认的随机文件名不仅难以管理，还可能导致重复文件覆盖。本文将系统讲解DrissionPage中下载文件重命名的3种核心方法，帮助你实现文件名自定义、重复文件智能处理和批量下载命名自动化，让你的文件管理从此井井有条。读完本文你将学到： - 基础重命名：3行代码实现下载文件即时改名 - 高级命名策略：动态文件名生成与路径规划 -...

告别文件管理噩梦：DrissionPage自动化下载文件的重命名与分类全攻略

gitblog_00897的博客

09-07

845

你是否还在为下载文件杂乱无章而烦恼？手动重命名、分类占用大量时间？本文将带你掌握DrissionPage的文件操作技巧，通过自动化方式轻松解决下载文件的重命名与分类难题。读完本文，你将能够：设置智能下载路径、自定义文件命名规则、自动处理同名文件冲突、实时监控下载进度，以及实现文件的自动分类存储。 ## 下载功能概述 DrissionPage提供了两种强大的下载方式：基于浏览器的下载管理和独立的...

拽神（DrissionPage）使用介绍

weixin_45365693的博客

12-26

2341

拽神（DrissionPage ）多线程、代理、数据监听代码示例。爬虫使用介绍。

DrissionPage 监听获取pdf阅读网页的pdf二进制数据

07-18

### 获取 PDF 阅读网页中的 PDF 二进制数据在 DrissionPage 中，可以通过监听浏览器的下载行为来获取 PDF 文件的二进制数据。当网页中嵌入了 PDF 查看器（如基于浏览器内置 PDF 阅读器或第三方库如 PDF.js）时，PDF 文件通常通过 HTTP 请求加载。通过设置下载路径并监听下载事件，可以捕获该文件并读取其二进制内容[^1]。以下是一个实现方案： ```python from DrissionPage import ChromiumPage, ChromiumOptions import os def on_download_start(download_id, download_url): print(f"开始下载: {download_url}") def on_download_finish(download_id, download_path): print(f"下载完成，文件路径: {download_path}") with open(download_path, 'rb') as f: binary_data = f.read() print(f"文件大小: {len(binary_data)} 字节") # 可在此处对 binary_data 进行处理，如上传、解析等 # 配置 ChromiumOptions co = ChromiumOptions() co.set_argument('--disable-gpu', True) co.set_argument('--no-sandbox', True) # 创建 ChromiumPage 实例 page = ChromiumPage(chromium_options=co) # 设置下载路径为临时目录 temp_dir = os.path.join(os.getcwd(), 'temp_downloads') os.makedirs(temp_dir, exist_ok=True) page.set.download_path(temp_dir) # 设置下载监听回调 page.set.on.download_start(on_download_start) page.set.on.download_finish(on_download_finish) # 打开包含 PDF 的网页 page.get('https://example.com/viewer.html?file=document.pdf') # 触发 PDF 加载行为（如点击下载按钮） page.ele('xpath://button[@id="downloadPDF"]').click() ``` 上述代码通过设置下载监听器，在 PDF 文件下载完成后读取其内容为二进制流。此方法适用于 PDF 文件通过标准 HTTP 下载机制加载的场景。对于使用 PDF.js 或其他 JavaScript 渲染的 PDF 内容，如果未触发实际文件下载行为，则需结合页面资源监听或 WebSocket 抓取数据流进行进一步处理[^1]。 --- ###