记录用web scraper爬取裁判文书网的文书列表信息以及批量下载word文书

本文档记录了如何使用Web Scraper爬取裁判文书网的文书列表信息,包括文书标题、文号、日期和摘要,并探讨了如何在Python中模拟鼠标键盘操作批量下载word文书,尽管遇到反爬难题,但通过巧妙配置和自动化工具,实现了高效解决方案。

这个是一位网友在B站交流的一个问题,这里记录一下。

需求

1、爬取的网站地址:http://wenshu.court.gov.cn/website/wenshu/181217BMTKHNT2W0/index.html?pageId=7bcf3b0574e320a487ada1f504759be4&s21=%E8%B5%94%E5%81%BF

2、需要抓取的信息

爬取文书列表内容,报告标题、文号、日期、摘要等等信息。

3、需要抓取多页,比如说前10页。

分析网站的情况

1、抓取的页面翻页的时候,url是不会变的。而在页面的源码当中又找不到内容,说明网页是通过异步加载的。

2、打开F12,就会弹出下面的暂停提示,阻止后续的查看。没事,点击右下角的取消断点,再运行即可。

3、点击“network”,点击网页的第二页,查看请求的数据。

可以看到,是post请求,后面需要有一堆的参数

一般而言,通过这样请求之后,可以获取到真实的json文件,里面就包含了网页中文书的列表当中,然而这次却是不一样,请求得到的居然是加密的信息,还需要

Web Scraper 是一款基于 Chrome 浏览器的页数据抓取工具,以下是使用 Web Scraper 爬取购物变体信息的一般方法: ### 安装 Web Scraper 扩展 首先,打开 Chrome 浏览器,在 Chrome 上应用店中搜索“Web Scraper”,然后将其添加到 Chrome 浏览器中。 ### 创建站点地图 1. 打开要爬取的购物页面,点击浏览器右上角的 Web Scraper 图标,打开 Web Scraper 界面。 2. 在 Web Scraper 界面中,点击“Create new sitemap”创建一个新的站点地图。 3. 为站点地图命名,例如“shopping_variants”,然后点击“Create sitemap”。 ### 定义选择器 1. **页面选择器**: - 在站点地图中,点击“Add new selector”添加一个新的选择器。 - 选择选择器类型为“Element”,用于选择包含变体信息的页面元素。 - 使用鼠标在页上选择包含变体信息的区域,Web Scraper 会自动识别并生成选择器规则。 - 为选择器命名,例如“variant_page”,然后点击“Save selector”。 2. **变体信息选择器**: - 再次点击“Add new selector”,选择选择器类型为“Text”或“Attribute”,具体取决于要提取的变体信息是文本还是属性值。 - 在页上选择具体的变体信息元素,如变体名称、价格、颜色等。 - 为选择器命名,如“variant_name”、“variant_price”等,然后点击“Save selector”。 ### 配置选择器关系 如果变体信息存在嵌套关系,需要配置选择器之间的父子关系。例如,变体信息选择器应该是页面选择器的子选择器,以确保只在包含变体信息的页面区域内提取数据。 ### 运行爬虫 1. 配置完成后,点击 Web Scraper 界面中的“Scrape”按钮开始爬取数据。 2. 在弹出的对话框中,选择要爬取的页面 URL(通常是当前打开的购物页面),然后点击“Start scraping”。 3. Web Scraper 会自动遍历页面,按照定义的选择器规则提取变体信息。 ### 导出数据 爬取完成后,点击“Export data as CSV”将提取的变体信息导出为 CSV 文件,方便后续分析和处理。 以下是一个简单的示例代码,展示如何使用 Web Scraper 爬取购物变体信息: ```python # 这里只是示意,Web Scraper 主要在浏览器扩展中操作,并非使用 Python 代码 # 假设已经使用 Web Scraper 导出了 CSV 文件 import pandas as pd # 读取导出的 CSV 文件 data = pd.read_csv('shopping_variants.csv') print(data) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值