【爬虫软件】小红书按关键词批量采集笔记,含笔记正文、转评赞藏等!

一、背景介绍

1.1 爬取目标

熟悉我的小伙伴都了解,我之前开发过2款软件:

【GUI软件】小红书搜索结果批量采集,支持多个关键词同时抓取!
【GUI软件】小红书详情数据批量采集,含笔记内容、转评赞藏等!

现在介绍的这个软件,相当于以上2个软件的结合版,即根据关键词爬取笔记的详情数据。

开发界面软件的目的:方便不懂编程代码的小白用户使用,无需安装python,无需改代码,双击打开即用!

软件界面截图:软件运行界面

爬取结果截图:
结果截图1

1.2 演示视频

软件使用演示:(不懂编程的小白直接看视频,了解软件作用即可,无需看代码

演示视频:

【软件演示】爬小红薯搜索详情软件

1.3 软件亮点说明

几点说明:在这里插入图片描述

二、代码讲解

2.1 爬虫采集-搜索接口

首先,定义接口地址作为请求地址:

# 请求地址
url = 'https://edith.xiaohongshu.com/api/sns/web/v1/search/notes'

2.2 爬虫采集-详情接口

首先,定义接口地址作为请求地址:

# 请求地址
url = 'https://edith.xiaohongshu.com/api/sns/web/v1/feed'

2.3 两接口逻辑同理

定义一个请求头,用于伪造浏览器:

# 请求头
h1 = {
   
	'Accept': 'application/json, text/plain, */*',
	'Accept-Encoding': 'gzip, deflate, br',
	'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
	'Content-Type': 'application/json;charset=UTF-8',
	'Cookie': '换成自己的cookie值',
	'Origin': 'https://www.xiaohongshu.com',
	'Referer': 'https://www.xiaohongshu.com/',
	'Sec-Ch-Ua': '"Microsoft Edge";v="119", "Chromium";v="119", "Not?A_Brand";v="24"',
	'Sec-Ch-Ua-Mobile': '?0',
	'Sec-Ch-Ua-Platform': 
### 小红书数据采集的方法与工具 #### 使用ScrapySharp框架进行小红书视频数据采集 为了应对大数据时代的需求,互联网企业常常依赖于高效的数据采集技术来获取有价值的信息。对于像小红书这样融合了社交和电商平台的应用来说,用户生成的内容(UGC)成为了一个重要的信息源[^1]。 ScrapySharp是一个专为.NET环境设计的网络爬虫库,它能够帮助开发者轻松构建用于抓取网页内容的应用程序。通过该框架可以有效地完成对小红书平台上视频资料以及其他形式UGC内容的自动化收集工作。具体而言,在开发过程中可以通过定义请求参数、解析返回JSON响应以及处理分页逻辑等方式实现对特定类型帖子或用户的深入挖掘。 ```csharp using System; using AngleSharp.Html.Parser; using ScrapySharp.Network; class Program { static void Main(string[] args) { var webClient = new ScrapingBrowser(); WebPage page = webClient.NavigateToPage(new Uri("https://www.xiaohongshu.com/explore")); // 解析页面HTML结构并提取所需信息... } } ``` #### 利用Python编写的小红书爬虫脚本 除了专业的第三方库外,还可以利用Python语言及其强大的生态系统自行创建定制化的解决方案来进行更灵活的操作。例如,有开发者已经完成了基于Python编写的针对小红书平台的通用型爬虫项目,并将其打包成了易于使用的图形界面版本供其他研究者下载使用[^3]。 这类方案通常会涉及到以下几个方面的工作: - **发送HTTP请求**:模拟浏览器行为向服务器发起访问请求; - **解析HTML/XML文档**:运用BeautifulSoup等工具分析目标站点上的DOM树形结构从而定位到感兴趣的部分; - **存储所获资讯**:将最终得到的结果保存下来以便后续加工处理; ```python import requests from bs4 import BeautifulSoup as soup def fetch_data(keyword): url = f"https://edith.xiaohongshu.com/api/sns/web/v2/search/notes?keyword={keyword}" headers = {'User-Agent': 'Mozilla/5.0'} response = requests.get(url, headers=headers).json() notes = [] for item in response['data']['items']: note_info = { "id": item["id"], "title": item["title"] } notes.append(note_info) return notes ``` #### 调用官方提供的API接口服务 最后一种方式则是直接调用由小红书官方所提供的开放API接口。这种方式不仅合法而且稳定可靠,同时也减少了因频繁抓取而导致被封禁的风险。比如在论区加载更多留言时就会触发`https://edith.xiaohongshu.com/api/sns/web/v2/comment/page`这样的RESTful风格URL路径下的GET操作来拉取消费者的反馈意见列表[^4]。 综上所述,无论是采用开源社区贡献出来的现成组件还是自己动手搭建专属系统都可以满足不同层次需求下对于从小红书批量获取公开发布过的图文影音素材的要求。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值