小红书笔记API全解析

原创于 2025-10-08 15:56:26 发布 · 537 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#笔记 #csdn

小红书笔记详情接口解析

小红书开放平台提供了获取笔记详情的API接口，开发者可以通过该接口获取笔记的标题、内容、图片、视频、点赞数、评论数等详细信息。接口通常返回JSON格式数据，包含笔记的基础信息和用户交互数据。

接口基础调用方式示例（Python）：

import requests

def get_note_detail(note_id, access_token):
    url = f"https://open.xiaohongshu.com/api/note/detail?note_id={note_id}"
    headers = {"Authorization": f"Bearer {access_token}"}
    response = requests.get(url, headers=headers)
    return response.json()

内容数据提取方法

笔记内容通常包含富文本元素，需要特殊处理HTML标签和emoji表情。正文文本可能包含话题标签（#话题#）和用户提及（@用户名），这些元素可以通过正则表达式提取：

import re

def extract_mentions(text):
    return re.findall(r'@([\w\u4e00-\u9fa5]+)', text)

def extract_topics(text):
    return re.findall(r'#([^#]+)#', text)

多媒体内容（图片/视频）存储在独立的URL列表中，需要额外处理CDN链接和缩略图规格。典型的多媒体数据结构包含原图和多种尺寸的缩略图。

用户行为数据分析

从接口可以获取笔记的互动指标，包括点赞数、收藏数、评论数和分享数。这些数据可以用于计算内容的传播效率：

def calculate_engagement_rate(note_data):
    likes = note_data['likes']
    comments = note_data['comments']
    collects = note_data['collects']
    views = note_data['views']
    return (likes + comments * 2 + collects * 3) / views * 100

时间序列分析可以揭示内容传播的周期特性，通常结合笔记发布时间和各项指标的增长率进行评估。

数据挖掘应用场景

情感分析模型可以应用于笔记评论数据，识别用户对产品的情感倾向。使用预训练的NLP模型处理评论文本：

from transformers import pipeline

sentiment_analyzer = pipeline("sentiment-analysis")

def analyze_comment_sentiment(comment):
    result = sentiment_analyzer(comment)[0]
    return {'label': result['label'], 'score': result['score']}

关联规则挖掘可以发现商品之间的共现关系，通过分析用户笔记中同时提到的商品组合，识别潜在的搭配销售机会。Apriori算法是常用的关联规则挖掘方法。

反爬策略应对方案

小红书的接口有严格的频率限制，需要合理设置请求间隔。建议采用分布式爬虫架构，配合代理IP池和用户Agent轮换：

import random
import time

def get_random_delay():
    return random.uniform(1, 3)

def get_random_user_agent():
    user_agents = [...]
    return random.choice(user_agents)

登录态维持是关键，需要定期刷新access_token。对于大规模数据采集，建议申请官方数据合作权限而非使用爬虫方式获取。