目录
在进行小红书数据采集时,除了提取笔记和评论内容,我们往往还需要获取评论用户的更多信息,比如「小红书号」和「IP 属地」。本篇文章将展示如何利用 Python 异步库 aiohttp,结合 MongoDB,对用户主页进行异步爬取并更新数据。
一、MongoDB 数据结构预设
在数据库 python002 中,我们有一个集合(Collection)名为 xhs_comments,其中每条记录包含了评论和用户主页链接字段,如:
{
"comment": "这个产品真的很好用!",
"user_url": "https://www.xiaohongshu.com/user/profile/65fdxxxxxxx",
"小红书号": "",
"IP属地": ""
}
我们的目标是从每条 user_url 对应的用户主页中补充 小红书号 和 IP属地 两个字段。
二、核心逻辑拆解
1. MongoDB 连接初始化
client = pymongo.MongoClient("mongodb://127.0.0.1:27017")
db = client["python002"]
collection = db["xhs_comments"]
这部分代码连接本地 MongoDB 数据库,并选定目标集合。
2.设置请求头和 Cookie(需替换为你的登录状态)
headers = {
'User-Agent': 'Mozilla/5.0 ... Chrome/115.0 Safari/537.36',
}
cookies = {
'xsecappid': 'xhs-pc-web',
...
}
</

最低0.47元/天 解锁文章
7669

被折叠的 条评论
为什么被折叠?



