爬取微博用户ID和评论

部署运行你感兴趣的模型镜像


本代码简单爬取了鹿晗微博下的评论:

def weibo(ID,Pages):


ii=0
while ii<50:
ii=ii+1
url='https://m.weibo.cn/api/comments/show?id='+str(ID)+'&page='+str(ii)
html=requests.get(url)
#header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
html.encoding='gbk'
print(html.status_code)


# NO 1
for m in range(len(html.json()['data']['data'])):


data=str(html.json()['data']['data'][m]['id'])
with open(r'C:\python\project\test.txt','a') as f:
f.write(data+'\n')

#print(html.json()['data']['data'][0]['text'])


#NO 2
#data=list(map(lambda m:html.json()['data']['data'][m]['id'],range(len(html.json()['data']['data']))))
#print(data)


weibo(4200140066235987,50)


您可能感兴趣的与本文相关的镜像

Python3.9

Python3.9

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

### 使用 Safari 浏览器爬取微博帖子评论数据的方法 对于使用Safari浏览器来准备爬取微博帖子评论的数据,前期准备工作涉及利用浏览器开发者工具定位所需的具体参数[^1]。具体而言,在Safari浏览器中打开微博页面后,可以通过按`Command + Option + I`快捷键启动开发者工具。 在开发者工具的“网络”标签页下监控HTTP请求,当浏览到感兴趣的微博帖子或加载更多评论时,注意观察新产生的POST或GET请求。这些请求通常携带了访问特定资源所需的参数,例如`params`字段可能包含了识别帖子的信息以及分页控制等细节。 由于微博网站采用了动态加载的方式呈现内容,直接解析HTML源码难以获得完整的帖子评论列表。因此,更有效率的做法是从Ajax接口处拦截JSON格式的数据流。这不仅限于普通的网页抓取行为;实际上,这也属于Web爬虫技术的一部分,即通过分析目标网页结构及其交互逻辑,从而实现高效的数据收集过程[^2]。 值得注意的是,在正式实施数据采集前,往往还需要模拟登录操作以获取必要的Cookies认证信息。这是因为许多社交平台会验证用户的登录状态才能显示完整的内容。针对微博来说,可以先手动完成一次登录流程,接着从响应头里提取出包含Session ID在内的Cookie字符串保存下来供后续API调用时附加使用[^3]。 最后提醒一点,即使掌握了上述技巧也不意味着可以直接无限制地进行大规模数据挖掘活动。应当遵循各服务提供商的服务条款,并考虑个人隐私保护等问题。此外,频繁请求可能会触发反机制导致IP被封禁,故建议合理设置延时间隔并采取适当措施降低风险。 ```python import requests headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Safari/605.1.15', 'Cookie': 'your_saved_cookies_here' } def fetch_weibo_data(url): response = requests.get(url, headers=headers) if response.status_code == 200: return response.json() else: raise Exception(f"Failed to load page {url}") # Example usage of the function with a hypothetical API endpoint. data = fetch_weibo_data('https://api.weibo.com/some_endpoint') print(data) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值