只需几步即可实现Python对新浪微博手机端的爬虫

最新推荐文章于 2022-07-11 07:35:00 发布

见君不喜

最新推荐文章于 2022-07-11 07:35:00 发布

阅读量2.9k

点赞数

文章标签：微博爬虫 python爬虫爬虫微博手机端爬虫

本文链接：https://blog.youkuaiyun.com/qq_45703548/article/details/102984102

版权

本文介绍了如何使用Python实现对微博手机端的爬虫，以获取名为'锦鲤大王'的2019年全部微博。通过分析登录后的Request URL、User Agent和Cookie，构建爬虫代码，尽管代码简单未做优化，但为读者提供了一个爬取微博数据的基本思路。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

新浪微博手机端地址 https://m.weibo.cn

我要爬取微博名为[“锦鲤大王”]的2019全部微博

登录微博手机端找到需要的信息

找到Request URL
在这里插入图片描述
找到user agent 和 cookie

在这里插入图片描述
每条微博的具体信息都存放在这里

在这里插入图片描述

之后根据上面的信息写爬虫代码，我的爬虫代码很粗糙，没有进一步完善，只是给需要的小伙伴提供一个思路

import requests
import csv
import time
import random
import json


def spider(page_num):
    main_url = "https://m.weibo.cn/api/container/getIndex?uid=3641513235&luicode=10000011&" \
               "lfid=231093_-_selffollowed&type=uid&value=3641513235&containerid=1076033641513235"  
    # main_url为要爬取博主的主页地址
    
    if page_num:
        main_url = main_url + '&page=' + str(page_num)
    # 微博的分页机制是每页10条微博
    
    header = {
   
        "user-agent": "Mozilla / 5.0(X11; Linux x86_64) AppleWebKit / 537.36(KHTML, likeGecko) "
                      "Chrome / 77.0.3865.120Safari / 537.36",
    }   # 设置请求头
    
    cookie = {
   
        'cookies': "输入自己微博的cookie"