新浪微博手机端地址 https://m.weibo.cn
我要爬取微博名为[“锦鲤大王”]的2019全部微博
登录微博手机端找到需要的信息
找到Request URL
找到user agent 和 cookie
每条微博的具体信息都存放在这里
之后根据上面的信息写爬虫代码,我的爬虫代码很粗糙,没有进一步完善,只是给需要的小伙伴提供一个思路
import requests
import csv
import time
import random
import json
def spider(page_num):
main_url = "https://m.weibo.cn/api/container/getIndex?uid=3641513235&luicode=10000011&" \
"lfid=231093_-_selffollowed&type=uid&value=3641513235&containerid=1076033641513235"
# main_url为要爬取博主的主页地址
if page_num:
main_url = main_url + '&page=' + str(page_num)
# 微博的分页机制是每页10条微博
header = {
"user-agent": "Mozilla / 5.0(X11; Linux x86_64) AppleWebKit / 537.36(KHTML, likeGecko) "
"Chrome / 77.0.3865.120Safari / 537.36",
} # 设置请求头
cookie = {
'cookies': "输入自己微博的cookie"