python爬虫第一爬--微博大V

使用Python爬取微博数据：步骤详解,

最新推荐文章于 2025-04-13 21:07:45 发布

原创最新推荐文章于 2025-04-13 21:07:45 发布 · 481 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #开发语言

python 专栏收录该内容

5 篇文章

订阅专栏

本文详细介绍了如何通过Python的weiboSpider项目，从GitHub下载代码，安装依赖，配置cookie，设置爬取参数，以及执行脚本来爬取微博数据的过程。

部署运行你感兴趣的模型镜像

1、安装Git

2、下载项目

进入下方的网址，点击Download ZIP下载项目文件

github.com

用Git命令下载 git clone https://github.com/dataabc/weiboSpider.git

3、安装项目依赖

将该项目压缩包解压后，打开你的cmd/Termianl进入该项目目录，输入以下命令：

pip install -r requirements.txt

便会开始安装项目依赖，等待其安装完成即可。

4. 登录微博

Python 超简单爬取新浪微博数据 (高级版) - 知乎 (zhihu.com)

打开weibospider文件夹下的weibospider.py文件，将"your cookie"替换成爬虫微博的cookie，具体替换位置大约在weibospider.py文件的22行左右。cookie获取方法：

5、设置要爬取的user_id

打开config.json文件，进行修改：

{
    "user_id_list": "user_id_list.txt",
    "only_crawl_original": 1,
    "since_date": 10,
    "start_page": 1,
    "write_mode": [
        "csv"
    ],
    "original_pic_download": 1,
    "retweet_pic_download": 0,
    "original_video_download": 1,
    "retweet_video_download": 0,
    "download_comment": 1,
    "comment_max_download_count": 1000,
    "download_repost": 1,
    "repost_max_download_count": 1000,
    "user_id_as_folder_name": 0,
    "remove_html_tag": 1,
    "cookie": "your cookie",
    "mysql_config": {
        "host": "localhost",
        "port": 3306,
        "user": "root",
        "password": "123456",
        "charset": "utf8mb4"
    },
    "mongodb_URI": "mongodb://[username:password@]host[:port][/[defaultauthdb][?options]]"
}