python爬虫第一爬--微博大V

本文详细介绍了如何通过Python的weiboSpider项目,从GitHub下载代码,安装依赖,配置cookie,设置爬取参数,以及执行脚本来爬取微博数据的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、安装Git 

2、下载项目

进入下方的网址,点击Download ZIP下载项目文件

github.com

用Git命令下载 git clone https://github.com/dataabc/weiboSpider.git

3、安装项目依赖

将该项目压缩包解压后,打开你的cmd/Termianl进入该项目目录,输入以下命令:

pip install -r requirements.txt

便会开始安装项目依赖,等待其安装完成即可。

4. 登录微博

Python 超简单爬取新浪微博数据 (高级版) - 知乎 (zhihu.com)

 打开weibospider文件夹下的weibospider.py文件,将"your cookie"替换成爬虫微博的cookie,具体替换位置大约在weibospider.py文件的22行左右。cookie获取方法:

 

5、设置要爬取的user_id

打开config.json文件,进行修改:

{
    "user_id_list": "user_id_list.txt",
    "only_crawl_original": 1,
    "since_date": 10,
    "start_page": 1,
    "write_mode": [
        "csv"
    ],
    "original_pic_download": 1,
    "retweet_pic_download": 0,
    "original_video_download": 1,
    "retweet_video_download": 0,
    "download_comment": 1,
    "comment_max_download_count": 1000,
    "download_repost": 1,
    "repost_max_download_count": 1000,
    "user_id_as_folder_name": 0,
    "remove_html_tag": 1,
    "cookie": "your cookie",
    "mysql_config": {
        "host": "localhost",
        "port": 3306,
        "user": "root",
        "password": "123456",
        "charset": "utf8mb4"
    },
    "mongodb_URI": "mongodb://[username:password@]host[:port][/[defaultauthdb][?options]]"
}

 6、执行脚本

爬到的结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zero2100

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值