1、安装Git
2、下载项目
进入下方的网址,点击Download ZIP下载项目文件
用Git命令下载 git clone https://github.com/dataabc/weiboSpider.git
3、安装项目依赖
将该项目压缩包解压后,打开你的cmd/Termianl进入该项目目录,输入以下命令:
pip install -r requirements.txt
便会开始安装项目依赖,等待其安装完成即可。
4. 登录微博
Python 超简单爬取新浪微博数据 (高级版) - 知乎 (zhihu.com)
打开weibospider文件夹下的weibospider.py文件,将"your cookie"替换成爬虫微博的cookie,具体替换位置大约在weibospider.py文件的22行左右。cookie获取方法:
5、设置要爬取的user_id
打开config.json文件,进行修改:
{
"user_id_list": "user_id_list.txt",
"only_crawl_original": 1,
"since_date": 10,
"start_page": 1,
"write_mode": [
"csv"
],
"original_pic_download": 1,
"retweet_pic_download": 0,
"original_video_download": 1,
"retweet_video_download": 0,
"download_comment": 1,
"comment_max_download_count": 1000,
"download_repost": 1,
"repost_max_download_count": 1000,
"user_id_as_folder_name": 0,
"remove_html_tag": 1,
"cookie": "your cookie",
"mysql_config": {
"host": "localhost",
"port": 3306,
"user": "root",
"password": "123456",
"charset": "utf8mb4"
},
"mongodb_URI": "mongodb://[username:password@]host[:port][/[defaultauthdb][?options]]"
}
6、执行脚本
爬到的结果