Weibo Spider
本程序可以连续爬取一个或多个新浪微博用户(如胡歌、迪丽热巴、郭碧婷)的数据,并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据,包括用户信息和微博信息两大类。因为内容太多,这里不再赘述,详细内容见获取到的字段。如果只需要用户信息,可以通过设置实现只爬取微博用户信息的功能。本程序需设置cookie来获取微博访问权限,后面会讲解如何获取cookie。如果不想设置cookie,可以使用免cookie版,二者功能类似。
具体的写入文件类型如下:
写入txt文件(默认)
写入csv文件(默认)
写入json文件(可选)
写入MySQL数据库(可选)
写入MongoDB数据库(可选)
下载用户原创微博中的原始图片(可选)
下载用户转发微博中的原始图片(免cookie版特有)
下载用户原创微博中的视频(可选)
下载用户转发微博中的视频(免cookie版特有)
下载用户原创微博Live Photo中的视频(免cookie版特有)
下载用户转发微博Live Photo中的视频(免cookie版特有)
内容列表
获取到的字段
本部分为爬取到的字段信息说明,为了与免cookie版区分,下面将两者爬取到的信息都列出来。如果是免cookie版所特有的信息,会有免cookie标注,没有标注的为二者共有的信息。
用户信息
用户id:微博用户id,如"1669879400",其实这个字段本来就是已知字段
昵称:用户昵称,如"Dear-迪丽热巴"
性别:微博用户性别
生日:用户出生日期
所在地:用户所在地
学习经历:用户上学时学校的名字和时间
工作经历:用户所属公司名字和时间
阳光信用(免cookie版):用户的阳光信用
微博注册时间(免cookie版):用户微博注册日期
微博数:用户的全部微博数(转发微博+原创微博)
关注数:用户关注的微博数量
粉丝数:用户的粉丝数
简介:用户简介
主页地址(免cookie版):微博移动版主页url
头像url(免cookie版):用户头像url
高清头像url(免cookie版):用户高清头像url
微博等级(免cookie版):用户微博等级
会员等级(免cookie版):微博会员用户等级,普通用户该等级为0
是否认证(免cookie版):用户是否认证&#x