任务:需要获取广告用户候选的数据集
实现思路:
1.在微博话题中筛选含广告用户较多的话题
2.使用python爬虫技术获取话题用户账号
3.获取用户行为信息,并进行手工标注
1.筛选广告话题
通过对微博的使用,发现购物分享类话题广告用户较多
话题链接如下:https://weibo.com/p/100808ad1339d43994fdc06618aa28e5ec38f1/super_index
2.获取广告用户
通过对网页结构分析可知
每一页加载时初始加载一次,动态加载两次
动态加载时调用ajax进行加载,主要参数如下
pagebar:为动态加载时参数(0或1)
page:当前页数
pre_page:和当前页数值相同
current_page:当前的块页,第一页动态加载的第一块值为1,第二块为2;第二页动态加载的第一块值为4,第二块值为5
since_id:不知道什么id含义,但可以通过上面网页正则提取获得