微博数据处理——获取广告用户数据集(三)

任务:需要获取广告用户候选的数据集

实现思路:

1.在微博话题中筛选含广告用户较多的话题

2.使用python爬虫技术获取话题用户账号

3.获取用户行为信息,并进行手工标注

1.筛选广告话题

通过对微博的使用,发现购物分享类话题广告用户较多

话题链接如下:https://weibo.com/p/100808ad1339d43994fdc06618aa28e5ec38f1/super_index

2.获取广告用户

通过对网页结构分析可知

每一页加载时初始加载一次,动态加载两次

动态加载时调用ajax进行加载,主要参数如下

pagebar:为动态加载时参数(0或1)

page:当前页数

pre_page:和当前页数值相同

current_page:当前的块页,第一页动态加载的第一块值为1,第二块为2;第二页动态加载的第一块值为4,第二块值为5

since_id:不知道什么id含义,但可以通过上面网页正则提取获得

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值