在进行人脸相关处理中,人脸数据集是关键,这里描述一下怎样爬取人脸数据集
1、获取艺人名称
① 获取完整url路径
在百度中搜索“中国艺人”
得到以下界面
通过分析,url的完整路径为:
"https://sp0.baidu.com/8aQDcjqpAAV3otqbppnN2DJv/api.php?resource_id=28266&from_mid=500&format=json&ie=utf-8&oe=utf-8&query=%E4%B8%AD%E5%9B%BD%E8%89%BA%E4%BA%BA&sort_key=&sort_type=1&stat0=&stat1=&stat2=&stat3=&pn="+pn+"&rn=100&_=1580457480665"
其中,pn为页码数。
② 解析全部艺人名称列表
解析上述url,通过requests获取网页内容,然后解析艺人姓名
def get_person_name():
person_list = []
pn_i=0
while(True):
pn=str(pn_i)
pn_i+=100