深度学习的模型训练中,数据的收集十分重要,取得足够的数据集对于最终模型的表现有十分重要的意义。但是开源的数据集都指定了特定的目标进行标注,如行人,车辆。当要训练自己所需要的特定检测模型,却又没有开源数据集的时候,就需要自己去收集和标注图像数据用于训练了。
1.数据收集
目前主要通过从百度图片上爬图片来进行数据收集,爬虫脚本如下:
#-*- coding:utf-8 -*-
import re
import requests
import sys,os
type=sys.getfilesystemencoding()
def dowmloadPic(html,keyword , i ):
pic_url = re.findall('"objURL":"(.*?)",',html,re.S)
print '找到关键词:'+keyword+'的图片,现在开始下载图片...'
for each in pic_url:
print u'正在下载第'+str(i+1)+u'张图片,图片地址:'+str(each)
try:
pic= requests.get(each, timeout=50