其实就是缺少了 http那些东西,补全就行,完整的连接
urll = nodeList[i].extract() #拿到得连接没有http
urlll = response.urljoin(urll) #添加http成为一个完整得连接
print("object_url_xpath :" + urlll) # 拿到其中一个链接
yield scrapy.Request(urlll, meta={'item': item}, callback=self.parse, headers=self.headers)
本文介绍了一种在爬虫中处理不完全URL的方法,通过使用response.urljoin()函数将相对路径转换为完整URL,确保链接可以正确访问。
2万+





