其实很早就想知道如何将爬取到的数据存入数据库,并且实现前后台的交互功能,昨天刚刚看了一集关于爬数据并存数据的视频,今天,在这里总结一下~
以下为最终所需要爬取的信息:
由于需要爬取所有的二手商品信息,所以以下内容也要爬取到:
1.先写一个py文件,用于爬取上述图片类目导航的各个链接:
#-*-coding:utf-8-*-
from bs4 import BeautifulSoup
import requests
start_url = 'http://bj.58.com/sale.shtml'
url_host = 'http://bj.58.com'
def get_channel_urls(url):
wb_data = requests.get(start_url)
soup = BeautifulSoup(wb_data