python爬虫（2-2）

原创于 2017-02-10 16:43:24 发布 · 366 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

python 专栏收录该内容

10 篇文章

订阅专栏

本文介绍了一种使用Python从58同城网站抓取电子产品分类页面链接的方法，并将这些链接存储到MongoDB数据库中。通过定义函数get_links_from，可以指定频道、页数和销售类型来获取具体页面的数据。

抓取58链接存储到mongo

from bs4 import BeautifulSoup
import  requests
import  time
import  pymongo


client = pymongo.MongoClient('localhost',27017)
ceshi  = client['ceshi']
url_list = ceshi['url_list3']

#spider 1

def get_links_from(channel,pages,who_sells=0):
    list_view = '{}{}/pn{}/'.format(channel, str(who_sells), str(pages))
    wb_data = requests.get(list_view)
    time.sleep(1)
    soup = BeautifulSoup(wb_data.text,'lxml')
    for link in soup.select('td.t a.t'):
        item_link = link.get('href').split('?')[0]
        url_list.insert_one({'url':item_link})
        print(item_link)


get_links_from('http://bj.58.com/diannao/',2)