Python爬虫爬取太平洋汽车网的汽车信息，将信息存进MongoDB数据库

最新推荐文章于 2020-12-16 00:36:53 发布

New_boy25

最新推荐文章于 2020-12-16 00:36:53 发布

阅读量2k

点赞数

分类专栏： Python 文章标签：爬虫 requests mongodb pymongo queue

本文链接：https://blog.youkuaiyun.com/New_boy25/article/details/101795114

版权

该博客介绍了使用Python爬虫爬取太平洋汽车网的数据，通过requests获取网页响应，利用lxml进行XPath解析，然后将解析结果存入MongoDB的数据库中，涉及模块包括requests、threading、lxml、queue和pymongo。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本次代码用于练习爬虫的基本步骤，并且添加了与mongoDB数据库的交互

导入的模块：requests、threading、lxml、queue、pymongo

代码思路：

生成url列表
请求url，获取响应。
用xpath解析响应中的li元素（指定ul下的）
遍历包含li元素的列表，再次用xpath解析得到所有文本，将所需的文本放进字典中。
把所有字典放进一个列表，实例化MongoClient对象，在"test_db"数据库下创建"auto_info"集合，将包含汽车信息的列表添加到集合。

# conding=utf-8

import requests
import threading
from lxml import etree
from queue import Queue
from pymongo import MongoClient


class AutoSpider(object):
    def __init__(self):
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) "
                          "Chrome/65.0.3325.181 Safari/537.36"}
        self.url_list = [