本次代码用于练习爬虫的基本步骤,并且添加了与mongoDB数据库的交互
导入的模块:requests、threading、lxml、queue、pymongo
代码思路:
- 生成url列表
- 请求url,获取响应。
- 用xpath解析响应中的li元素(指定ul下的)
- 遍历包含li元素的列表,再次用xpath解析得到所有文本,将所需的文本放进字典中。
- 把所有字典放进一个列表,实例化MongoClient对象,在"test_db"数据库下创建"auto_info"集合,将包含汽车信息的列表添加到集合。
# conding=utf-8
import requests
import threading
from lxml import etree
from queue import Queue
from pymongo import MongoClient
class AutoSpider(object):
def __init__(self):
self.headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/65.0.3325.181 Safari/537.36"}
self.url_list = [