import requests, re, json, pymongo, os from urllib.parse import urlencode # 引入md5加密函数 from hashlib import md5 # 引入多进程模块中的进程池 from multiprocessing import Pool # os: 用来操作本地文件或文件夹的模块。 # json: 用来解析json数据的模块 # NoSQL中的数据库和表不需要提前创建,只需要配置会自动创建。 MONGO_HOST = 'localhost' MONGO_DB = 'jiepai' MONGO_TABLE = 'jiepai' class JiePaiSpider(object): def __init__(self): self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0' } # 创建数据库的连接客户端 self.client = pymongo.MongoClient(MONGO_HOST) # 根据客户端对象,连接数据库 self.db = self.client[MONGO_DB] def get_page_list(self, offset): """ 获取列表页源码 :param offset: 数据返回的偏移量 第一页:0 第二页:20 :return
使用python爬取今日头条
最新推荐文章于 2024-06-23 10:48:17 发布