使用python爬取今日头条

import requests, re, json, pymongo, os
from urllib.parse import urlencode
# 引入md5加密函数
from hashlib import md5
# 引入多进程模块中的进程池
from multiprocessing import Pool

# os: 用来操作本地文件或文件夹的模块。
# json: 用来解析json数据的模块

# NoSQL中的数据库和表不需要提前创建,只需要配置会自动创建。

MONGO_HOST = 'localhost'
MONGO_DB = 'jiepai'
MONGO_TABLE = 'jiepai'


class JiePaiSpider(object):
    def __init__(self):
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0'
        }
        # 创建数据库的连接客户端
        self.client = pymongo.MongoClient(MONGO_HOST)
        # 根据客户端对象,连接数据库
        self.db = self.client[MONGO_DB]

    def get_page_list(self, offset):
        """
        获取列表页源码
        :param offset: 数据返回的偏移量 第一页:0 第二页:20
        :return
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值