python爬取合工大、安大、中科大就业信息网宣讲会信息——requests_html&mongoDB

本文介绍如何使用Python的requests_html库爬取合工大、安大、中科大的就业信息网宣讲会数据,并结合datetime模块判断是否已举办,已举办的不存入MongoDB数据库。通过HTMLSession的find()方法,按标签和class精准提取信息,重点讲解了如何定位和解析HTML中class属性为'panel-body'的div标签内容。
# -*- coding: utf-8 -*-
"""
Created on Fri Apr 27 15:12:18 2018
#python 3.6
"""

from requests_html import HTMLSession
from pymongo import MongoClient
import datetime


def createDB():
    #创建数据库,返回三个集合,分别存放三个网站的数据
    client = MongoClient('localhost',27017)
    db = client.job
    collection_ustc = db.ustc
    collection_hfut = db.hfut
    collection_ahu = db.ahu
    return collection_ustc,collection_hfut,collection_ahu

def store(collection,_id,Theme,HoldDate,VenuesName,Description):
    #将数据存入数据库相应集合
    try:
        data = {"_id":_id,"Theme":Theme,"HoldDate":HoldDate,"VenuesName":VenuesName,"Description":Description}
        collection.save(data)
    except:
        pass

def isFuture(HoldDate,isFuture = False):   
    #判断宣讲会是否结束  
    time1 = datetime.datetime.now().date()
    time2 = HoldDate.date()
    if (time1 - time2).days < 0: 
        isFuture = True
    return isFuture

def get_USTC_Info(col_ustc
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值