python爬取搜狐新闻网站所有新闻的标题和正文并按阅读量排行输出

本文介绍了如何使用Python进行网络爬虫,通过selenium库抓取搜狐新闻网站的所有新闻标题和正文,并利用mongodb存储数据。之后,对抓取的数据按阅读量进行排序,展示了具体的实现步骤和关键代码片段。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

# _*_ coding: utf-8 _*_
"""实现定量爬取搜狐网站新闻
Author:   HIKARI
Version:  V 0.2
"""
from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
import time
from pyquery import PyQuery as pq
import pymongo
from bs4 import BeautifulSoup
import pandas as pd

'新闻url列表'
url_list = []
'新闻url总数'
num = 0
'新闻标题数量'
name_n = 0

MONGO_URL = 'localhost'
'新闻标题列表'
title_list = []
'阅读量列表'
reading_list = []
'存储阅读量切割后的字符'
list_cut = []
list_num =[]
'标题与阅读量'
rank = {
   }

"打开搜狐新闻网站后,获取所有板块下的url,在新窗口中爬取其中的标题和正文信息以及阅读量,并实现存储"

'存储到mongodb'
def save_mongo(article):
    MONGO_DB = 'souhu_news'
    MONGO_COLLECTION = 'news'
    client = pymongo.MongoClient(MONGO_URL)
    db = client[MONGO_DB]
    try:
        if db[MONGO_COLLECTION].insert_one(article):
            print("存储成功")
    except Exception:
        print("存储失败")



'根据阅读量排名输出新闻标题'
def reading_rank(max):
    global rank
    global reading_list
    global title_list
    global list_cut
    for i in range
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值