爬虫 + 存储 + 数据分析_nosql数据库爬虫-优快云博客

本文链接：https://blog.youkuaiyun.com/2301_81088707/article/details/139706900

一、实验目标

本实验旨在通过构建一个简单的爬虫系统，将爬取的数据存储到NoSQL数据库中，并对数据进行处理和分析。我们将使用Python作为开发语言，requests库进行网络请求，BeautifulSoup库进行网页解析，pymongo库与MongoDB进行交互。

二、实验步骤

2.1 爬虫部分

首先，我们需要编写一个爬虫来从目标网站爬取数据。这里以爬取一个简单的新闻网站为例。

# 导入必要的库  
import requests  
from bs4 import BeautifulSoup  
  
def fetch_news(url):  
    # 发送请求  
    response = requests.get(url)  
    response.encoding = 'utf-8'  
      
    # 使用BeautifulSoup解析HTML  
    soup = BeautifulSoup(response.text, 'html.parser')  
      
    # 这里假设新闻列表的HTML结构已知，并提取新闻标题和链接  
    news_list = []  
    for item in soup.select('.news-item'):  # 假设新闻列表的CSS类名为.news-item  
        title = item.select_one('.news-title').get_text()  # 假设新闻标题的CSS类名为.news-title  
        link = item.select_one('.news-link').get('href')   # 假设新闻链接在.