数据的爬取

最新推荐文章于 2024-12-09 11:13:33 发布

zzlt123455

最新推荐文章于 2024-12-09 11:13:33 发布

阅读量2.1k

点赞数 9

文章标签： chrome 前端

本文链接：https://blog.youkuaiyun.com/zzlt123455/article/details/143466116

版权

常用的HTML解析库：BeautifulSoup和lxml

鼓励学生继续学习和探索数据爬取的高级技术和应用

讨论数据爬取在现实世界中的应用和挑战

爬取准备

目标：

了解数据爬取的基本概念和应用场景。
掌握使用Python进行HTTP请求和HTML解析的方法。
学会如何遵守网站的robots.txt文件和使用条款。
能够编写简单的数据爬虫程序，提取网页上的数据

引言

介绍数据爬取的定义和重要性。

数据爬取（Data Crawling），也被称为网络爬虫（Web Spider）或网络抓取（Web Scraping），是指通过自动化程序从互联网上获取并提取数据的过程。这种技术常用于网络爬虫、数据挖掘和大数据分析等应用领域。数据爬取程序可以模拟人类用户的网页浏览行为，发送HTTP请求到目标网站，接收并解析返回的HTML或JSON等格式的数据，然后从中提取所需的信息，并将其保存到本地文件、数据库或其他数据存储系统中，以供后续的分析和处理。

数据爬取的基本原理

解释HTTP请求和响应的过程。
一个HTTP客户端，通常是浏览器，与Web服务器的HTTP端口（默认为80或443，后者用于HTTPS）建立一个TCP套接字连接
通过TCP套接字，客户端向Web服务器发送一个文本的请求报文。一个请求报文由请求行、请求头部、空行和请求数据四部分组成。
请求行用来说明请求类型（如GET、POST）、要访问的资源（如URL）以及所使用的HTTP版本。
请求头部用来说明服务器要使用的附加信息，如Host、User-Agent等。
请求数据（也称为请求主体）可以包含任意的其他数据，通常用于POST请求。
介绍HTML和CSS的基础知识，以及它们在网页结构中的作用。

服务器接受请求并返回HTTP响应：

Web服务器解析请求，定位请求资源。
服务器将资源复本写到TCP套接字，由客户端读取。
一个响应由状态行、响应头部、空行和响应数据四部分组成。
状态行由HTTP协议版本号、状态码和状态消息三部分组成，用于表示请求是否成功。
响应头部用来说明客户端要使用的一些附加信息，如Date、Content-Type等。
响应数据是服务器返回给客户端的文本信息，如HTML文档。

释放连接TCP连接：

若connection模式为close，则服务器主动关闭TCP连接，客户端被动关闭连接，释放TCP连接。
若connection模式为keepalive，则该连接会保持一段时间，在该时间内可以继续接收请求。

如何使用开发者工具查看网页的源代码和元素

以Google Chrome浏览器为例，以下是使用Chrome DevTools查看网页源代码和元素的基本步骤：
打开Chrome浏览器并导航到要查看的网页。
右键单击网页上的任意位置，选择“检查”或按下快捷键Ctrl+Shift+I（Windows/Linux）或Cmd+Opt+I（Mac）打开开发者工具。
在开发者工具中，切换到“Elements”（元素）选项卡。将看到网页的HTML结构，并可以浏览和编辑网页的源代码。
使用开发者工具提供的各种功能，如查找元素、编辑样式、查看网络请求等，来分析和调试网页。

如图所示

Python数据爬取工具

在Python中，进行数据爬取通常需要使用HTTP请求库来发送网络请求，以及HTML解析库来解析和提取网页内容。以下是常用的Python数据爬取工具及其使用方法。

常用的HTTP请求库：requests

requests库是Python中最为流行的HTTP请求库之一，它提供了一个简单且易用的API来发送HTTP请求。requests库支持各种HTTP方法，如GET、POST、PUT、DELETE等，并且可以自动处理cookies、会话和重定向等

安装requests库：

发送GET请求：

pip install requests
import requests  
  
# 发送GET请求到目标URL  
response = requests.get('https://example.com')  
  
# 打印响应状态码和响应内容  
print(response.status_code)  
print(response.text)

import requests  
  
# 要发送的数据  
data = {  
    'key1': 'value1',  
    'key2': 'value2'  
}  
  
# 发送POST请求到目标URL，并附带数据  
response = requests.post('https://example.com/post', data=data)  
  
# 打印响应状态码和响应内容  
print(response.status_code)  
print(response.text)

发送POST请求：

import requests  
  
# 要发送的数据  
data = {  
    'key1': 'value1',  
    'key2': 'value2'  
}  
  
# 发送POST请求到目标URL，并附带数据  
response = requests.post('https://example.com/post', data=data)  
  
# 打印响应状态码和响应内容  
print(response.status_code)  
print(response.text)

常用的HTML解析库：BeautifulSoup和lxml

BeautifulSoup是一个用于解析HTML和XML文档的Python库，它创建了一个解析树，可以用来提取文档中的数据。BeautifulSoup可以与多种解析器一起使用，其中lxml是一个速度和容错性都非常出色的解析器。

安装BeautifulSoup和lxml：

pip install beautifulsoup4 lxml
import requests  
from bs4 import BeautifulSoup  
  
# 发送GET请求到目标URL  
response = requests.get('https://example.com')  
  
# 使用BeautifulSoup解析响应内容  
soup = BeautifulSoup(response.text, 'lxml')  
  
# 查找所有的<p>标签，并打印它们的文本内容  
paragraphs = soup.find_all('p')  
for p in paragraphs:  
    print(p.get_text())  
  
# 查找具有特定class属性的<div>标签，并打印其id属性  
divs = soup.find_all('div', class_='specific-class')  
for div in divs:  
    print(div['id'])

在上面的示例中，我们首先使用requests库发送了一个GET请求到目标URL，然后使用BeautifulSoup和lxml解析器解析了响应内容。接下来，我们展示了如何使用BeautifulSoup的find_all方法来查找特定的HTML标签，并提取它们的文本内容或属性。

通过使用这些工具，Python开发者可以轻松地发送HTTP请求并解析HTML文档，从而进行数据爬取和网页数据分析。请注意，在进行数据爬取时，应遵守目标网站的robots.txt文件和用户协议，以避免对网站造成不必要的负担或法律风险

记得在那找元素和属性就行

编写简单的数据爬虫

案例选择与准备：

以下是一个使用Python编写的简单数据爬虫示例，该爬虫将从一个实际的网页URL中提取数据，如标题、段落文本和链接。我们将使用requests库来发送HTTP请求，并使用BeautifulSoup库来解析HTML文档。

为了演示，我们将使用一个公开的网页URL，例如：https://www.example.com

import requests  
from bs4 import BeautifulSoup  
  
# 目标网页URL  
url = 'https://www.example.com'  
  
# 发送GET请求到目标网页  
response = requests.get(url)  
  
# 检查请求是否成功  
if response.status_code == 200:  
    # 使用BeautifulSoup解析HTML文档  
    soup = BeautifulSoup(response.text, 'lxml')  
      
    # 提取网页标题  
    title = soup.title.string if soup.title else 'No Title'  
    print(f'Title: {title}')  
      
    # 提取所有段落文本  
    paragraphs = soup.find_all('p')  
    for i, p in enumerate(paragraphs, start=1):  
        print(f'Paragraph {i}: {p.get_text()}')  
      
    # 提取所有链接（<a>标签的href属性）  
    links = soup.find_all('a', href=True)  
    for i, link in enumerate(links, start=1):  
        href = link['href']  
        text = link.get_text()  
        print(f'Link {i}: {text} ({href})')  
else:  
    print(f'Failed to retrieve the webpage. Status code: {response.status_code}')

运行脚本

确保你已经安装了requests和BeautifulSoup库（以及lxml解析器）。
将上面的Python脚本保存为一个文件，例如simple_crawler.py。
在命令行或终端中运行该脚本：python simple_crawler.py。

编写爬虫脚本须知：
- 导入必要的库：首先，在Python脚本中导入requests和BeautifulSoup库。
- 发送HTTP请求：使用requests.get()方法发送GET请求到目标网页的URL，并检查响应状态码是否为200（表示请求成功）。
- 解析HTML内容：使用BeautifulSoup解析响应内容，将其转换为BeautifulSoup对象。
- 提取数据：根据HTML标签和属性，使用BeautifulSoup提供的方法（如find(), find_all(), select()等）提取所需的数据。
- 打印或存储数据：将提取的数据打印到控制台，或将其存储到本地文件（如CSV、JSON）中。

处理异常和错误

在编写网络爬虫时，处理异常和错误是至关重要的，因为网络请求可能会因为各种原因而失败，如网络连接问题、服务器响应超时、HTTP错误等。Python的requests库提供了内置的异常处理机制，允许我们捕获并处理这些异常。

异常类型：
- 常见的HTTP请求异常类型
- ConnectionError：当网络问题（如DNS失败、拒绝连接等）导致请求无法建立时引发。
- Timeout：如果请求超出了指定的超时时间（通过timeout参数设置），则会引发此异常。
- HTTPError：当HTTP请求返回了一个不成功的状态码（如404或500）时，requests.get或requests.post等方法会引发此异常。它是requests.exceptions.RequestException的子类，因此也可以被更通用的异常捕获语句捕获。
- RequestException：这是所有requests库异常的基类。在不确定具体异常类型时，可以捕获这个异常来处理所有可能的请求错误。
  
  在Python中，我们可以使用try-except语句来捕获和处理异常。以下是一个包含异常处理的爬虫脚本示例：
```
import requests  
from bs4 import BeautifulSoup  
import time  
import logging  
  
# 配置日志记录  
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')  
  
# 目标网页URL  
url = 'https://www.example.com'  
  
# 尝试发送GET请求并处理可能的异常  
try:  
    # 设置请求超时时间为10秒  
    response = requests.get(url, timeout=10)  
      
    # 检查HTTP状态码  
    response.raise_for_status()  # 如果状态码不是200，将引发HTTPError  
      
    # 使用BeautifulSoup解析HTML文档  
    soup = BeautifulSoup(response.text, 'lxml')  
      
    # 提取并打印网页标题  
    title = soup.title.string if soup.title else 'No Title'  
    logging.info(f'Title: {title}')  
      
    # ...（其他数据提取逻辑）  
  
except requests.exceptions.ConnectionError as conn_err:  
    logging.error(f'Connection error: {conn_err}')  
    # 可以选择在这里进行重试，或者记录错误并继续执行其他逻辑  
  
except requests.exceptions.Timeout as timeout_err:  
    logging.error(f'Timeout error: {timeout_err}')  
    # 可以设置重试机制，例如使用time.sleep()后重试请求  
    # time.sleep(5)  # 等待5秒后重试  
    # 注意：在实际应用中，应避免无限重试，应设置重试次数限制  
  
except requests.exceptions.HTTPError as http_err:  
    logging.error(f'HTTP error occurred: {http_err}')  
    # 可以根据HTTP状态码进行不同的处理  
    # if response.status_code == 404:  
    #     logging.error('Page not found')  
    # ...  
  
except requests.exceptions.RequestException as req_err:  
    # 捕获所有requests库引发的异常  
    logging.error(f'An error occurred: {req_err}')  
  
except Exception as e:  
    # 捕获其他未预料的异常  
    logging.error(f'An unexpected error occurred: {e}')  
  
finally:  
    # 无论是否发生异常，都会执行finally块中的代码  
    # 可以用于清理资源，如关闭文件、释放数据库连接等  
    logging.info('Request completed (with or without errors).')
```
- 记录错误信息：在捕获异常时，记录详细的错误信息是非常重要的。这有助于调试和追踪问题。在上面的示例中，我们使用了Python的logging模块来记录不同级别的日志信息。
- 重试请求：在某些情况下，网络请求可能会因为临时的网络问题或服务器负载过高而失败。在这种情况下，实现重试机制可以提高爬虫的健壮性和可靠性。然而，需要注意的是，应避免无限重试，应设置合理的重试次数和间隔。在上面的示例中，我们注释掉了重试机制的代码，但在实际应用中，可以根据需要取消注释并进行适当的配置。
- 通过捕获和处理异常，并记录详细的错误信息和实现重试机制，我们可以编写出更加健壮和可靠的网络爬虫程序。
  
  数据存储
- 在数据爬虫中，将提取的数据存储到本地文件是一个常见的需求。Python提供了多种内置库来实现这一功能，其中最常用的是csv和json库，分别用于存储CSV和JSON格式的数据。
- 存储为CSV文件
  
  CSV（Comma-Separated Values，逗号分隔值）是一种简单的文件格式，用于存储表格数据，如电子表格或数据库。Python的csv库提供了读写CSV文件的功能。
  以下为代码示例：
- ```
import csv  
  
# 假设我们有一些数据要存储  
data = [  
    ['Name', 'Age', 'City'],  
    ['Alice', 30, 'New York'],  
    ['Bob', 25, 'Los Angeles'],  
    ['Charlie', 35, 'Chicago']  
]  
  
# 打开一个文件用于写入  
with open('output.csv', mode='w', newline='') as file:  
    writer = csv.writer(file)  
      
    # 写入数据到CSV文件  
    writer.writerows(data)  
  
print("Data has been written to output.csv")
```
  在这个示例中，我们创建了一个包含字典和列表的嵌套结构，并使用json.dump将其写入到名为output.json的文件中。indent参数用于设置输出的缩进级别，使JSON文件更加易读。
- 从文件中读取数据
  
  同样地，我们可以使用csv和json库从文件中读取数据
- 以下为代码示例：
- ```
import csv  
  
data = []  
with open('output.csv', mode='r') as file:  
    reader = csv.reader(file)  
    for row in reader:  
        data.append(row)  
  
print(data)
```
  从JSON文件中读取数据：
- ```
import json  
  
with open('output.json', mode='r') as file:  
    data = json.load(file)  
  
print(data)
```
- 偏高级的话题
  提一嘴罢了，初学者忽略即可
- 介绍如何使用Selenium处理动态内容（如JavaScript渲染的网页）
- 使用Selenium处理动态内容
  
  Selenium是一个用于自动化Web应用程序测试的工具，它可以直接与浏览器交互，模拟用户的操作，如点击、输入等。这对于处理由JavaScript渲染的网页特别有用，因为传统的爬虫库（如requests）无法直接执行JavaScript。
  安装Selenium：
  首先，你需要安装Selenium库和相应的浏览器驱动程序（如ChromeDriver或GeckoDriver）
  以下是一个简单的示例，展示了如何使用Selenium来访问一个动态加载内容的网页
```
pip install selenium
from selenium import webdriver  
from selenium.webdriver.common.by import By  
from selenium.webdriver.chrome.service import Service  
from webdriver_manager.chrome import ChromeDriverManager  
import time  
  
# 设置ChromeDriver的路径（使用webdriver_manager自动管理）  
service = Service(ChromeDriverManager().install())  
driver = webdriver.Chrome(service=service)  
  
# 访问网页  
driver.get('https://www.example.com')  
  
# 等待页面加载（可以使用显式等待来更精确地等待某个元素）  
time.sleep(5)  # 这里只是简单地等待5秒，实际中应使用WebDriverWait  
  
# 查找并打印页面上的某个元素  
element = driver.find_element(By.ID, 'some-element-id')  
print(element.text)  
  
# 关闭浏览器  
driver.quit()
```
  在这个示例中，我们使用了webdriver_manager来自动管理ChromeDriver的版本和路径，这样你就不需要手动下载和配置它了。然后，我们使用Selenium打开了一个网页，等待了一段时间（在实际应用中，应该使用WebDriverWait来等待特定的条件成立），最后查找并打印了页面上的一个元素
  
  爬虫框架：
  爬虫框架提供了一套完整的工具和库，用于构建和管理爬虫项目。Scrapy是一个流行的Python爬虫框架，它提供了异步请求、数据解析、数据存储等功能，并且支持中间件和扩展，使得爬虫的开发更加高效和灵活。
  
  Scrapy示例：
  虽然Scrapy通常用于构建更复杂的爬虫项目，但这里只提供一个简单的示例来说明其基本概念
```
# 创建一个Scrapy项目（在命令行中运行）  
# scrapy startproject myproject  
  
# 在myproject/spiders目录下创建一个新的爬虫文件（如myspider.py）  
  
import scrapy  
  
class MySpider(scrapy.Spider):  
    name = 'myspider'  
    start_urls = ['https://www.example.com']  
  
    def parse(self, response):  
        # 解析响应并提取数据  
        title = response.css('h1::text').get()  
        yield {'title': title}  
  
        # 跟进其他页面（如果有的话）  
        # for href in response.css('a::attr(href)').getall():  
        #     yield response.follow(href, self.parse_item)  
  
# 运行爬虫（在命令行中运行）  
# scrapy crawl myspider
```
  如果你想去自己做下面是个人的一些指导
- 指导：
- 首先，分析目标网站的结构，确定如何定位新闻标题、链接和发布日期的HTML元素。
- 使用Selenium或requests+BeautifulSoup来发送请求并解析响应。
- 提取所需的数据，并将其存储到列表中。
- 使用Python的csv库将数据写入CSV文件。
- 在开发过程中，使用打印语句或日志来调试和验证你的代码。
- 遵守良好的编程实践，如使用函数来组织代码、添加必要的注释等
- 总结
  
  回顾数据爬取的基本概念、方法和注意事项
  
  基本概念：
  数据爬取（或称为网页抓取、网络爬虫）是指自动从网站上提取数据的过程。它通常涉及发送HTTP请求到目标网站，解析返回的HTML或JSON响应，然后提取所需的信息。
  
  方法：
- 使用请求库：如Python的requests库，用于发送HTTP请求并接收响应。
- 解析HTML：使用BeautifulSoup或lxml等库来解析HTML文档，并提取其中的数据。
- 处理JavaScript渲染的内容：对于由JavaScript动态生成的内容，可以使用Selenium等工具来模拟浏览器行为并抓取数据。
- 存储数据：提取的数据可以存储在本地文件（如CSV、JSON）或数据库中。
- 注意事项：
- 遵守法律和道德：确保你的爬取活动符合目标网站的robots.txt文件和使用条款。
- 不要对网站造成过大负载：合理设置请求间隔，避免对目标网站造成过大的压力。
- 处理异常和错误：在爬取过程中，可能会遇到各种异常和错误，如网络问题、HTML结构变化等，需要编写健壮的代码来处理这些情况。
- 数据清洗和验证：提取的数据可能需要进行清洗和验证，以确保其准确性和一致性。
- 应用：
- 市场研究：通过爬取竞争对手的网站，收集产品价格、用户评价等信息，用于市场分析和策略制定。
- 新闻聚合：从多个新闻网站上抓取新闻文章，将其聚合到一个平台上，方便用户阅读。
- 数据分析和机器学习：爬取大量数据用于数据分析和机器学习模型的训练，如股票价格预测、用户行为分析等。
- 网络监控：监控特定网站或社交媒体平台上的内容变化，如品牌声誉管理、危机公关等。
- 反爬虫机制：许多网站都实施了反爬虫机制，如验证码验证、IP地址封锁等，增加了爬取的难度。
- 数据隐私和安全性：在爬取过程中，需要确保不泄露敏感信息，并遵守相关的数据隐私和安全法规。
- 数据质量和准确性：由于网站结构和内容的不断变化，提取的数据可能需要进行频繁的更新和验证。
- 探索数据爬取的高级技术和应用
- 数据爬取是一个不断发展和变化的领域，随着技术的进步和互联网的发展，新的挑战和机遇不断涌现。鼓励学生继续学习和探索以下高级技术和应用：
- 分布式爬虫：学习如何构建分布式爬虫系统，以提高数据抓取的速度和效率。
- Web Scraping Frameworks：深入了解和使用流行的爬虫框架，如Scrapy，以简化爬虫的开发和管理。
- 数据清洗和预处理：学习如何使用Python等编程语言进行数据清洗和预处理，以提高数据的质量和准确性。
- 自然语言处理（NLP）：结合NLP技术，从文本数据中提取更多有价值的信息，如情感分析、实体识别等。
- 机器学习和人工智能：将机器学习和人工智能技术应用于数据爬取和分析中，以实现更智能和自动化的数据抓取和处理过程。
- 讨论数据爬取在现实世界中的应用和挑战
- 参考文献：利用Python进行数据爬取与分析实战案例解
  利用Python进行数据爬取与分析实战案例解析_数据抓取与处理:在大作业中,自行选择一个特定的网站或是一组网站作为目标,使用pyt-优快云博客文章浏览阅读2.9k次，点赞27次，收藏29次。随着互联网的普及和信息化的加速发展，数据已经成为了现代社会中最宝贵的资源之一。在这个信息爆炸的时代，如何高效地获取并利用数据成为了许多行业的核心挑战之一。而Python作为一种简单易学、功能强大的编程语言，被广泛应用于数据爬取和分析领域。本文将通过一个实战案例，介绍如何利用Python进行数据爬取与分析，并对其进行深入分析。_数据抓取与处理:在大作业中,自行选择一个特定的网站或是一组网站作为目标,使用pythttps://shangjinzhu.blog.youkuaiyun.com/article/details/138253384?fromshare=blogdetail&sharetype=blogdetail&sharerId=138253384&sharerefer=PC&sharesource=zzlt123455&sharefrom=from_link