揭秘 Python爬虫：如何快速抓取酷我音乐网站上的歌曲信息

LIY若依

已于 2024-08-01 22:59:10 修改

阅读量3k

点赞数 16

文章标签： python 开发语言

于 2024-08-01 22:58:19 首次发布

本文链接：https://blog.youkuaiyun.com/m0_74972192/article/details/140859399

版权

在这篇博客中，我们将详细解析如何使用Python结合Selenium和BeautifulSoup库来爬取酷我音乐网站上的数据。我们将以一个具体的例子为基础，展示如何获取指定歌手的歌曲信息。

思路指南

确定目标网站和数据：
- 选择你要爬取数据的网站（例如酷我音乐、网易云音乐、QQ音乐等）。
- 明确你要获取的数据类型（例如歌曲排名、歌曲名称、艺术家、专辑等）。
设置开发环境：
- 安装必要的库：selenium 和 beautifulsoup4。
- 安装 Chrome 浏览器和 ChromeDriver，并确保它们的版本匹配。
编写爬虫代码

1. 安装必要的库

首先，我们需要安装Selenium和BeautifulSoup库。你可以使用以下命令通过pip进行安装：

pip install selenium beautifulsoup4

2. 设置Chrome选项

为了使用Selenium控制Chrome浏览器，我们需要设置一些选项。以下是设置Chrome选项的代码：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

解析：在这里，我们启用了无头模式（--headless），这意味着浏览器将在后台运行，不会显示图形界面。其他选项用于优化性能和兼容性。

3. 创建Chrome浏览器实例

接下来，我们创建一个新的Chrome浏览器实例：

driver = webdriver.Chrome(options=chrome_options)

解析：这段代码创建了一个Chrome浏览器实例，并应用了之前设置的选项。

4. 输入目标URL

我们需要输入目标URL，并根据用户输入的歌手名称生成查询URL：

keyword = input('请输入歌手：')
url = f'https://kuwo.cn/search/list?key={keyword}'

解析：这段代码获取用户输入的歌手名称，并生成相应的查询URL。

5. 打开目标URL并等待页面加载

我们使用Selenium打开目标URL，并等待页面加载完成：

driver.get(url)
time.sleep(5)  # 等待5秒以确保页面加载完成

解析：这段代码打开目标URL，并等待5秒以确保页面加载完成。

6. 获取页面内容并解析

我们获取页面的源代码，并使用BeautifulSoup解析页面内容：

page_source = driver.page_source
soup = BeautifulSoup(page_source, 'html.parser')

解析：这段代码获取页面的源代码，并使用BeautifulSoup解析HTML内容。

7. 查找并提取数据

我们查找所有符合条件的<li>标签，并提取每首歌的排名、歌曲名称、艺术家和专辑信息：

song_items = soup.find_all('li', class_='song_item flex_c')

for item in song_items:
    rank = item.find('div', class_='rank_num').text.strip()
    song_name = item.find('div', class_='song_name').find('a').text.strip()
    artist = item.find('div', class_='song_artist').find('span').text.strip()
    album = item.find('div', class_='song_album').find('span').text.strip()
    print(f"排名: {rank}, 歌曲: {song_name}, 艺术家: {artist}, 专辑: {album}")

解析：这段代码查找所有符合条件的<li>标签，并提取每首歌的相关信息。

8. 关闭浏览器

完成所有操作后，关闭浏览器：

driver.quit()

解析：这段代码关闭浏览器实例，释放资源。

完整代码

将上述步骤整合在一起，我们得到以下完整代码：

from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time

# 设置Chrome选项
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

# 创建一个新的Chrome浏览器实例
driver = webdriver.Chrome(options=chrome_options)

# 目标URL
keyword = input('请输入歌手：')
url = f'https://kuwo.cn/search/list?key={keyword}'

try:
    # 打开目标URL
    driver.get(url)

    # 等待页面加载完成
    time.sleep(5)  # 等待5秒以确保页面加载完成

    # 获取页面内容
    page_source = driver.page_source

    # 使用BeautifulSoup解析页面内容
    soup = BeautifulSoup(page_source, 'html.parser')

    # 查找所有符合条件的<li>标签
    song_items = soup.find_all('li', class_='song_item flex_c')

    # 遍历并提取数据
    for item in song_items:
        rank = item.find('div', class_='rank_num').text.strip()
        song_name = item.find('div', class_='song_name').find('a').text.strip()
        artist = item.find('div', class_='song_artist').find('span').text.strip()
        album = item.find('div', class_='song_album').find('span').text.strip()
        print(f"排名: {rank}, 歌曲: {song_name}, 艺术家: {artist}, 专辑: {album}")

finally:
    # 关闭浏览器
    driver.quit()