Python 解析 HTML 并提取所有 JavaScript 代码块-优快云博客

本文链接：https://blog.youkuaiyun.com/2501_90690929/article/details/146517837

```htmlPython 解析 HTML 并提取所有 JavaScript 代码块

Python 解析 HTML 并提取所有 JavaScript 代码块

在处理网页内容时，我们经常需要从HTML中提取特定的信息。其中，JavaScript代码块的提取是一个常见的需求。本文将介绍如何使用Python来解析HTML并提取所有的JavaScript代码块。

所需工具和库

为了完成这个任务，我们需要使用到Python中的BeautifulSoup库。这是一个非常强大的HTML解析库，可以帮助我们轻松地从HTML文档中提取数据。

步骤一：安装BeautifulSoup库

首先，确保你的Python环境中已经安装了BeautifulSoup库。如果没有安装，可以通过pip进行安装：

pip install beautifulsoup4

步骤二：编写Python脚本

接下来，我们可以编写一个简单的Python脚本来实现我们的目标。以下是一个示例代码：


from bs4 import BeautifulSoup

# 假设这是我们要解析的HTML内容
html_content = """
<html>
<head>
<script>console.log('Hello, world!')</script>
</head>
<body>
<p>This is a paragraph.</p>
<script>alert('Another script block')</script>
</body>
</html>
"""

# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(html_content, 'html.parser')

# 查找所有的script标签
scripts = soup.find_all('script')

# 遍历所有的script标签，并打印出它们的内容
for script in scripts:
    print(script.string)