使用 Python 下载网页代码
打开控制台,输入 python --version 查看你的 Python 版本,如果版本低于 3.6,前往 这里 下载安装最新的 Python 版本。
对于学习者来说,保持使用最新版本的 Python 是个好习惯。*
使用 pip 安装 requests_html 库, pip install requests_html,根据你的网络情况,通常需要几分钟时间。
在你的电脑任意位置,新一个 crawler.py 文件。输入并执行以下 4 行代码:
from requests_html import HTMLSession
session = HTMLSession()
r = session.get("https://movie.douban.com/subject/1292052")
print(r.text)
你将会看到如下输出
<!DOCTYPE html>
<html lang="zh-cmn-Hans" class="ua-mac ua-webkit">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta name="renderer" content="webkit">
<meta name="referrer" content="always">
<meta name="google-site-verification" content="" />
<title>
肖申克的救赎 (豆瓣)
</title>
... 以下省略 3000 行 ...q
提取网页中所需内容
你将使用强大的 CSS 选择器 来提取网页中有价值的信息。
CSS 选择器可以从结构化的网页中选择一个特定的元素。
将鼠标移动到上面的卡片中的「导演」、「编剧」各字段,对比观察 CSS 选择器的格式和选中的内容。
同样的,大多数浏览器都提供了获得页面上特定元素 CSS 选择器的功能。
先查看一段内容的代码,在代码上点击右键,选择 Copy -> Copy Selector (或者 Copy CSS Selector、复制 CSS 选择器),就能将这段内容对应的 CSS 选择器复制到剪贴板。
这是我操作的结果: #content > h1 > span:nth-child(1)
from requests_html import HTMLSession
session = HTMLSession()
r = session.get("https://movie.douban.com/subject/1292052")
title = r.html.find("#content > h1 > span:nth-child(1)",first = True)
print(title.text)
得到以下输出:
F:\program\python3.6.1\python.exe E:/Study/py爬虫/学习/第一个网络爬虫.py
肖申克的救赎 The Shawshank Redemption
Process finished with exit code 0

这篇博客介绍了如何使用Python进行网页代码下载,并通过requests_html库解析网页内容。作者强调了保持Python版本更新的重要性,并指导读者如何使用CSS选择器提取网页上的电影信息。
3203

被折叠的 条评论
为什么被折叠?



