《Python编程无师自通》第20章融会贯通

最新推荐文章于 2024-11-04 16:29:08 发布

人民邮电出版社有限公司

最新推荐文章于 2024-11-04 16:29:08 发布

阅读量121

点赞数

CC 4.0 BY-SA版权

分类专栏： Python编程无师自通

本文链接：https://blog.youkuaiyun.com/rmyd01/article/details/118604807

Python编程无师自通专栏收录该内容

38 篇文章 ¥37.76 ¥99.00

订阅专栏

本章介绍了如何使用Python开发网络爬虫，首先讲解了HTML的基础知识，然后通过实例展示了如何爬取Google新闻的HTML并提取新闻链接。挑战练习包括将爬取的头条保存至文件。

第20章　融会贯通

“神话和传说的魔力在我们这一代成真。只要在键盘上敲下正确的咒语，显示屏就像是活了过来，里面都是以前不可能存在或发生的事情。”

——费德里克·布鲁克斯（Frederick Brooks）

本章中，我们将开发一个网络爬虫：从网站上提取数据的程序。成功之后，你将拥有从人类目前最大的信息存储地收集数据的能力。网络爬虫十分强大，开发起来又很简单，这也是我爱上编程的原因之一。我希望它也能吸引你的注意。

20.1　HTML

在开发网络爬虫之前，我们需要快速了解HTML：超文本标记语言。HTML是程序员开发网站时用到的最基本的语言之一，另外两个为CSS和JavaScript。HTML是赋予网站结构的语言，由浏览器用来布局页面的诸多标签组成。单纯使用HTML就可以打造一个完整的网站，不过无法做到互动与美观，因为其缺乏赋予网站活力的JavaScript，以及赋予网站风格的CSS。但是的的确确是一个网站。下例是仅展示文本Hello, World!的网站代码：

# http://tinyurl.com/jptzkvp

<!--This is a comment in HTML.
Save this file as index.html-->
<!-- http://tinyurl.com/h3bjuov -->

<html lang="en">
<head>
    <meta charset="UTF-8">

了解本专栏