本章讲解如何通过Python访问互联网上的资源,这也是网络爬虫技 术的基础。
1 基本的网络知识
程序员在进行网络编程前,需要掌握基本的网络知识,本节会介绍 这些内容。
1.1 TCP/IP
在网络通信中会用到一些相关协议,其中,TCP/IP是非常重要的协 议,由IP和TCP两个协议构成。IP(Internet Protocol)是一种低级的路 由协议,它将数据拆分在许多小的数据包中,并通过网络将它们发送到 某一特定地址,但无法保证所有包都抵达目的地,也不能保证包按顺序 抵达。
由于通过IP传输数据存在不安全性,所以还需要通过TCP(Transmi ssion Control Protocol,传输控制协议)进行网络通信。TCP是一种高层 次的协议,是面向连接的可靠数据传输协议,如果有些数据包没被收到 ,则会重发,对数据包的内容准确性进行检查并保证数据包按顺序抵达 。所以,TCP能够保证数据包安全地按照发送时的顺序送达目的地。
1.2 IP地址
为了实现网络中不同计算机之间的通信,每台计算机都必须有一个 与众不同的标识,这就是IP地址,TCP/IP使用IP地址来标识源地址和目 的地址。
最初,所有的IP地址都是由32位数字构成的,由4个8位的二进制数 组成,每8位之间用圆点隔开,例如192.168.1.1,这种类型的地址通过IP v4指定。现在有一种新的地址模式,叫作IPv6,IPv6使用128位数字表 示一个地址。尽管IPv6比IPv4有很多优势,但是由于习惯的问题,很多 设备还是采用IPv4。
另外,我们有时还会用到一个特殊的IP地址127.0.0.1,127.0.0.1叫 作回送地址,指本机。回送地址主要用于网络软件测试及本机的进程间 通信,只发送数据,只进行本机进程间通信,不进行任何网络传输。
1.3 端口
一个IP地址标识一台计算机,每一台计算机又有很多网络通信程序 在运行,提供网络服务或进行通信,这就需要不同的端口进行通信。如 果把IP地址比作电话号码,那么端口就是分机号码,在进行网络通信时 不仅要指定IP地址,还要指定端口号。
TCP/IP系统中的端口号是一个16位的数字,它的范围是 0~65535 。将小于1024的端口号保留给预定义的服务,例如HTTP是80,FTP是2 1,Telnet是23,Email是25,等等。除非要和那些服务进行通信,否则 不应该使用小于1024的端口。
1.4 HTTP/HTTPS
对互联网的访问大多基于HTTP/HTTPS,HTTP/HTTPS是TCP/IP的 一种协议。
1 HTTP
HTTP(Hypertext Transfer Protocol,超文本传输协议)属于应用层 协议,其简捷、快速的方式适用于分布式超文本信息传输。HTTP是无 连接协议,