本实训的任务是获取14-16年的录取分数详细信息,并对信息进行加工、整理和保存。本关的任务是获取录取分数目录页。
相关知识
URL
URL,Uniform Resource Locator,也就是统一资源定位符。互联网上所有的资源都有一个独一无二的URL,通过URL能够定位互联网上的资源。
URL由协议,主机名+端口号和被访问的网页在服务器上的路径组成(如下图所示)。
其中协议指定使用的传输协议,如HTTP、HTTPS、FTP等;主机名指存放资源的服务器的域名或IP地址;各种传输协议都有默认的端口号,如果输入时省略,则使用默认端口号;路径是由零或多个“/”分隔的字符串,表示该资源在服务器上的路径。
HTTP协议
HTTP,HyperText Transfer Protocol,超文本传输协议 ,是基于TCP/IP的应用层协议,它规定了了浏览器和服务器的交流方式,规定了在浏览器和服务器之间的请求和响应的交互过程必须遵循的规则。浏览器使用HTTP协议发送、接收web对象,并显示。Web服务器使用HTTP协议响应客户请求发送对象。
urllib.request 模块
Python
提供了urllib.request
模块用来处理网页的url
。
urllib.request.urlopen