今天看了崔庆才著的 <<Python3网络爬虫开发实战的>> 的3.1使用urllib
第三点 高级用法
这里的网站弹出输入账号密码的提示框,需要使用
HTTPBasicAuthHandler 来处理这个页面才能继续爬虫,然而平时没看到那个网站是这样的,为了测试代码只好自己用javaweb写一个
package com.hai;
import javax.servlet.ServletException;
import javax.servlet.http.HttpServlet;
import javax.servlet.http.HttpServletRequest;
import javax.servlet.http.HttpServletResponse;
import java.io.IOException;
import java.util.Base64;
public class LoginServlet extends HttpServlet {
@Override
protected void service(HttpServletRequest request, HttpServletResponse response)
throws ServletException, IOException {
//如果未验证
//authorization解码后格式 Basic username:password
String authorization = request.getHeader("authorization");
if (authori