Python爬虫初学者指南-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_39460362/article/details/95231804

本文介绍了Python爬虫的基础知识，包括导入urllib库、发送HTTP请求、处理响应内容、编码转换，以及GET和POST请求的区别。此外，还讨论了爬虫的合法性、爬虫的分类，如通用爬虫和聚焦爬虫，并提到了反爬虫技术。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬虫入门第一天—1

import urllib.request

def load_data():
    url = "http://www.baidu.com/"
    # 发送get请求
    # http对应的请求
    # response 是http响应的对象
    response = urllib.request.urlopen(url)
    print(response)
    # 读取内容  bytes类型
    data = response.read()
    print(data)
    # 将文件获取的内容转换成字符串
    str_data = data.decode("utf-8")
    print(str_data)
    # 将数据写入文件
    with open("baidu.html","w",encoding="utf-8") as f:
        f.write(str_data)
    str_name = "baidu"
    bytes_name = str_name.encode("utf-8")
    print(bytes_name)

    # python爬取的数据类型：str bytes
    # 如果爬回来的数据是bytes类型，但是你写入的时候需要字符串 decode("utf-8")
    # 如果爬取的是str类型，但是你要写入bytes类型 encode("utf-8")

load_data()

首先导入urllib库里面的request这个功能然后定义一个函数。

然后在函数内部进行定义一个url的函数，然后赋值百度的url地址。url地址就是浏览网页的地址，也就是域名，网址。

然后用response进行调用urllib里面的request的urlopen进行传入url这个函数。

然后用print打印了一下这个response是内容。 <http.client.HTTPResponse object at 0x000001EA03D4E9E8>

然后定义一个data进行读取这个response的内容，语句response.read() 然后默认的话打印的话是一串bytes类型的东西

然后用print输出这个data的内容，就会发现这是一行的内容，因为这个是bytes文件，所以这里就要对它进行转换成字符串。

也就是decode("utf-8")然后重新赋值个另外一个函数，这里我写的是str_data,大概内容如下图。

然后如果要写入文件的话，用with 然后open，这个open是打开的意思，详情可以百度Python文件管理，然后里面第一个参数是写文件名.文件，第二个是文件写入方式，第三个encoding是写编码格式，一般常规都是utf-8，然后在后面进行as f。

然后f.write这个就是传入的意思，可以把刚才上面转换字符串的那个内容进行传入进来。然后进行调用函数就行了。

爬虫第一天-2

import urllib.request
import urllib.parse
import string

def get_method_params():

    url = "http://www.baidu.com/s?wd="
    # 拼接字符串(汉字)
    name = "美女"
    final_url = url + name
    print(final_url)
    # 代码发送了请求
    # 网址里面包含了汉字，ASCII是没有汉字的，url转译
    # 将包含汉字的网址进行转译
    encode_new_url = urllib.parse.quote(final_url,safe=string.printable)
    # 利用代码发送网络请求
    print(encode_new_url)
    response = urllib.request.urlopen(encode_new_url)
    print(response)
    # 读取内容
    data = response.read().decode()
    print(data)
    # 保存到本地
    with open("02_encode.html","w",encoding="utf-8")as f:
        f.write(data)
    # # python是解释性语言 解析器只支持ASCII0-127  不支持中文


get_method_params()

常规先贴代码，首先导入这三个库，一个是爬虫，一个是转译，一个是字符串

然后定义一个百度的url，另外还定义了一个其他的一个中文，进行拼接。然后可以看下拼接效果。