上午知识回顾
4月底之前完成 爬虫+数据分析+数据可视化
爬虫以及反爬虫机制 python中爬虫的主要模块是 requests模块
使用dir 以及 help函数查看函数有哪些功能以及函数具体该如何使用
get(url, params=None, **kwargs)
函数的定义:
def 函数名(位置参数:数据类型,默认参数:数据类型=默认值,可变长位置参数,可变长关键字参数) -> 返回值类型:
pass
return 返回值
#要注意参数类型的顺序
def function(a:int, b:int=0, *args, **kwargs) -> int:
return a
如果函数没有返回值,相当于 return None
def sum
元组
元组(Tuple)是计算机编程中的一个概念,尤其在Python语言中常见。你可以把元组想象成一个容器,就像一个盒子或者一个袋子,它可以装下多个东西。这些东西在元组里被称为“元素”。
元组的特点有:
- 不可变性:一旦元组被创建,你就不能修改它的内容。比如,你不能添加、删除或更改元组中的元素。
- 有序性:元组中的元素是有顺序的,第一个元素、第二个元素等,都是按照它们在元组中的位置来确定的。
- 可以包含不同类型的数据:元组可以包含不同类型的元素,比如整数、浮点数、字符串,甚至其他元组或列表。
在Python中,元组是用圆括号()
来表示的,元素之间用逗号,
分隔。例如:
python
my_tuple = (1, 2, 3) |
another_tuple = ("apple", "banana", "cherry") |
mixed_tuple = (1, "hello", 3.14) |
这些例子中,my_tuple
是一个包含三个整数的元组,another_tuple
是一个包含三个字符串的元组,而mixed_tuple
则是一个包含整数、字符串和浮点数的混合类型元组。
字典
字典(Dictionary)在计算机编程中是一个非常有用的数据结构,尤其在Python语言中。你可以把字典想象成一个传统的纸质字典,在其中你可以查找一个单词(键)来找到它的定义或描述(值)。
在编程的语境下,字典是一种存储键值对的数据结构。这里的“键”(Key)和“值”(Value)可以是各种各样的数据类型,比如整数、浮点数、字符串、列表等,甚至是其他字典。
字典的特点:
- 无序性:字典中的键值对没有固定的顺序,你不能依赖于元素被添加的顺序来遍历它们。
- 键的唯一性:字典中的每个键都必须是唯一的。如果有重复的键,那么后一个键值对会覆盖前一个的值。
- 可变性:与元组不同,字典是可变的。你可以添加新的键值对,修改现有的值,或者删除键值对。
在Python中,字典是使用大括号{}
来定义的,键值对之间用逗号分隔,而键和值之间用冒号分隔。例如:
python
my_dict = { |
"name": "Alice", |
"age": 30, |
"city": "New York" |
} |
在这个例子中,"name"
、"age"
和"city"
是键,而"Alice"
、30
和"New York"
是与这些键相关联的值。
要访问字典中的值,你可以使用键来进行查找,比如my_dict["name"]
会返回"Alice"
。你也可以添加新的键值对,比如my_dict["country"] = "USA"
,或者修改现有的值,比如my_dict["age"] = 31
。
#什么情况下需要return?
如果算出来的结果还需要其他用途,就使用return进行返回
文档注释的作用
写的一些帮助信息 help时可以看到, 类型注释(给参数和返回值做类型声明)
返回值
return 如果结果还需要使用就可以使用return进行返回,一般情况下建议进行返回
requests模块
相当于一个模块型的非浏览界面的浏览器,有各种各样的方法发送网络请求获取数据
get方法 在大多数网页里面我们可以使用
requests 是 Python 中一个非常流行的 HTTP 客户端库,它使得发送 HTTP 请求变得非常简单。其中,get() 方法是 requests 模块中用于发送 GET 请求的方法。
基本用法
使用 requests.get() 方法发送一个 GET 请求的基本语法如下:
python
import requests
response = requests.get(url)
其中,url 是你想要请求的网址。这个方法会返回一个 Response 对象,其中包含了服务器对请求的响应。
响应内容
你可以通过 Response 对象的各种属性和方法来访问服务器返回的内容。例如:
response.text:以字符串形式返回响应的内容。
response.content:以字节形式返回响应的内容。
response.status_code:返回 HTTP 响应的状态码(如 200, 404 等)。
response.headers:返回响应的头部信息。
response.json():如果响应的内容是 JSON 格式的,可以使用这个方法将其解析为 Python 对象。
示例
下面是一个简单的示例,展示如何使用 requests.get() 方法发送一个 GET 请求,并打印响应的内容:
python
import requests
url = 'https://api.example.com/data'
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
print('请求成功!')
print('响应内容:')
print(response.text)
else:
print('请求失败,状态码:', response.status_code)
参数
requests.get() 方法还支持一些可选参数,用于定制请求。例如:
params:用于添加查询参数。可以是一个字典,键和值会被自动转换为查询字符串。
headers:用于添加自定义的 HTTP 头部。可以是一个字典。
timeout:设置请求的超时时间(以秒为单位)。
例如:
python
import requests
url = 'https://api.example.com/search'
params = {'q': 'python', 'page': 1}
headers = {'User-Agent': 'my-app/0.0.1'}
response = requests.get(url, params=params, headers=headers, timeout=5)
print(response.url) # 打印请求的完整 URL(包括查询参数)