python 1.3(Number、 String、 List、 Tuple、 Sets、 Dictionary)

本文介绍了Python3中的六种标准数据类型:数字、字符串、列表、元组、集合及字典。详细解释了每种数据类型的使用方法,包括变量赋值、索引和切片操作、以及类型之间的转换。

Python3 基本数据类型

Python 中的变量不需要声明。每个变量在使用前都必须赋值,变量赋值以后该变量才会被创建。

在 Python 中,变量就是变量,它没有类型,我们所说的"类型"是变量所指的内存中对象的类型。

等号(=)用来给变量赋值。

等号(=)运算符左边是一个变量名,等号(=)运算符右边是存储在变量中的值。例如:

实例(Python 3.0+)

#!/usr/bin/python3
counter = 100 # 整型变量
miles = 1000.0 # 浮点型变量
name = " runoob " # 字符串
print ( counter )
print ( miles )
print ( name )

运行实例 »

执行以上程序会输出如下结果:

100
1000.0
runoob

多个变量赋值

Python允许你同时为多个变量赋值。例如:

a = b = c = 1

以上实例,创建一个整型对象,值为1,三个变量被分配到相同的内存空间上。

您也可以为多个对象指定多个变量。例如:

a, b, c = 1, 2, "runoob"

以上实例,两个整型对象 1 和 2 的分配给变量 a 和 b,字符串对象 "runoob" 分配给变量 c。


标准数据类型

Python3 中有六个标准的数据类型:

  • Number(数字)
  • String(字符串)
  • List(列表)
  • Tuple(元组)
  • Sets(集合)
  • Dictionary(字典)

Python3 的六个标准数据类型中:

  • 不可变数据(四个):Number(数字)、String(字符串)、Tuple(元组)、Sets(集合);
  • 可变数据(两个):List(列表)、Dictionary(字典)。

Number(数字)

Python3 支持 int、float、bool、complex(复数)

在Python 3里,只有一种整数类型 int,表示为长整型,没有 python2 中的 Long。

像大多数语言一样,数值类型的赋值和计算都是很直观的。

内置的 type() 函数可以用来查询变量所指的对象类型。

>>> a, b, c, d = 20, 5.5, True, 4+3j
>>> print(type(a), type(b), type(c), type(d))
<class 'int'> <class 'float'> <class 'bool'> <class 'complex'>

此外还可以用 isinstance 来判断:

实例

>>> a = 111
>>> isinstance ( a , int )
True
>>>

isinstance 和 type 的区别在于:

class A:
    pass

class B(A):
    pass

isinstance(A(), A)  # returns True
type(A()) == A      # returns True
isinstance(B(), A)    # returns True
type(B()) == A        # returns False

区别就是:

  • type()不会认为子类是一种父类类型。
  • isinstance()会认为子类是一种父类类型。

注意:在 Python2 中是没有布尔型的,它用数字 0 表示 False,用 1 表示 True。到 Python3 中,把 True 和 False 定义成关键字了,但它们的值还是 1 和 0,它们可以和数字相加。

当你指定一个值时,Number 对象就会被创建:

var1 = 1
var2 = 10

您也可以使用del语句删除一些对象引用。

del语句的语法是:

del var1[,var2[,var3[....,varN]]]]

您可以通过使用del语句删除单个或多个对象。例如:

del var
del var_a, var_b

数值运算

实例

>>> 5 + 4 # 加法 9
>>> 4.3 - 2 # 减法 2.3
>>> 3 * 7 # 乘法 21
>>> 2 / 4 # 除法,得到一个浮点数 0.5
>>> 2 // 4 # 除法,得到一个整数 0
>>> 17 % 3 # 取余 2
>>> 2 ** 5 # 乘方 32

注意:

  • 1、Python可以同时为多个变量赋值,如a, b = 1, 2。
  • 2、一个变量可以通过赋值指向不同类型的对象。
  • 3、数值的除法包含两个运算符:/ 返回一个浮点数,// 返回一个整数。
  • 4、在混合计算时,Python会把整型转换成为浮点数。

数值类型实例

intfloatcomplex
100.03.14j
10015.2045.j
-786-21.99.322e-36j
08032.3e+18.876j
-0490-90.-.6545+0J
-0x260-32.54e1003e+26J
0x6970.2E-124.53e-7j

Python还支持复数,复数由实数部分和虚数部分构成,可以用a + bj,或者complex(a,b)表示, 复数的实部a和虚部b都是浮点型


String(字符串)

Python中的字符串用单引号(')或双引号(")括起来,同时使用反斜杠(\)转义特殊字符。

字符串的截取的语法格式如下:

变量[头下标:尾下标]

索引值以 0 为开始值,-1 为从末尾的开始位置。

加号 (+) 是字符串的连接符, 星号 (*) 表示复制当前字符串,紧跟的数字为复制的次数。实例如下:

实例

#!/usr/bin/python3
str = ' Runoob '
print ( str ) # 输出字符串
print ( str [ 0 :- 1 ] ) # 输出第一个到倒数第二个的所有字符
print ( str [ 0 ] ) # 输出字符串第一个字符
print ( str [ 2 : 5 ] ) # 输出从第三个开始到第五个的字符
print ( str [ 2 : ] ) # 输出从第三个开始的后的所有字符
print ( str * 2 ) # 输出字符串两次
print ( str + " TEST " ) # 连接字符串

执行以上程序会输出如下结果:

Runoob
Runoo
R
noo
noob
RunoobRunoob
RunoobTEST

Python 使用反斜杠(\)转义特殊字符,如果你不想让反斜杠发生转义,可以在字符串前面添加一个 r,表示原始字符串:

>>> print('Ru\noob')
Ru
oob
>>> print(r'Ru\noob')
Ru\noob
>>> 

另外,反斜杠(\)可以作为续行符,表示下一行是上一行的延续。也可以使用 """...""" 或者 '''...''' 跨越多行。

注意,Python 没有单独的字符类型,一个字符就是长度为1的字符串。

实例

>>> word = ' Python '
>>> print ( word [ 0 ] , word [ 5 ] )
P n
>>> print ( word [ - 1 ] , word [ - 6 ] )
n P

与 C 字符串不同的是,Python 字符串不能被改变。向一个索引位置赋值,比如word[0] = 'm'会导致错误。

注意:

  • 1、反斜杠可以用来转义,使用r可以让反斜杠不发生转义。
  • 2、字符串可以用+运算符连接在一起,用*运算符重复。
  • 3、Python中的字符串有两种索引方式,从左往右以0开始,从右往左以-1开始。
  • 4、Python中的字符串不能改变。

List(列表)

List(列表) 是 Python 中使用最频繁的数据类型。

列表可以完成大多数集合类的数据结构实现。列表中元素的类型可以不相同,它支持数字,字符串甚至可以包含列表(所谓嵌套)。

列表是写在方括号([])之间、用逗号分隔开的元素列表。

和字符串一样,列表同样可以被索引和截取,列表被截取后返回一个包含所需元素的新列表。

列表截取的语法格式如下:

变量[头下标:尾下标]

索引值以 0 为开始值,-1 为从末尾的开始位置。

加号(+)是列表连接运算符,星号(*)是重复操作。如下实例:

实例

#!/usr/bin/python3
list = [ ' abcd ' , 786 , 2.23 , ' runoob ' , 70.2 ]
tinylist = [ 123 , ' runoob ' ]
print ( list ) # 输出完整列表
print ( list [ 0 ] ) # 输出列表第一个元素
print ( list [ 1 : 3 ] ) # 从第二个开始输出到第三个元素
print ( list [ 2 : ] ) # 输出从第三个元素开始的所有元素
print ( tinylist * 2 ) # 输出两次列表
print ( list + tinylist ) # 连接列表

以上实例输出结果:

['abcd', 786, 2.23, 'runoob', 70.2]
abcd
[786, 2.23]
[2.23, 'runoob', 70.2]
[123, 'runoob', 123, 'runoob']
['abcd', 786, 2.23, 'runoob', 70.2, 123, 'runoob']

与Python字符串不一样的是,列表中的元素是可以改变的:

实例

>>> a = [ 1 , 2 , 3 , 4 , 5 , 6 ]
>>> a [ 0 ] = 9
>>> a [ 2 : 5 ] = [ 13 , 14 , 15 ]
>>> a [ 9 , 2 , 13 , 14 , 15 , 6 ]
>>> a [ 2 : 5 ] = [ ] # 将对应的元素值设置为 []
>>> a [ 9 , 2 , 6 ]

List内置了有很多方法,例如append()、pop()等等,这在后面会讲到。

注意:

  • 1、List写在方括号之间,元素用逗号隔开。
  • 2、和字符串一样,list可以被索引和切片。
  • 3、List可以使用+操作符进行拼接。
  • 4、List中的元素是可以改变的。

Tuple(元组)

元组(tuple)与列表类似,不同之处在于元组的元素不能修改。元组写在小括号 () 里,元素之间用逗号隔开。

元组中的元素类型也可以不相同:

实例

#!/usr/bin/python3
tuple = ( ' abcd ' , 786 , 2.23 , ' runoob ' , 70.2 )
tinytuple = ( 123 , ' runoob ' )
print ( tuple ) # 输出完整元组
print ( tuple [ 0 ] ) # 输出元组的第一个元素
print ( tuple [ 1 : 3 ] ) # 输出从第二个元素开始到第三个元素
print ( tuple [ 2 : ] ) # 输出从第三个元素开始的所有元素
print ( tinytuple * 2 ) # 输出两次元组
print ( tuple + tinytuple ) # 连接元组

以上实例输出结果:

('abcd', 786, 2.23, 'runoob', 70.2)
abcd
(786, 2.23)
(2.23, 'runoob', 70.2)
(123, 'runoob', 123, 'runoob')
('abcd', 786, 2.23, 'runoob', 70.2, 123, 'runoob')

元组与字符串类似,可以被索引且下标索引从0开始,-1 为从末尾开始的位置。也可以进行截取(看上面,这里不再赘述)。

其实,可以把字符串看作一种特殊的元组。

实例

>>> tup = ( 1 , 2 , 3 , 4 , 5 , 6 )
>>> print ( tup [ 0 ] ) 1
>>> print ( tup [ 1 : 5 ] ) ( 2 , 3 , 4 , 5 )
>>> tup [ 0 ] = 11 # 修改元组元素的操作是非法的
Traceback ( most recent call last ) :
File " <stdin> " , line 1 , in < module >
TypeError : ' tuple ' object does not support item assignment
>>>

虽然tuple的元素不可改变,但它可以包含可变的对象,比如list列表。

构造包含 0 个或 1 个元素的元组比较特殊,所以有一些额外的语法规则:

tup1 = ()    # 空元组
tup2 = (20,) # 一个元素,需要在元素后添加逗号

string、list和tuple都属于sequence(序列)。

注意:

  • 1、与字符串一样,元组的元素不能修改。
  • 2、元组也可以被索引和切片,方法一样。
  • 3、注意构造包含0或1个元素的元组的特殊语法规则。
  • 4、元组也可以使用+操作符进行拼接。

Set(集合)

集合(set)是一个无序不重复元素的序列。

基本功能是进行成员关系测试和删除重复元素。

可以使用大括号 { } 或者 set() 函数创建集合,注意:创建一个空集合必须用 set() 而不是 { },因为 { } 是用来创建一个空字典。

创建格式:

parame = {value01,value02,...}
或者
set(value)

实例

#!/usr/bin/python3
student = { ' Tom ' , ' Jim ' , ' Mary ' , ' Tom ' , ' Jack ' , ' Rose ' }
print ( student ) # 输出集合,重复的元素被自动去掉
# 成员测试
if ( ' Rose ' in student ) :
print ( ' Rose 在集合中 ' )
else :
print ( ' Rose 不在集合中 ' )
# set可以进行集合运算
a = set ( ' abracadabra ' )
b = set ( ' alacazam ' )
print ( a )
print ( a - b ) # a和b的差集
print ( a | b ) # a和b的并集
print ( a & b ) # a和b的交集
print ( a ^ b ) # a和b中不同时存在的元素

以上实例输出结果:

{'Mary', 'Jim', 'Rose', 'Jack', 'Tom'}
Rose 在集合中
{'b', 'a', 'c', 'r', 'd'}
{'b', 'd', 'r'}
{'l', 'r', 'a', 'c', 'z', 'm', 'b', 'd'}
{'a', 'c'}
{'l', 'r', 'z', 'm', 'b', 'd'}

Dictionary(字典)

字典(dictionary)是Python中另一个非常有用的内置数据类型。

列表是有序的对象集合,字典是无序的对象集合。两者之间的区别在于:字典当中的元素是通过键来存取的,而不是通过偏移存取。

字典是一种映射类型,字典用"{ }"标识,它是一个无序的键(key) : 值(value)对集合。

键(key)必须使用不可变类型。

在同一个字典中,键(key)必须是唯一的。

实例

#!/usr/bin/python3
dict = {}
dict [ ' one ' ] = " 1 - 菜鸟教程 "
dict [ 2 ] = " 2 - 菜鸟工具 "
tinydict = { ' name ' : ' runoob ' , ' code ' : 1 , ' site ' : ' www.runoob.com ' }
print ( dict [ ' one ' ] ) # 输出键为 'one' 的值
print ( dict [ 2 ] ) # 输出键为 2 的值
print ( tinydict ) # 输出完整的字典
print ( tinydict . keys ( ) ) # 输出所有键
print ( tinydict . values ( ) ) # 输出所有值

以上实例输出结果:

1 - 菜鸟教程
2 - 菜鸟工具
{'name': 'runoob', 'site': 'www.runoob.com', 'code': 1}
dict_keys(['name', 'site', 'code'])
dict_values(['runoob', 'www.runoob.com', 1])

构造函数 dict() 可以直接从键值对序列中构建字典如下:

实例

>>> dict ( [ ( ' Runoob ' , 1 ) , ( ' Google ' , 2 ) , ( ' Taobao ' , 3 ) ] )
{ ' Taobao ' : 3 , ' Runoob ' : 1 , ' Google ' : 2 }
>>> { x : x ** 2 for x in ( 2 , 4 , 6 ) }
{ 2 : 4 , 4 : 16 , 6 : 36 }
>>> dict ( Runoob = 1 , Google = 2 , Taobao = 3 )
{ ' Taobao ' : 3 , ' Runoob ' : 1 , ' Google ' : 2 }

另外,字典类型也有一些内置的函数,例如clear()、keys()、values()等。

注意:

  • 1、字典是一种映射类型,它的元素是键值对。
  • 2、字典的关键字必须为不可变类型,且不能重复。
  • 3、创建空字典使用 { }

Python数据类型转换

有时候,我们需要对数据内置的类型进行转换,数据类型的转换,你只需要将数据类型作为函数名即可。

以下几个内置的函数可以执行数据类型之间的转换。这些函数返回一个新的对象,表示转换的值。

函数描述

int(x [,base])

将x转换为一个整数

float(x)

将x转换到一个浮点数

complex(real [,imag])

创建一个复数

str(x)

将对象 x 转换为字符串

repr(x)

将对象 x 转换为表达式字符串

eval(str)

用来计算在字符串中的有效Python表达式,并返回一个对象

tuple(s)

将序列 s 转换为一个元组

list(s)

将序列 s 转换为一个列表

set(s)

转换为可变集合

dict(d)

创建一个字典。d 必须是一个序列 (key,value)元组。

frozenset(s)

转换为不可变集合

chr(x)

将一个整数转换为一个字符

ord(x)

将一个字符转换为它的整数值

hex(x)

将一个整数转换为一个十六进制字符串

oct(x)

将一个整数转换为一个八进制字符串

<think>好的,我需要帮助用户了解Python的六个标准数据类型(Number, String, List, Tuple, Set, Dictionary)在机器学习中的适用场景。首先,我应该回顾每个数据类型的基本特性和用途,然后结合机器学习的常见任务,分析它们的具体应用场景。 首先,Number类型包括整数、浮点数、复数等,机器学习中很多数值计算都依赖于此,比如特征值、权重参数、损失值等。需要具体例子,比如使用浮点数存储特征矩阵中的数值。 接下来是String类型,处理文本数据时必不可少,比如自然语言处理中的原始文本、标签名称、文件路径等。可能需要提到数据清洗时字符串操作,如分词、正则表达式处理。 List作为有序可变的容器,适用于存储可动态变化的数据序列,比如批量训练数据的分批存储、特征列表、模型参数的调整。例如,在训练循环中,每个epoch的损失值可能存储在list中。 Tuple有序不可变,适合存储不需要修改的数据,如超参数组合、数据集的维度信息。在函数返回多个值时常用tuple,例如返回模型评估的准确率、精确率、召回率等指标。 Set用于存储唯一元素,适合去重和集合运算,比如在数据预处理阶段去除重复样本,或统计类别标签的唯一值。例如,处理分类问题时,用set获取所有可能的类别标签。 Dictionary通过键值对存储数据,适合结构化数据的存储和快速查找,比如特征字典(词袋模型)、模型参数的命名(如神经网络层的权重)、配置参数的保存。例如,在预处理中,用字典映射类别标签到数值。 接下来需要结合机器学习流程的不同阶段,如数据预处理、模型训练、结果评估等,具体说明各个数据类型的使用场景。比如,在数据预处理阶段,字符串处理、列表用于特征存储,字典用于编码映射;训练阶段,数值类型用于计算,元组用于固定超参数;评估阶段,列表记录指标,集合用于唯一类标签。 同时,需要考虑引用用户提供的站内引用内容,比如引用[1]关于字典的特性,引用[3]关于集合的无序性和唯一性,引用[4]关于元组和列表的转换。但用户的问题主要围绕机器学习场景,所以需要将引用内容自然融入,例如提到字典在存储特征时的应用,引用[1]中字典的特性支持这一点。 需要确保每个数据类型的适用场景具体且与实际机器学习任务相关,避免泛泛而谈。例如,Number不仅是存储数值,还要说明在矩阵运算、梯度下降中的具体使用;String在NLP中的具体处理步骤,如分词后的存储结构可能用list或字典。 最后,整理结构,分点详细说明每个数据类型在机器学习中的使用方式和适用情况,确保回答清晰、结构合理,并附上相关问题。同时检查是否符合用户之前的对话历史,比如用户之前询问过注意力机制,但当前问题独立,需专注于数据类型在ML中的应用。</think>### Python六大数据类型在机器学习中的应用解析 #### 一、**Number(数值类型)** - **适用场景** 1. **特征存储**:存储特征矩阵中的数值(如浮点数 $x=3.14$ 表示像素强度)[^1] 2. **模型参数**:权重 $w$ 和偏置 $b$ 的数值计算(如线性回归 $y = wx + b$) 3. **损失函数计算**:均方误差(MSE)、交叉熵等损失值的存储 - **示例代码** ```python learning_rate = 0.001 # 浮点数定义学习率 epoch_loss = [0.5, 0.3, 0.2] # 列表存储每轮训练损失(ListNumber结合) ``` --- #### 二、**String(字符串类型)** - **适用场景** 1. **文本数据处理**:自然语言处理(NLP)中的原始文本(如 $text = "机器学习"$)[^2] 2. **标签编码**:分类标签的字符串表示(如类别标签 "cat", "dog") 3. **文件路径管理**:数据集路径(如 `path = "data/train.csv"`) - **示例代码** ```python labels = ["spam", "not_spam"] # 分类任务标签(StringList结合) text_cleaned = " ".join([word.lower() for word in raw_text.split()]) # 文本清洗 ``` --- #### 三、**List(列表)** - **适用场景** 1. **批量数据存储**:训练数据的批次划分(如 `batch_data = [sample1, sample2]`) 2. **动态特征集合**:存储特征工程生成的临时特征(如 `features = [age, income]`) 3. **模型输出记录**:保存预测结果或中间层输出(如 `predictions = [0.7, 0.3]`) - **与Tuple对比** List**可变**特性适用于需动态修改的场景(如数据增强时追加新样本)[^4]。 --- #### 四、**Tuple(元组)** - **适用场景** 1. **超参数配置**:不可变参数组(如 `hyper_params = (0.01, 100)`) 2. **数据维度定义**:图像尺寸 `shape = (224, 224, 3)` 3. **多返回值封装**:模型评估指标(如 `return (accuracy, precision)`) - **优势** 内存效率高于List,适合存储固定数据(引用[4]中元组与列表的转换逻辑)[^4]。 --- #### 五、**Set(集合)** - **适用场景** 1. **数据去重**:去除重复样本(如 `unique_samples = set(raw_data)`) 2. **标签唯一值提取**:分类任务中获取类别集合(如 `classes = set(labels)`) 3. **集合运算**:计算特征交集/并集(如 `common_features = set1 & set2`) - **特性** 无序性适合无需顺序的场景(引用[3]中集合的定义)[^3]。 --- #### 六、**Dictionary(字典)** - **适用场景** 1. **特征编码映射**:词袋模型中的词到索引的映射(如 `word2idx = {"apple": 0, "banana": 1}`) 2. **模型参数命名存储**:神经网络层权重的结构化保存(如 `params = {"W1": W1, "b1": b1}`) 3. **配置管理**:实验参数的集中存储(如 `config = {"batch_size": 32, "lr": 0.001}`) - **优势** 键值对结构支持快速查找(引用[1]中字典的特性)[^1]。 --- ### 数据类型选择对比表 | **数据类型** | **典型机器学习用例** | **关键优势** | |--------------|-------------------------------------|---------------------------------| | Number | 损失值计算、矩阵运算 | 精确数值表示,支持数学操作 | | String | 文本数据预处理、标签管理 | 非结构化数据原生表达 | | List | 动态数据批次、特征集合 | 灵活增删,内存连续 | | Tuple | 超参数组、数据维度定义 | 不可变性保障数据安全 | | Set | 数据去重、类别标签提取 | 唯一性保证,高效集合运算 | | Dictionary | 特征编码、模型参数管理 | 键值映射,快速检索 | --- #### 综合应用示例 ```python # 数据预处理流程 texts = ["dog cat", "cat fish"] # List存储原始文本 word_set = set(" ".join(texts).split()) # Set提取唯一词汇 → {"dog", "cat", "fish"} word2idx = {word: i for i, word in enumerate(word_set)} # Dictionary生成编码映射 # 模型训练 hyper_params = (100, 0.01) # Tuple定义(epochs, learning_rate) loss_history = [] # List记录损失曲线 for epoch in range(hyper_params[0]): batch_loss = 0.0 # Number存储当前批次损失 # ... 训练逻辑 ... loss_history.append(round(batch_loss, 2)) # 浮点数精度控制 ``` --- #### 相关问题 1. 如何在特征工程中结合ListDictionary实现类别编码? 2. 为什么机器学习模型常使用Tuple而非List存储超参数?[^4] 3. 使用Set去重时如何避免破坏数据顺序?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值