以Unicode表示的str通过encode()方法可以编码为指定的bytes,例如:
‘ABC’.encode(‘ascii’)
b’ABC’
反过来,如果我们从网络或磁盘上读取了字节流,那么读到的数据就是bytes。要把bytes变为str,就需要用decode()方法:
b’ABC’.decode(‘ascii’)
‘ABC’
要计算str包含多少个字符,可以用len()函数:
len(‘ABC’)
3len(‘中文’)
2len(‘ABC’)
3len(b’ABC’)
3len()函数计算的是str的字符数,如果换成bytes,len()函数就计算字节数:len(‘中文’.encode(‘utf-8’))
6
可见,1个中文字符经过UTF-8编码后通常会占用3个字节,而1个英文字符只占用1个字节。
在Python中,采用的格式化方式和C语言是一致的,用%实现,举例如下:
‘Hello, %s’ % ‘world’
‘Hello, world’‘Hi, %s, you have $%d.’ % (‘Michael’, 1000000)
‘Hi, Michael, you have $1000000.’
%运算符就是用来格式化字符串的。在字符串内部,%s表示用字符串替换,%d表示用整数替换,有几个%?占位符,后面就跟几个变量或者值,顺序要对应好。如果只有一个%?,括号可以省略。
常见的占位符有:
占位符 替换内容
%d 整数
%f 浮点数
%s 字符串
%x 十六进制整数
其中,格式化整数和浮点数还可以指定是否补0和整数与小数的位数:
‘Hi, %s, you have $%d.’%(‘skye’,100000000)
‘Hi, skye, you have $100000000.’
‘%2d-%2d’ % (3, 1)
’ 3- 1’‘%d-0%2d’ % (3, 1)
‘3-0 1’