Python--字符&变量&格式化

本文介绍了Python中的变量定义、类型及命名规则,强调了Python的动态解释性和强类型特性。详细讨论了字符编码,包括ASCII、GB2312、Unicode和UTF-8的区别和作用,以及它们在全球语言处理中的重要性。还提及了编码流程、常用字符和算术运算符号,最后简要提到了格式化输入输出和`format`函数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

变量

变量定义

在 Python 中,每个变量      在使用前都必须赋值,变量      赋值以后      该变量 才会被创建
等号(=)用来给变量赋值      = 左边是一个变量名,= 右边是存储在变量中的值
    
     变量名 = 值
     变量定义之后,后续就可以直接使用了

变量的类型

在内存中创建一个变量,会包括:
变量的名称
变量保存的数据
变量存储数据的类型
变量的地址(标示)
在Python中定义变量是      不需要指定类型(在其他很多高级语言中都需要)
Python可以根据等号右侧的值,自动推导出变量中存储数据的类型
数据类型可以分为 数字型 和 非数字型

变量的命名规则

变量在程序中就是用一个变量名表示了,变量名必须是大小写英文、数字和_的组合,且不能用数字开头
Python是一门动bai态语言,也可以称为是一du种弱类zhi型语言,在变量定义时dao,并不需要明确zhuan的给出数据的类型,shu程序在执行时,解释器会根据实际数据的类型进行自动推导。
由字母、数字、下划线组成
只能以字母或者下划线开头
尽量不要和关键字重名
s = 'hello#'是错误的命名,因为含有特殊字符

PYTHON是一门动态解释性的强类型定义语言:编写时无需定义变量类型;运行时变量类型强制固定;无需编译,在解释器环境直接运行。

动态和静态

静态语言:是指在编译时变量的数据类型即可确定的语言,多数静态类型语言要求在使用变量之前必须声明数据类型。例如:C++、Java、Delphi、C# 、go等。
动态语言:是在运行时确定数据类型的语言。变量使用之前不需要类型声明,通常变量的类型是被赋值的那个值的类型。例如:Python、Ruby、Perl等。

强类型和弱类型

强类型和弱类型主要是站在变量类型处理的角度进行分类的。

强类型是指不允许隐式变量类型转换,弱类型则允许隐式类型转换。

所以,关键在于变量数据类型的转换。

隐式类型转换

隐式是指源码中没有明显的类型转换代码,也就是说,一个变量,你可以直接给他赋值字符串,也可以直接给他赋值数值,你还可以直接让字符串类型的变量和数值类型的变量相加,虽然得出的最终结果未必是你想象的那样,但一定不会报错。

这就是隐式类型转换,弱类型语言,如javascript、php。

Java是强类型语言,不允许隐式类型转换,也就是说,如果你需要拿一个字符串变量当做整型来用,你必须显式地将变量类型转换好。

换句话说:

强类型语言,当你定义一个变量是某个类型,如果不经过代码显式转换(强制转化)过,它就永远都是这个类型,如果把它当做其他类型来用,就会报错
弱类型语言,你想把这个变量当做什么类型来用,就当做什么类型来用,语言的解析器会自动(隐式)转换。

在这里插入图片描述

数值

int(x [,base])将x转换为一个整数
float(x )将x转换到一个浮点数
complex(real [,imag])创建一个复数
str(x)将对象x转换为字符串
repr(x)将对象x转换为表达式字符串
eval(str)用来计算在字符串中的有效Python表达式,并返回一个对象
tuple(s)将序列s转换为一个元组
list(s)将序列s转换为一个列表
chr(x)将一个整数转换为一个字符
unichr(x)将一个整数转换为Unicode字符
ord(x)将一个字符转换为它的整数值
hex(x)将一个整数转换为一个十六进制字符串
oct(x)将一个整数转换为一个八进制字符串
数学函数
abs(x)返回数字的绝对值,如abs(-10) 返回 10
ceil(x)返回数字的上入整数,如math.ceil(4.1) 返回 5
cmp(x, y)如果 x < y 返回 -1, 如果 x == y 返回 0, 如果 x > y 返回 1
exp(x)返回e的x次幂(ex),如math.exp(1) 返回2.718281828459045
fabs(x)返回数字的绝对值,如math.fabs(-10) 返回10.0
floor(x)返回数字的下舍整数,如math.floor(4.9)返回 4
log(x)如math.log(math.e)返回1.0,math.log(100,10)返回2.0
log10(x)返回以10为基数的x的对数,如math.log10(100)返回 2.0
max(x1, x2,…)返回给定参数的最大值,参数可以为序列。
min(x1, x2,…)返回给定参数的最小值,参数可以为序列。
modf(x)返回x的整数部分与小数部分,两部分的数值符号与x相同,整数部分以浮点型表示。
pow(x, y)x**y 运算后的值。
round(x [,n])返回浮点数x的四舍五入值,如给出n值,则代表舍入到小数点后的位数。
sqrt(x)返回数字x的平方根,数字可以为负数,返回类型为实数,如math.sqrt(4)返回 2+0j

在这里插入图片描述

布尔值

在这里插入图片描述

字符编码

编码方式

1.ASCII   现在我们面临了第一个问题:如何让人类语言,比如英文被计算机理解?我们以英文为例,英文中有英文字母(大小写)、标点符号、特殊符号。如果我们将这些字母与符号给予固定的编号,然后将这些编号转变为二进制,那么计算机明显就能够正确读取这些符号,同时通过这些编号,计算机也能够将二进制转化为编号对应的字符再显示给人类去阅读。由此产生了我们最熟知的ASCII码。ASCII
码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。这样在大部分情况下,英文与二进制的转换就变得容易多了。

2.GB2312   虽然计算机是美国人发明的,但是全世界的人都在使用计算机。现在出现了另一个问题:如何让中文被计算机理解?这下麻烦了,中文不像拉丁语系是由固定的字母排列组成的。ASCII
码显然没办法解决这个问题,为了解决这个问题,中国国家标准总局1980年发布《信息交换用汉字编码字符集》提出了GB2312编码,用于解决汉字处理的问题。1995年又颁布了《汉字编码扩展规范》(GBK)。GBK与GB
2312—1980国家标准所对应的内码标准兼容,同时在字汇一级支持ISO/IEC10646—1和GB
13000—1的全部中、日、韩(CJK)汉字,共计20902字。这样我们就解决了计算机处理汉字的问题了。

3.Unicode   现在英文和中文问题被解决了,但新的问题又出现了。全球有那么多的国家不仅有英文、中文还有阿拉伯语、西班牙语、日语、韩语等等。难不成每种语言都做一种编码?基于这种情况一种新的编码诞生了:Unicode。Unicode又被称为统一码、万国码;它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。Unicode支持欧洲、非洲、中东、亚洲(包括统一标准的东亚象形汉字和韩国表音文字)。这样不管你使用的是英文或者中文,日语或者韩语,在Unicode编码中都有收录,且对应唯一的二进制编码。这样大家都开心了,只要大家都用Unicode编码,那就不存在这些转码的问题了,什么样的字符都能够解析了。

4.UTF-8   但是,由于Unicode收录了更多的字符,可想而知它的解析效率相比ASCII码和GB2312的速度要大大降低,而且由于Unicode通过增加一个高字节对ISO
Latin-1字符集进行扩展,当这些高字节位为0时,低字节就是ISO
Latin-1字符。对可以用ASCII表示的字符使用Unicode并不高效,因为Unicode比ASCII占用大一倍的空间,而对ASCII来说高字节的0毫无用处。为了解决这个问题,就出现了一些中间格式的字符集,他们被称为通用转换格式,即UTF(Unicode Transformation Format)。而我们最常用的UTF-8就是这些转换格式中的一种。在这里我们不去研究UTF-8到底是如何提高效率的,你只需要知道他们之间的关系即可。

多字节字符编码 GBK ASCII
字符编码是单字节编码,计算机进入中国后面临的一个问题是如何处理汉字,对于拉丁语系国家来说通过扩展最高位,单字节表示所有的字符已经绰绰有余,但是对于亚洲国家来说一个字节就显得捉襟见肘了。于是中国人自己弄了一套叫 GB2312 的双字节字符编码,又称GB0,1981 由中国国家标准总局发布。GB2312 编码共收录了6763个汉字,同时他还兼容ASCII,GB 2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率,不过 GB2312还是不能100%满足中国汉字的需求,对一些罕见的字和繁体字 GB2312 没法处理,后来就在GB2312的基础上创建了一种叫 GBK的编码,GBK 不仅收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。同样 GBK 也是兼容 ASCII编码的,对于英文字符用1个字节来表示,汉字用两个字节来标识。

编码流程

在 python2 中和字符串相关的数据类型有 strunicode 两种类型,
它们继承自 basestring,而 str 类型的字符串的编码格式可以是 ascii、utf-8、gbk等任何一种类型。

对于汉字『好』,用 str 表示时,
它对应的 utf-8 编码 是'\xe5\xa5\xbd',
对应的 gbk 编码是 '\xba\xc3',
而用 unicode 表示时,他对应的符号就是u'\u597d',与u"好" 是等同的。
strunicode 的转换

在 Python 中 strunicode 之间是如何转换的呢?这两种类型的字符串之间的转换就是靠decode 和 encode 这两个函数。
encode 负责将unicode 编码成指定的字符编码,用于存储到磁盘或传输到网络中。
而 decode 方法是根据指定的编码方式解码后在应用程序中使用。
#从unicode转换到str用 encode 
>>> b = u'好'
>>> c = b.encode('utf-8') 
>>> type(c) 
<type 'str'> 
>>> c 
'\xe5\xa5\xbd'
#从str类型转换到unicode用decode 
>>> d = c.decode('utf-8') 
>>> type(d) 
<type 'unicode'> 
>>> d 
u'\u597d'

编码问题

UnicodeXXXError 错误的原因
在字符编码转换操作时,遇到最多的问题就是 UnicodeEncodeError 和 UnicodeDecodeError 错误了,这些错误的根本原因在于 Python2 默认是使用 ascii 编码进行 decode 和 encode 操作,例如:

>>> s = '你好'
>>> s.decode() 
Traceback (most recent call last): 
 File "<stdin>", line 1, in <module> 
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

当把 s 转换成 unicode 类型的字符串时,decode 方法默认使用 ascii 编码进行解码,
而 ascii 字符集中根本就没有中文字符『你好』,所以就出现了 UnicodeDecodeError,正确的方式是显示地指定 UTF-8 字符编码。


>>> s.decode('utf-8') 
u'\u4f60\u597d'

同样地道理,对于 encode 操作,把 unicode字符串转换成 str类型的字符串时,默认也是使用 ascii 编码进行编码转换的,而 ascii 字符集找不到中文字符『你好』,于是就出现了UnicodeEncodeError 错误。

>>> a = u'你好'
>>> a.encode() 
Traceback (most recent call last): 
 File "<stdin>", line 1, in <module> 
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)
case 2

str 类型与 unicode 类型的字符串混合使用时,str 类型的字符串会隐式地将 str 转换成 unicode字符串,如果 str字符串是中文字符,那么就会出现UnicodeDecodeError 错误,因为 python2 默认会使用 ascii 编码来进行 decode 操作。

>>> s = '你好' # str类型 
>>> y = u'python' # unicode类型 
>>> s + y # 隐式转换,即 s.decode('ascii') + u 
Traceback (most recent call last): 
 File "<stdin>", line 1, in <module> 
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

正确地方式是显示地指定 UTF-8 字符编码进行解码

.decode('utf-8') +y 
u'\u4f60\u597dpython'
乱码
所有出现乱码的原因都可以归结为字符经过不同编码解码在编码的过程中使用的编码格式不一致,比如:

# encoding: utf-8 
>>> a='好'
>>> a 
'\xe5\xa5\xbd'
>>> b=a.decode("utf-8") 
>>> b 
u'\u597d'
>>> c=b.encode("gbk") 
>>> c 
'\xba\xc3'
>>> print c
utf-8编码的字符‘好'占用3个字节,解码成Unicode后,如果再用gbk来解码后,只有2个字节的长度了,最后出现了乱码的问题,因此防止乱码的最好方式就是始终坚持使用同一种编码格式对字符进行编码和解码操作。

在这里插入图片描述

常用字符

转义字符
\(在行尾时) 续行符
\反斜杠符号
' '单引号,不支持转义
" "双引号
""" """三引号,保留格式输入
\a响铃
\b退格(Backspace)
\000
\n换行
\v纵向制表符
\t横向制表符
\r回车
\f换页
\yyy八进制数,y 代表 0~7 的字符,例如:\012 代表换行。
\xyy十六进制数,以 \x 开头,y 代表的字符,例如:\x0a 代表换行
\other其它的字符以普通格式输出

在这里插入图片描述

算术运算符号

Python算术运算符
+加 - 两个对象相加 a + b 输出结果 31
-减 - 得到负数或是一个数减去另一个数 a - b 输出结果 -11
*乘 - 两个数相乘或是返回一个被重复若干次的字符串 a * b 输出结果 210
/除 - x 除以 y b / a 输出结果 2.1
%取模 - 返回除法的余数 b % a 输出结果 1
**幂 - 返回x的y次幂 a**b 为10的21次方
//取整除 - 向下取接近商的整数
比较运算符
==等于 - 比较对象是否相等 (a == b) 返回 False。
!=不等于 - 比较两个对象是否不相等 (a != b) 返回 True。
>大于 - 返回x是否大于y (a > b) 返回 False。
<小于 - 返回x是否小于y。所有比较运算符返回1表示真,返回0表示假。这分别与特殊的变量True和False等价。注意,这些变量名的大写。 (a < b) 返回 True。
>=大于等于 - 返回x是否大于等于y。 (a >= b) 返回 False。
<=小于等于 - 返回x是否小于等于y。 (a <= b) 返回 True。
赋值运算符
=简单的赋值运算符 c = a + b 将 a + b 的运算结果赋值为 c
+=加法赋值运算符 c += a 等效于 c = c + a
-=减法赋值运算符 c -= a 等效于 c = c - a
*=乘法赋值运算符 c *= a 等效于 c = c * a
/=除法赋值运算符 c /= a 等效于 c = c / a
%=取模赋值运算符 c %= a 等效于 c = c % a
**=幂赋值运算符 c **= a 等效于 c = c ** a
//=取整除赋值运算符 c //= a 等效于 c = c // a
:=海象运算符,可在表达式内部为变量赋值。Python3.8 版本新增运算符。
位运算符
&按位与运算符:参与运算的两个值,如果两个相应位都为1,则该位的结果为1,否则为0 (a & b) 输出结果 12 ,二进制解释: 0000 1100
||按位或运算符:只要对应的二个二进位有一个为1时,结果位就为1。
^按位异或运算符:当两对应的二进位相异时,结果为1 (a ^ b) 输出结果 49 ,二进制解释: 0011 0001
~按位取反运算符:对数据的每个二进制位取反,即把1变为0,把0变为1。~x 类似于 -x-1 (~a ) 输出结果 -61 ,二进制解释: 1100 0011, 在一个有符号二进制数的补码形式。
<<左移动运算符:运算数的各二进位全部左移若干位,由"<<"右边的数指定移动的位数,高位丢弃,低位补0。 a << 2 输出结果 240 ,二进制解释: 1111 0000
>>右移动运算符:把">>“左边的运算数的各二进位全部右移若干位,”>>"右边的数指定移动的位数 a >> 2 输出结果 15 ,二进制解释: 0000 1111
逻辑运算符
andx and y 布尔"与" - 如果 x 为 False,x and y 返回 x 的值,否则返回 y 的计算值。 (a and b) 返回 20。
orx or y 布尔"或" - 如果 x 是 True,它返回 x 的值,否则它返回 y 的计算值。 (a or b) 返回 10。
notnot x 布尔"非" - 如果 x 为 True,返回 False 。如果 x 为 False,它返回 True。 not(a and b) 返回 False
成员运算符
in如果在指定的序列中找到值返回 True,否则返回 False。 x 在 y 序列中 , 如果 x 在 y 序列中返回 True。
not in如果在指定的序列中没有找到值返回 True,否则返回 False。 x 不在 y 序列中 , 如果 x 不在 y 序列中返回 True。
运算符优先级
**指数 (最高优先级)
~ + -按位翻转, 一元加号和减号 (最后两个的方法名为 +@ 和 -@)
* / % //乘,除,求余数和取整除
+ -加法减法
`>> <<右移,左移运算符
&位 ‘AND’
^位运算符
<= < > >=比较运算符
== !=等于运算符
= %= /= //= -= += *= **=赋值运算符
is is not身份运算符
in not in成员运算符
not and or逻辑运算符

在这里插入图片描述

格式化输入输出

格式化输出

语法
print("格式化字符串" % 变量1)
print("格式化字符串" % (变量1, 变量2...))
多个需要用逗号隔开,外面有个括号
根据变量名的顺序,会按照占位符的顺序进行替换
%s字符串
%d整数
%f浮点数(小数)
%06d整数,不足6位,用0补齐
%.2f小数,保留两位小数
%s,%d,%f,叫做 “占位符”
%被称为 格式化操作符

输入:

input("提示信息")
作用/效果:
等待用户输入,直到输入完成后,后面的代码才会运行。
接受到用户输入的都是字符串
如果将字符串转成整数或浮点数
int(x) 整数
float(x) 浮点数

format函数

Python2.6 开始,新增了一种格式化字符串的函数 str.format(),它增强了字符串格式化的功能。
基本语法是通过 {}: 来代替以前的 %format 函数可以接受不限个参数,位置可以不按顺序。
"{} {}".format("hello", "world")
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值