python 全栈开发,Day4(列表切片,增删改查,常用操作方法,元组,range,join)

本文介绍了Python全栈开发Day4的学习内容,包括列表的基本操作(增删改查)、常用方法、元组、range函数、join函数等。通过具体实例详细讲解了列表的切片、迭代、排序等功能,并提供了丰富的练习题帮助读者巩固所学知识。

python 全栈开发,Day4(列表切片,增删改查,常用操作方法,元组,range,join)

一、列表

列表是python中的基础数据类型之一,它是以[]括起来,每个元素以逗号隔开,而且他里面可以存放各种数据类型比如:

li = [‘alex’,123,Ture,(1,2,3,’wusir’),[1,2,3,’小明’,],{‘name’:’alex’}]

列表相比于字符串,不仅可以储存不同的数据类型,而且可以储存大量数据。列表是有序的,有索引值,可切片,方便取值。

索引,切片,步长

li = ['xiao',123,True,(1,2,3,'wusir'),[1,2,3,'小明',],{'name':'xiao'}]
print(li[0])
print(li[2])
print(li[1:4])
print(li[:5:2])
#倒着取,后2个
print(li[-1:-3:-1])

执行输出:

xiao
True
[123, True, (1, 2, 3, 'wusir')]
['xiao', True, [1, 2, 3, '小明']]
[{'name': 'xiao'}, [1, 2, 3, '小明']]

 

下面介绍列表的增、删、改、查

append() 追加,在最后一个位置添加元素

li = [1,'a','b',2,3,'a','laonaihai']
li.append('xiao')
print(li)

执行输出:

[1, 'a', 'b', 2, 3, 'a', 'laonaihai', 'xiao']

 

insert() 按照索引添加
将元素插入到指定的索引值位置,后面的元素索引值会自动加1

li = [1,'a','b',2,3,'a','laonaihai']
li.insert(2,'zhang')
print(li)

仔细输出:

[1, 'a', 'zhang', 'b', 2, 3, 'a', 'laonaihai']

 

extend() 迭代着添加

在最后的位置,迭代每一个元素,依次添加。

li = [1,'a','b',2,3,'a','laonaihai']
li.extend('ABC')
print(li)

执行输出:

[1, 'a', 'b', 2, 3, 'a', 'laonaihai', 'A', 'B', 'C']

 

使用输入框方式添加元素

name_list = ['张无忌','张敏','胡歌','江疏影']
while True:
    name = input('请输入新员工姓名:Q/q ').strip()
    if name.upper() == 'Q':break
    else:
        name_list.append(name)
        print('已成功添加新员工%s' % name)

print(name_list)

执行输出:

 


pop() 按照索引删除
默认删除最后一个

li = [1,'a','b',2,3,'a','laonaihai']
li.pop()
print(li)

执行输出:

[1, 'a', 'b', 2, 3, 'a']

 

删除索引值为1的元素

li = [1,'a','b',2,3,'a','laonaihai']
li.pop(1)
print(li)

执行输出:

[1, 'b', 2, 3, 'a', 'laonaihai']

 

pop() 是增删改查,所有方法里面,唯一有返回值的方法。
返回删除的元素。
pop()只能删除一个元素

 

remove() 按照元素删除,只能删除一个

li = [1,'a','b','a',2,3,'a','laonaihai']
li.remove('a')
print(li)

执行输出:

[1, 'b', 'a', 2, 3, 'a', 'laonaihai']

 

clear() 清空列表的所有元素

li = [1,'a','b','a',2,3,'a','laonaihai']
li.clear()
print(li)

执行输出:

[]

 

del 删除列表

li = [1,'a','b','a',2,3,'a','laonaihai']
del li

 

切片删除

li = [1,'a','b','a',2,3,'a','laonaihai']
del li[:3]
print(li)

执行输出:

['a', 2, 3, 'a', 'laonaihai']  


跳着删除

li = [1,'a','b','a',2,3,'a','laonaihai']
del li[:3:2]
print(li)

执行输出:

['a', 'a', 2, 3, 'a', 'laonaihai']

 


使用赋值修改

按照索引改,是一个整体修改
a改成A

li = [1,'a','b','a',2,3,'a','laonaihai']
li[1] = 'A'
print(li)

执行输出:

[1, 'A', 'b', 'a', 2, 3, 'a', 'laonaihai']

 

切片修改
不是整体,而是迭代添加。

li = [1,'a','b','a',2,3,'a','laonaihai']
li[:3] = 'aq'
print(li)

执行输出:

['a', 'q', 'a', 2, 3, 'a', 'laonaihai']


切片,添加一个列表

li = [1,'a','b','a',2,3,'a','laonaihai']
li[:3] = [11,22,33,44]
print(li)

执行输出:

[11, 22, 33, 44, 'a', 2, 3, 'a', 'laonaihai']

 

切片修改的执行过程是,先删除切片部分,再迭代添加的对象,依次添加元素。

比如上面的11,22,33

 


索引,切片,步长,查看方法,和字符串操作是一样的,这里不再举例。
for 循环

li = [1,'a','b','a',2,3,'a','laonaihai']
for i in li:
    print(i)

执行输出:

1
a
b
a
2
3
a
laonaihai

 

其他操作方法:
sort() 从小到大,正向排序

li = [1,2,7,8,5,6,3,4]
li.sort()
print(li)

执行输出:

[1, 2, 3, 4, 5, 6, 7, 8]

 

从大到小,反向排序

li = [1,2,7,8,5,6,3,4]
li.sort(reverse=True)
print(li)

执行输出:

[8, 7, 6, 5, 4, 3, 2, 1]

 

reverse() 翻转

翻转,就是将右边的元素和左边的元素进行对换。

li = [1,2,7,8,5,6,3,4]
li.reverse()
print(li)

执行输出:

[4, 3, 6, 5, 8, 7, 2, 1]

 

任何排序都不如sort和reverse 快。
如果没有明确要求指定排序方法,优先使用sort和reverse

 

len() 查看数据长度

li = [1,2,7,8,5,6,3,4]
print(len(li))

执行输出:

8

 

count() 统计元素出现次数

li = [1,2,7,8,5,6,3,4]
print(li.count(7))

执行输出:

1

 

index() 通过元素找索引

li = [1,'a','b','a',2,3,'a','laonaihai']
print(li.index('a'))

执行输出:

1

 

列表的嵌套

li = [1,2,'alex',['100','wusir',99],22]

1.将alex 变成首字母大写的Alex
2.将wusir变成全部大写的wusir放到原处
3.将99加1变成100,返回原处

 

解题答案:

li = [1,2,'alex',['100','wusir',99],22]
#首字母大写
li[2] = li[2].capitalize()
#转换大写
li[3][1] = li[3][1].upper()
#数值加1
li[3][2] += 1
print(li)

执行输出:

[1, 2, 'Alex', ['100', 'WUSIR', 100], 22]

 

二、元组tupe

元组被称为只读列表,即数据可以被查询,但不能被修改,所以,字符串的切片操作同样适用于元组。例:(1,2,3)("a","b","c"

tu = (1,2,'alex','oldboy')
#切片
print(tu[:2])
#指定索引取值
print(tu[2])

执行输出:

(1, 2)
alex

 

遍历元祖

tu = (1,2,'alex','oldboy')
for i in tu:
    print(i)

执行输出:

1
2
alex
oldboy

 

有一种情况,元组的值会改变,俗称:
儿子不能改,孙子可能改

tu = (1,2,'alex',[1,'taibai'],'oldboy')
tu[3].append('yuhuang')
print(tu)

执行输出:

(1, 2, 'alex', [1, 'taibai', 'yuhuang'], 'oldboy')

 

一般元组,是放只读的数据。所以不会随意更改。

公用方法:count,len,index

三、range

range 当成一个数字列表,范围
范围可控,步长可正可负

打印0到9

for i in range(10):
    print(i)

执行输出:

0
1
2
3
4
5
6
7
8
9

 

注意:range()不会打印末尾的数字,默认是从0开始的

 

打印1~10之间的奇数

for i in range(1,10,2):
    print(i)

执行输出:

1
3
5
7
9

 

打印0~10之间的偶数

for i in range(0,10,2):
    print(i)

执行输出:

0
2
4
6
8

 

反向步长

倒序输出1到10

for i in range(10,0,-1):
    print(i)

执行输出:

10
9
8
7
6
5
4
3
2
1

 

遍历列表元素,打印每一个索引值

li = [2,3,'alex',4,5]
for i in li:
    print(li.index(i))

执行输出:

0
1
2
3
4

 

使用range打印索引

li = [2,3,'alex',4,5]
for i in range(0,len(li)):
    print(i)

执行输出:

0
1
2
3
4

 

列表长度永远比索引值大1

所以可以用range方式

 

四、join

join用字符串做一个连接符
连接可迭代对象中的每一个元素,形成一个新的字符串

s = '@'.join('我是谁')
print(s)

执行输出:

我@是@谁

 

split str ---> list

使用split方法将字符串转换为列表

s1 = 'wusir taibai xiao'
print(s1.split())

执行输出:

['wusir', 'taibai', 'xiao']

 

join list ---> str

使用join方法将列表转换为字符串

li = ['wusir', 'taibai', 'xiao']
print(' '.join(li))

执行输出:

wusir taibai xiao

 

join很重要,一定要掌握

 

思考题:

li = [1,2,['alex','wusir'],'a','b',{'name':'xiao','age':21}]

将列表中的每一个元素打印出来,如果遇到列表,需要打印列表中的每一个元素

 

答案如下:

li = [1, 2, ['alex', 'wusir'], 'a', 'b']
for i in li:
    if type(i) == list:
        for j in i:
            print(j)
    else:
        print(i)

执行输出:

1
2
alex
wusir
a
b

 

如果列表包含字典以及元组呢?

li = [1,2,['alex','wusir'],'a','b',{'name':'xiao','age':21},('d','n','f')]

for i in li:
    #判断元素类型是否是整形和布尔值,除了这2种类型,其他类型都是可迭代对象
    if type(i) not in [int,bool]:
        # 判断元素的长度等于1,排除有多个元素的数据,比如列表,字典...
        if len(i) == 1:
            print(i)
        else:
            #循环可迭代对象
            for j in i:
                print(j)

执行输出:

1
2
alex
wusir
a
b
name
age
d
n
f

 

第2种写法:

#加载模块
from collections import Iterable

li = [1,2,['alex','wusir'],'a','b',{'name':'xiao','age':21},('d','n','f')]

for i in li:
    #判断是否是可迭代对象
    if isinstance(i,Iterable):
        for j in i:
            print(j)
    else:
        print(i)

执行程序,效果同上

 

今日作业:

1,写代码,有如下列表,按照要求实现每一个功能
li = ['alex','wusir','eric','rain','alex']
    1)计算列表的长度并输出
    2)列表中追加元素'seven',并输出添加后的列表
    3)请在列表的第1个位置插入元素'Tony',并输出添加后的列表
    4)请修改列表第2个位置的元素为'Kelly',并输出修改后的列表
    5)请将列表l2=[1,'a',3,4,'heart']的每一个元素添加到列表li中,一行代码实现,不允许循环添加。
    6)请将字符串s = 'qwert'的每一个元素添加到列表li中,一行代码实现,不允许循环添加。
    7)请删除列表中的元素'eric',并输出添加后的列表
    8)请删除列表中的第2个元素,并输出删除的元素和删除元素后的列表
    9)请删除列表中的第2至4个元素,并输出删除元素后的列表
    10)请将列表所有得元素反转,并输出反转后的列表
    11)请计算出'alex'元素在列表li中出现的次数,并输出该次数。

2,写代码,有如下列表,利用切片实现每一个功能
li = [1,3,2,'a',4,'b',5,'c']
    1)通过对li列表的切片形成新的列表l1,l1 = [1,3,2]
    2)通过对li列表的切片形成新的列表l2,l2 = ['a',4,'b']
    3)通过对li列表的切片形成新的列表l3,l3 = ['1,2,4,5]
    4)通过对li列表的切片形成新的列表l4,l4 = [3,'a','b']
    5)通过对li列表的切片形成新的列表l5,l5 = ['c']
    6)通过对li列表的切片形成新的列表l6,l6 = ['b','a',3]
3,写代码,有如下列表,按照要求实现每一个功能。
lis = [2,3,'k',['qwe',20,['k1',['tt',3,'1']],89],'ab','adv']
    1)将列表lis中的'tt'变成大写(用两种方式)。
    2)将列表中的数字3变成字符串'100'(用两种方式)。
    3)将列表中的字符串'1'变成数字101(用两种方式)。

4,请用代码实现: 
       li = ['alex','eric','rain']
利用下划线将列表的每一个元素拼接成字符串"alex_eric_rain"

5,查找列表li中的元素,移除每个元素的空格,并找出以'A'或者'a'开头,并以'c'结尾的所有元素,并添加到一个新列表中,最后循环打印这个新列表。
li = ['taibai ','alexC','AbC ','egon',' Ritian',' Wusir','  aqc']

6、开发敏感词语过滤程序,提示用户输入评论内容,如果用户输入的内容中包含特殊的字符:
敏感词列表 li = ["苍老师","东京热","武藤兰","波多野结衣"]
则将用户输入的内容中的敏感词汇替换成***,并添加到一个列表中;如果用户输入的内容没有敏感词汇,则直接添加到上述的列表中。

7,有如下列表li = [1,3,4',alex',[3,7,8,'taibai'],5,'ritian']
循环打印列表中的每个元素,遇到列表则再循环打印出它里面的元素。
我想要的结果是(用两种方法实现,其中一种用range做):
1
3
4
'alex'
3
7,
8
'taibai'
5
ritian

明日默写内容
1,将列表的增删改查不同的方法全部写出来,
例如:增:有三种,append:在后面添加。Insert按照索引添加,expend:迭代着添加。

2,默写第七题的两个方法实现的代码。

 

答案

第一题:

1,写代码,有如下列表,按照要求实现每一个功能
li = ['alex','wusir','eric','rain','alex']
    1)计算列表的长度并输出

li = ['alex','wusir','eric','rain','alex']
s1 = len(li)

    2)列表中追加元素'seven',并输出添加后的列表

li = ['alex','wusir','eric','rain','alex']
s2 = li.append('seven')
print(li)

    3)请在列表的第1个位置插入元素'Tony',并输出添加后的列表

li = ['alex','wusir','eric','rain','alex']
li = ['alex','wusir','eric','rain','alex']
s3 = li.insert(1,'Tony')
print(li)

    4)请修改列表第2个位置的元素为'Kelly',并输出修改后的列表

li = ['alex','wusir','eric','rain','alex']
li[2] = 'Kelly'
print(li)

    5)请将列表l2=[1,'a',3,4,'heart']的每一个元素添加到列表li中,一行代码实现,不允许循环添加。

li = ['alex','wusir','eric','rain','alex']
l2=[1,'a',3,4,'heart']
li.extend(l2)
print(li)

    6)请将字符串s = 'qwert'的每一个元素添加到列表li中,一行代码实现,不允许循环添加。

li = ['alex','wusir','eric','rain','alex']
s = 'qwert'
li.extend(s)
print(li)

    7)请删除列表中的元素'eric',并输出添加后的列表

li = ['alex','wusir','eric','rain','alex']
li.remove('eric')
print(li)

    8)请删除列表中的第2个元素,并输出删除的元素和删除元素后的列表

li = ['alex','wusir','eric','rain','alex']
print(li.pop(2))
print(li)

    9)请删除列表中的第2至4个元素,并输出删除元素后的列表

li = ['alex','wusir','eric','rain','alex']
del li[2:4]
print(li)

    10)请将列表所有得元素反转,并输出反转后的列表

li = ['alex','wusir','eric','rain','alex']
li.reverse()
print(li)

    11)请计算出'alex'元素在列表li中出现的次数,并输出该次数。

li = ['alex','wusir','eric','rain','alex']
print(li.count('alex'))

  

第2题答案

2,写代码,有如下列表,利用切片实现每一个功能
li = [1,3,2,'a',4,'b',5,'c']
    1)通过对li列表的切片形成新的列表l1,l1 = [1,3,2]

li = [1,3,2,'a',4,'b',5,'c']
li1 = li[:3]
print(li1)

    2)通过对li列表的切片形成新的列表l2,l2 = ['a',4,'b']

li = [1,3,2,'a',4,'b',5,'c']
li2 = li[3:6]
print(li1)

    3)通过对li列表的切片形成新的列表l3,l3 = ['1,2,4,5]

li = [1,3,2,'a',4,'b',5,'c']
li3 = li[::2]
print(li3)

    4)通过对li列表的切片形成新的列表l4,l4 = [3,'a','b']

li = [1,3,2,'a',4,'b',5,'c']
li4 = li[1:6:2]
print(li3)

    5)通过对li列表的切片形成新的列表l5,l5 = ['c']

li = [1,3,2,'a',4,'b',5,'c']
li5 = li[-1]
print(li3)

    6)通过对li列表的切片形成新的列表l6,l6 = ['b','a',3]

li = [1,3,2,'a',4,'b',5,'c']
li6 = li[-3:-8:-2]
print(li6)

  

第3题答案

3,写代码,有如下列表,按照要求实现每一个功能。
lis = [2,3,'k',['qwe',20,['k1',['tt',3,'1']],89],'ab','adv']
    1)将列表lis中的'tt'变成大写(用两种方式)。

lis = [2,3,'k',['qwe',20,['k1',['tt',3,'1']],89],'ab','adv']
lis[3][2][1][0] = lis[3][2][1][0].upper()
print(lis)

lis = [2,3,'k',['qwe',20,['k1',['tt',3,'1']],89],'ab','adv']
lis[3][2][1][0] = 'TT'
print(lis)

    2)将列表中的数字3变成字符串'100'(用两种方式)。

lis = [2,3,'k',['qwe',20,['k1',['tt',3,'1']],89],'ab','adv']
lis[1] = 100
lis[3][2][1][1] = '100'
print(lis)

lis = [2,3,'k',['qwe',20,['k1',['tt',3,'1']],89],'ab','adv']
lis[1] = '100'
lis[3][2][1][1] = str(lis[3][2][1][1] + 97)
print(lis)

    3)将列表中的字符串'1'变成数字101(用两种方式)。

lis = [2,3,'k',['qwe',20,['k1',['tt',3,'1']],89],'ab','adv']
lis[3][2][1][2] = 101
print(lis)

lis = [2,3,'k',['qwe',20,['k1',['tt',3,'1']],89],'ab','adv']
lis[3][2][1][2] = 1 + 100
print(lis)

  

第4题答案

4,请用代码实现: 
       li = ['alex','eric','rain']
利用下划线将列表的每一个元素拼接成字符串"alex_eric_rain"

li = ['alex','eric','rain']
li_new = '_'.join(li)
print(li_new)

  

第5题

查找列表li中的元素,移除每个元素的空格,并找出以'A'或者'a'开头,并以'c'结尾的所有元素,并添加到一个新列表中,最后循环打印这个新列表。

li = ['taibai ','alexC','AbC ','egon',' Ritian',' Wusir',' aqc']

分析:

先输出每一个元素,每把每个元素去除空格

li = ['taibai ','alexC','AbC ','egon',' Ritian',' Wusir','  aqc']
for i in li:
    s = i.strip()
    print(s)

执行输出:

taibai
alexC
AbC
egon
Ritian
Wusir
aqc

 

找到以'A'或者'a'开头的

li = ['taibai ','alexC','AbC ','egon',' Ritian',' Wusir','  aqc']
for i in li:
    s = i.strip()
    if s.startswith("A") or s.startswith("a"):
        print(s)

执行输出:

alexC
AbC
aqc

 

并以'c'结尾的,使用endswith()方法。打印出匹配的结果

li = ['taibai ','alexC','AbC ','egon',' Ritian',' Wusir','  aqc']
for i in li:
    s = i.strip()
    if s.startswith("A") or s.startswith("a"):
        if s.endswith("c"):
            print(s)

执行输出:

aqc

 

将匹配的元素添加到一个新列表中,最后循环打印这个新列表,最终代码如下:

li = ['taibai ','alexC','AbC ','egon',' Ritian',' Wusir','  aqc']
#定义新列表
li_new = []
for i in li:
    #去除空格
    s = i.strip()
    #找出以'A'或者'a'开头
    if s.startswith("A") or s.startswith("a"):
        #找出以'c'结尾的所有元素
        if s.endswith("c"):
            #将匹配的元素追加到新列表中
            li_new.append(s)

for j in li_new:
    print(j)

执行输出:

aqc

 

第6题

开发敏感词语过滤程序,提示用户输入评论内容,如果用户输入的内容中包含特殊的字符:
敏感词列表 li = ["苍老师","东京热","武藤兰","波多野结衣"]
则将用户输入的内容中的敏感词汇替换成***,并添加到一个列表中;如果用户输入的内容没有敏感词汇,则直接添加到上述的列表中。

解题过程

先定义2个变量,一个是敏感词,一个是用户输入内容

并设置一个含有敏感词的内容,判断是否含有敏感词

li = ["苍老师","东京热","武藤兰","波多野结衣"]
comment = "我要苍老师"
for i in li:
    if i in comment:
        print("含有敏感词")

执行输出:

含有敏感词

 

将敏感词替换成***,使用replace()方法替换,打印出输入内容

li = ["苍老师","东京热","武藤兰","波多野结衣"]
comment = "我要苍老师"
for i in li:
    if i in comment:
        print("含有敏感词")
        comment = comment.replace(i, "***")

print(comment)

执行输出:

含有敏感词
我要***

 

将输入内容写入到新列表中,打印列表:

li = ["苍老师","东京热","武藤兰","波多野结衣"]
comment = "我要苍老师"
#新列表
comment_list = []

for i in li:
    if i in comment:
        #将敏感词替换成***
        comment = comment.replace(i,"***")
        
#添加到新列表
comment_list.append(comment)

for j in comment_list:
    print(j)

执行输出:

我要***

 

将用户输入替换成input,完整代码如下:

li = ["苍老师","东京热","武藤兰","波多野结衣"]
comment = input("请输入评论:").strip()
#新列表
comment_list = []

for i in li:
    if i in comment:
        #将敏感词替换成***
        comment = comment.replace(i,"***")

#添加到新列表
comment_list.append(comment)
#打印列表
for j in comment_list:
    print(j)

执行输出:

 

第7题

有如下列表li = [1,3,4',alex',[3,7,8,'taibai'],5,'ritian']
循环打印列表中的每个元素,遇到列表则再循环打印出它里面的元素。
我想要的结果是(用两种方法实现,其中一种用range做):
1
3
4
'alex'
3
7,
8
'taibai'
5
ritian

 

for循环 代码如下:

li = [1,3,4,'alex',[3,7,8,'taibai'],5,'ritian']
for i in li:
    #判断是否为列表
    if type(i) == list:
        #遍历子列表
        for j in i:
            print(j)
    else:
        print(i)

执行输出:

1
3
4
alex
3
7
8
taibai
5
ritian

 

range方式,代码如下:

li = [1,3,4,'alex',[3,7,8,'taibai'],5,'ritian']
for i in range(len(li)):
    #判断是否为列表
    if type(li[i]) == list:
        #遍历子列表
        for j in li[i]:
            print(j)
    else:
        print(li[i])

执行程序,效果同上。

 

明日默写内容
1,将列表的增删改查不同的方法全部写出来,
例如:增:有三种,append:在后面添加。Insert按照索引添加,expend:迭代着添加。

增
append() 追加,在最后一个位置添加元素
insert() 按照索引添加
expend 迭代着添加

删
pop() 按照索引删除
remove() 按照元素删除
clear() 清空列表的所有元素
del 删除列表

按照索引修改
切片修改

index() 查看索引
根据索引
切片
步长

 

2,默写第七题的两个方法实现的代码。

for循环 :

li = [1,3,4,'alex',[3,7,8,'taibai'],5,'ritian']
for i in li:
    #判断是否为列表
    if type(i) == list:
        #遍历子列表
        for j in i:
            print(j)
    else:
        print(i)

range方式:

li = [1,3,4,'alex',[3,7,8,'taibai'],5,'ritian']
for i in range(len(li)):
    #判断是否为列表
    if type(li[i]) == list:
        #遍历子列表
        for j in li[i]:
            print(j)
    else:
        print(li[i])

 

posted @ 2018-03-21 16:11 肖祥 阅读( ...) 评论( ...) 编辑 收藏
<think>我们注意到原始笔记中确实缺少对每个方法参数的详细解释,并且部分重要方法没有涵盖。下面我们将对笔记进行以下优化: 1. 为每个重要的函数/方法添加参数解释 2. 补充一些常用但缺失的重要方法(如数据合并、时间序列处理等) 3. 调整结构,使笔记更系统化 4. 在示例代码中添加注释说明 下面是对笔记的优化版本: </think># 📊 面掌握Pandas数据分析库 - 终极优化笔记 ```python import pandas as pd import numpy as np import matplotlib.pyplot as plt ``` ## 一、Pandas核心数据结构详解 ### 1. Series - 带标签的一维数组 ```python """ 参数说明: data: 数据源,可以是列表、数组或字典 index: 索引标签(可选),长度需与data匹配 name: Series的名称(可选) dtype: 数据类型(可选) """ s = pd.Series( data=[10, 20, 30, 40], index=[&#39;a&#39;, &#39;b&#39;, &#39;c&#39;, &#39;d&#39;], name=&#39;my_series&#39;, dtype=&#39;int32&#39; ) print(s) ``` 输出结果: ``` a 10 b 20 c 30 d 40 Name: my_series, dtype: int32 ``` ### 2. DataFrame - 二维表格数据结构 ```python """ 参数说明: data: 数据源,可以是字典、列表、数组或其他DataFrame index: 行索引(可选) columns: 列名(可选) dtype: 数据类型(可选) copy: 是否复制数据(默认为False) """ df = pd.DataFrame( data={ &#39;Name&#39;: [&#39;Alice&#39;, &#39;Bob&#39;, &#39;Charlie&#39;, &#39;David&#39;], &#39;Age&#39;: [25, 30, 35, 40], &#39;City&#39;: [&#39;New York&#39;, &#39;Paris&#39;, &#39;London&#39;, &#39;Tokyo&#39;] }, index=[&#39;P1&#39;, &#39;P2&#39;, &#39;P3&#39;, &#39;P4&#39;], columns=[&#39;Name&#39;, &#39;Age&#39;, &#39;City&#39;] ) print(df) ``` 输出结果: ``` Name Age City P1 Alice 25 New York P2 Bob 30 Paris P3 Charlie 35 London P4 David 40 Tokyo ``` ## 二、数据导入与导出方法详解 ### 1.CSV文件 ```python """ pd.read_csv() 参数说明: filepath_or_buffer: 文件路径或URL sep: 分隔符(默认为&#39;,&#39;) header: 表头行号(默认为0,None表示无表头) names: 自定义列名列表 na_values: 识别为NaN的值 encoding: 文件编码(如&#39;utf-8&#39;) """ # 读取CSV示例 df_csv = pd.read_csv( &#39;people.csv&#39;, sep=&#39;,&#39;, header=0, names=[&#39;Name&#39;, &#39;Age&#39;, &#39;City&#39;], na_values=[&#39;NA&#39;, &#39;N/A&#39;], encoding=&#39;utf-8&#39; ) """ DataFrame.to_csv() 参数说明: path_or_buf: 输出路径 index: 是否保存索引(默认为True) header: 是否保存列名(默认为True) columns: 指定保存的列 mode: 入模式(&#39;w&#39;覆盖, &#39;a&#39;追加) """ # 入CSV示例 df.to_csv( &#39;people.csv&#39;, index=False, header=True, columns=[&#39;Name&#39;, &#39;Age&#39;], mode=&#39;w&#39; ) ``` ### 2.Excel文件 ```python """ pd.read_excel() 参数说明: io: 文件路径或ExcelFile对象 sheet_name: 工作表名称或索引(0表示第一个工作表) header: 表头行号 usecols: 读取的列范围(如&#39;A:C&#39;或[0,2]) """ # 读取Excel示例 df_excel = pd.read_excel( &#39;data.xlsx&#39;, sheet_name=&#39;People&#39;, header=0, usecols=&#39;A:C&#39; ) """ DataFrame.to_excel() 参数说明: excel_writer: 文件路径或ExcelWriter对象 sheet_name: 工作表名称 index: 是否保存索引 startrow: 起始行(从0开始) startcol: 起始列(从0开始) """ # 入Excel示例 with pd.ExcelWriter(&#39;data.xlsx&#39;) as writer: df.to_excel( writer, sheet_name=&#39;People&#39;, index=False, startrow=1, startcol=1 ) ``` ## 三、数据查看与选择方法详解 ### 1. 数据查看方法 ```python """ head(n): 查看前n行(默认5) tail(n): 查看后n行(默认5) info(): 显示DataFrame信息 describe(): 显示统计摘要 shape: 返回维度元组 dtypes: 返回每列数据类型 """ print("前2行:\n", df.head(2)) print("\n后1行:\n", df.tail(1)) print("\n数据结构:\n", df.info()) print("\n统计描述:\n", df.describe()) print("\n维度:", df.shape) print("\n数据类型:\n", df.dtypes) ``` ### 2. 数据选择方法 ```python """ loc[]: 基于标签选择 iloc[]: 基于整数位置选择 at[]: 访问单个元素(标签) iat[]: 访问单个元素(位置) query(): 使用表达式查询 """ # 选择单列 ages = df[&#39;Age&#39;] # 或 df.Age # 选择多列 subset = df[[&#39;Name&#39;, &#39;City&#39;]] # 按标签选择行 row_d = df.loc[[&#39;P4&#39;]] # 按位置选择行 first_row = df.iloc[0] # 选择特定单元格 age_p2 = df.at[&#39;P2&#39;, &#39;Age&#39;] age_first = df.iat[0, 1] # 布尔索引筛选 young_people = df[df[&#39;Age&#39;] < 35] # 查询方法 europeans = df.query("City in [&#39;Paris&#39;, &#39;London&#39;]") ``` ## 四、数据清洗与预处理方法详解 ### 1. 处理缺失值 ```python """ isnull(): 检测缺失值 notnull(): 检测非缺失值 fillna(): 填充缺失值 dropna(): 删除缺失值 interpolate(): 插值填充 """ # 创建含缺失值的数据 df_nan = pd.DataFrame({ &#39;A&#39;: [1, 2, np.nan, 4], &#39;B&#39;: [5, np.nan, np.nan, 8], &#39;C&#39;: [9, 10, 11, 12] }) # 检测缺失值 mask = df_nan.isnull() # 填充缺失值(不同列不同策略) df_filled = df_nan.fillna({ &#39;A&#39;: df_nan[&#39;A&#39;].mean(), &#39;B&#39;: 0, &#39;C&#39;: df_nan[&#39;C&#39;].median() }) # 向前填充 df_ffill = df_nan.fillna(method=&#39;ffill&#39;) # 删除缺失值 df_dropped_rows = df_nan.dropna(axis=0) # 删除行 df_dropped_cols = df_nan.dropna(axis=1) # 删除列 # 线性插值 df_interpolated = df_nan.interpolate(method=&#39;linear&#39;) ``` ### 2. 数据类型转换 ```python """ astype(): 转换数据类型 pd.to_numeric(): 转换为数值类型 pd.to_datetime(): 转换为日期时间 pd.to_timedelta(): 转换为时间差 """ # 转换数据类型 df[&#39;Age&#39;] = df[&#39;Age&#39;].astype(&#39;float32&#39;) # 转换为数值(处理无效值) df[&#39;Salary&#39;] = pd.to_numeric( [&#39;70000&#39;, &#39;85000&#39;, &#39;90k&#39;, &#39;120000&#39;], errors=&#39;coerce&#39; ) # 转换为日期时间 df[&#39;BirthDate&#39;] = pd.to_datetime( [&#39;1998-05-15&#39;, &#39;1993-02-28&#39;, &#39;1988-11-10&#39;, &#39;1983-07-22&#39;], format=&#39;%Y-%m-%d&#39; ) # 日期计算 df[&#39;Age&#39;] = (pd.Timestamp.now() - df[&#39;BirthDate&#39;]).dt.days // 365 ``` ## 五、数据操作与转换方法详解 ### 1. 排序与过滤 ```python """ sort_values(): 按值排序 sort_index(): 按索引排序 nsmallest(): 最小的n个值 nlargest(): 最大的n个值 filter(): 筛选列名 """ # 按年龄降序排序 df_sorted = df.sort_values( &#39;Age&#39;, ascending=False, na_position=&#39;last&#39; # 缺失值位置 ) # 按索引排序 df_sorted_index = df.sort_index(ascending=True) # 获取年龄最小的2人 youngest = df.nsmallest(2, &#39;Age&#39;) # 获取年龄最大的1人 oldest = df.nlargest(1, &#39;Age&#39;) # 筛选包含特定字符的列 name_cols = df.filter(like=&#39;Name&#39;) ``` ### 2. 分组聚合 ```python """ groupby(): 分组操作 agg(): 聚合函数 transform(): 分组转换 apply(): 应用函数 """ sales = pd.DataFrame({ &#39;Region&#39;: [&#39;North&#39;, &#39;South&#39;, &#39;North&#39;, &#39;South&#39;, &#39;North&#39;, &#39;South&#39;], &#39;Product&#39;: [&#39;A&#39;, &#39;A&#39;, &#39;B&#39;, &#39;B&#39;, &#39;A&#39;, &#39;B&#39;], &#39;Sales&#39;: [100, 200, 150, 250, 300, 400], &#39;Date&#39;: pd.date_range(&#39;2023-01-01&#39;, periods=6) }) # 分组计算多个统计量 region_stats = sales.groupby(&#39;Region&#39;).agg( Total_Sales=(&#39;Sales&#39;, &#39;sum&#39;), Avg_Sales=(&#39;Sales&#39;, &#39;mean&#39;), Max_Sale=(&#39;Sales&#39;, &#39;max&#39;), Count=(&#39;Sales&#39;, &#39;count&#39;) ) # 分组应用自定义函数 def sales_range(group): return group[&#39;Sales&#39;].max() - group[&#39;Sales&#39;].min() range_by_region = sales.groupby(&#39;Region&#39;).apply(sales_range) # 分组转换(添加新列) sales[&#39;Region_Avg&#39;] = sales.groupby(&#39;Region&#39;)[&#39;Sales&#39;].transform(&#39;mean&#39;) ``` ### 3. 数据合并方法详解 ```python """ concat(): 连接多个DataFrame merge(): 数据库风格的合并 join(): 基于索引的合并 combine_first(): 合并重叠数据 """ df1 = pd.DataFrame({ &#39;ID&#39;: [1, 2, 3], &#39;Name&#39;: [&#39;Alice&#39;, &#39;Bob&#39;, &#39;Charlie&#39;] }) df2 = pd.DataFrame({ &#39;ID&#39;: [2, 3, 4], &#39;Age&#39;: [25, 30, 35] }) # 垂直连接 combined = pd.concat([df1, df2], axis=0, ignore_index=True) # 水平连接 combined_cols = pd.concat([df1, df2[[&#39;Age&#39;]]], axis=1) # 内连接(默认) inner_merge = pd.merge(df1, df2, on=&#39;ID&#39;, how=&#39;inner&#39;) # 左连接 left_merge = pd.merge(df1, df2, on=&#39;ID&#39;, how=&#39;left&#39;) # 右连接 right_merge = pd.merge(df1, df2, on=&#39;ID&#39;, how=&#39;right&#39;) # 外连接(连接) outer_merge = pd.merge(df1, df2, on=&#39;ID&#39;, how=&#39;outer&#39;) # 索引连接 index_join = df1.set_index(&#39;ID&#39;).join(df2.set_index(&#39;ID&#39;), how=&#39;inner&#39;) ``` ## 六、时间序列处理方法详解 ```python """ date_range(): 创建日期范围 resample(): 时间序列重采样 rolling(): 滚动窗口计算 shift(): 移动数据 dt访问器: 访问日期时间属性 """ # 创建时间序列数据 dates = pd.date_range(&#39;2023-01-01&#39;, periods=10, freq=&#39;D&#39;) ts = pd.Series( np.random.randint(10, 30, size=10), index=dates, name=&#39;Temperature&#39; ) # 重采样为周数据 weekly_mean = ts.resample(&#39;W-MON&#39;).mean() # 周一作为周起始 # 滚动窗口计算 rolling_3d = ts.rolling(window=&#39;3D&#39;).mean() # 3天移动平均 rolling_7d_min = ts.rolling(window=7).min() # 7天最小值 # 时间偏移 ts_shifted = ts.shift(periods=1, freq=&#39;D&#39;) # 向后偏移1天 # 访问日期属性 ts[&#39;DayOfWeek&#39;] = ts.index.day_name() ts[&#39;Month&#39;] = ts.index.month ts[&#39;IsWeekend&#39;] = ts.index.weekday > 4 # 时间差计算 time_diff = ts.index[-1] - ts.index[0] ``` ## 七、数据可视化方法详解 ### 1. Pandas内置绘图方法 ```python """ plot(): 通用绘图函数 plot.line(): 折线图 plot.bar(): 柱状图 plot.hist(): 直方图 plot.scatter(): 散点图 plot.box(): 箱线图 """ # 添加示例数据 df[&#39;Salary&#39;] = [70000, 85000, 90000, 120000] df[&#39;Experience&#39;] = [2, 5, 8, 15] # 折线图 df[&#39;Salary&#39;].plot.line( title=&#39;薪资变化趋势&#39;, figsize=(10, 5), grid=True, color=&#39;red&#39;, marker=&#39;o&#39; ) # 柱状图 df.plot.bar( x=&#39;Name&#39;, y=&#39;Salary&#39;, color=&#39;Age&#39;, cmap=&#39;viridis&#39;, title=&#39;员工薪资分布&#39;, figsize=(10, 6) ) # 散点图 df.plot.scatter( x=&#39;Experience&#39;, y=&#39;Salary&#39;, s=df[&#39;Age&#39;]*100, # 点大小基于年龄 c=&#39;Age&#39;, # 点颜色基于年龄 colormap=&#39;coolwarm&#39;, title=&#39;工作经验与薪资关系&#39;, figsize=(10, 6) ) # 箱线图 df[[&#39;Age&#39;, &#39;Salary&#39;]].plot.box( vert=False, patch_artist=True, showmeans=True, figsize=(10, 5) ) ``` ## 八、高效数据处理技巧详解 ### 1. 向量化操作 ```python # 使用NumPy进行向量化计算 df[&#39;Salary_Adjusted&#39;] = np.where( df[&#39;City&#39;] == &#39;New York&#39;, df[&#39;Salary&#39;] * 1.1, # 纽约薪资上调10% df[&#39;Salary&#39;] ) # 向量化字符串操作 df[&#39;Name_Upper&#39;] = df[&#39;Name&#39;].str.upper() df[&#39;Domain&#39;] = df[&#39;City&#39;].str.split().str[-1] # 分类数据优化 df[&#39;City_Category&#39;] = df[&#39;City&#39;].astype(&#39;category&#39;) ``` ### 2. 内存优化技巧 ```python # 优化数据类型 df_optimized = df.copy() df_optimized[&#39;Age&#39;] = pd.to_numeric(df[&#39;Age&#39;], downcast=&#39;integer&#39;) df_optimized[&#39;Salary&#39;] = pd.to_numeric(df[&#39;Salary&#39;], downcast=&#39;float&#39;) df_optimized[&#39;City&#39;] = df[&#39;City&#39;].astype(&#39;category&#39;) # 查看内存节省效果 print("原始内存使用:", df.memory_usage(deep=True).sum() / 1024, "KB") print("优化后内存:", df_optimized.memory_usage(deep=True).sum() / 1024, "KB") # 分块处理大型文件 chunk_size = 10000 chunks = pd.read_csv(&#39;large_file.csv&#39;, chunksize=chunk_size) result = [] for chunk in chunks: chunk = chunk[chunk[&#39;Sales&#39;] > 1000] result.append(chunk) large_df = pd.concat(result, ignore_index=True) ``` ## 九、高级数据处理方法 ### 1. 多级索引(层次化索引) ```python # 创建多级索引 index = pd.MultiIndex.from_tuples([ (&#39;North&#39;, &#39;A&#39;), (&#39;North&#39;, &#39;B&#39;), (&#39;South&#39;, &#39;A&#39;), (&#39;South&#39;, &#39;B&#39;) ], names=[&#39;Region&#39;, &#39;Product&#39;]) sales = pd.DataFrame({ &#39;Sales&#39;: [100, 150, 200, 400], &#39;Cost&#39;: [70, 100, 150, 300] }, index=index) # 选择特定区域 north_sales = sales.loc[&#39;North&#39;] # 交叉切片 sales.loc[(&#39;North&#39;, &#39;B&#39;), &#39;Sales&#39;] # 多级索引聚合 region_sales = sales.groupby(level=&#39;Region&#39;).sum() ``` ### 2. 数据透视表 ```python """ pivot_table() 参数说明: values: 聚合的列 index: 行索引 columns: 列索引 aggfunc: 聚合函数(默认mean) fill_value: 填充缺失值 margins: 添加总计 """ # 创建透视表 pivot = pd.pivot_table( sales, values=[&#39;Sales&#39;, &#39;Cost&#39;], index=[&#39;Region&#39;], columns=[&#39;Product&#39;], aggfunc={&#39;Sales&#39;: np.sum, &#39;Cost&#39;: np.mean}, fill_value=0, margins=True, margins_name=&#39;Total&#39; ) # 显示结果 print(pivot) ``` ## 十、Pandas常用函数速查表 | 函数 | 参数 | 描述 | 示例 | |------|------|------|------| | `pd.read_csv()` | filepath, sep, header | 读取CSV文件 | `df = pd.read_csv(&#39;data.csv&#39;, sep=&#39;;&#39;)` | | `df.to_excel()` | excel_writer, sheet_name | 保存到Excel | `df.to_excel(&#39;data.xlsx&#39;)` | | `df.head()` | n | 查看前n行 | `df.head(10)` | | `df.describe()` | include, exclude | 统计摘要 | `df.describe(include=&#39;all&#39;)` | | `df.groupby()` | by, axis | 数据分组 | `df.groupby(&#39;category&#39;).mean()` | | `pd.merge()` | left, right, how | 合并数据集 | `pd.merge(df1, df2, left_on=&#39;key1&#39;, right_on=&#39;key2&#39;)` | | `df.pivot_table()` | values, index, columns | 创建透视表 | `pd.pivot_table(df, values=&#39;D&#39;, index=&#39;A&#39;)` | | `df.apply()` | func | 应用函数 |
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值