《对比Excel，轻松学python数据分析》学习笔记

最新推荐文章于 2022-08-01 12:06:37 发布

原创

最新推荐文章于 2022-08-01 12:06:37 发布 · 888 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#数据分析 #python #excel

对比Excel，轻松学python数据分析

数据分析基础

对于缺失数据，如果缺失比例高于30%，那么我们会选择放弃这个指标，即做删除处理。而对于缺失比例低于30%的指标，我们一般进行填充处理，即使用0、均值或者众数等进行填充

python基础

当用find查找某一字符是否存在于某个字符串中时，如果存在则返回该字符的具体位置，如果不存在则返回-1
strip()函数，该函数用来移除字符串首尾的指定字符，默认移除字符串首尾的空格或换行符
将列表B合并到列表A中，用到的方法是A.extend(B)，将列表A合并到列表B中，用到的方法是B.extend(A)
index获取值出现的位置，就是看该值位于列表中的哪里。
pop()函数是根据列表中的位置进行删除，也就是删除指定位置的值。
remove()函数是根据列表中的元素进行删除，也就是删除某一元素
列表生成式

num=[1,2,3,4,5]
[i**2 for i in num]

map函数， map(function,agrs)，表示对序列 args 中的每个值进行function操作，最终得到一个结果序列.map函数生成的结果序列不会直接把全部结果显示出来，要想获取到结果需要for循环遍历取出来。也可以使用list方法，将结果值生成一个列表

a=map(lambda x,y:x+y,[1,2,3],[3,2,1])
a
<map at 0x1b0260d29b0>
for i in a:
    print(i)
4
4
4    
b=list(map(lambda x,y:x+y,[1,2,3],[3,2,1]))
b
[4,4,4]

模块导入

import module_name   #直接导入具体模块名
from modulel import module2   #从一个较大的模块中导入较小的模块

pandas
如果只是传入一个列表不指定数据标签，那么Series会默认使用从0 开始的数做数据标签

import pandas as pd
S1=pd.Seriess(["a","b","c","d"])
S1
0  a
1  b
2  c
3  d

获取数据源

从excel

pd.read_excel('file_path',sheet_name='**',index_col=n,header=0)  
#index_col表示用.xlsx文件中的第几列做行索引，从0开始计数。 
#header参数值默认为 0，即用第一行作为列索引；输入0和None是不一样的
#也可以是其他行，只需要传入具体的那一 行即可；
#usecols参数来指定要导入的列，可以输入一个列表[0,2]

从csv

pd.read_csv('file_path',sep='',nrows=n，encoding='',engine='python',parse_dates=['时间'])
#sep为分割符号
#nrows为读取前几行

最低0.47元/天解锁文章