数据分析基础
对于缺失数据,如果缺失比例高于30%,那么我们会选择放弃这个 指标,即做删除处理。而对于缺失比例低于30%的指标,我们一般进行 填充处理,即使用0、均值或者众数等进行填充
python基础
-
当用find查找某一字符是否存在于 某个字符串中时,如果存在则返回该字符的具体位置,如果不存在则返 回-1
-
strip()函数,该函数用来移除字符串首尾的 指定字符,默认移除字符串首尾的空格或换行符
-
将列表B合并到列表A中,用到的方法是A.extend(B),将列表A合并 到列表B中,用到的方法是B.extend(A)
-
index获取值出现的位置,就是看该值位于列表中的哪里。
-
pop()函数是根据列表中的位置进行删除,也就是删除指定位置的值。
-
remove()函数是根据列表中的元素进行删除,也就是删除某一元素
-
列表生成式
num=[1,2,3,4,5]
[i**2 for i in num]
- map函数, map(function,agrs),表示对序列 args 中的每 个值进行function操作,最终得到一个结果序列.map函数生成的结果序列不会直接把全部结果显示出来,要想获取 到结果需要for循环遍历取出来。也可以使用list方法,将结果值生成一 个列表
a=map(lambda x,y:x+y,[1,2,3],[3,2,1])
a
<map at 0x1b0260d29b0>
for i in a:
print(i)
4
4
4
b=list(map(lambda x,y:x+y,[1,2,3],[3,2,1]))
b
[4,4,4]
- 模块导入
import module_name #直接导入具体模块名
from modulel import module2 #从一个较大的模块中导入较小的模块
- pandas
如果只是传入一个列表不指定数据标签,那么Series会默认使用从0 开始的数做数据标签
import pandas as pd
S1=pd.Seriess(["a","b","c","d"])
S1
0 a
1 b
2 c
3 d
获取数据源
- 从excel
pd.read_excel('file_path',sheet_name='**',index_col=n,header=0)
#index_col表示用.xlsx文件中的第几列做行索引,从0开始计数。
#header参数值默认为 0,即用第一行作为列索引;输入0和None是不一样的
#也可以是其他行,只需要传入具体的那一 行即可;
#usecols参数来指定要导入的列,可以输入一个列表[0,2]
- 从csv
pd.read_csv('file_path',sep='',nrows=n,encoding='',engine='python',parse_dates=['时间'])
#sep为分割符号
#nrows为读取前几行

最低0.47元/天 解锁文章
1164

被折叠的 条评论
为什么被折叠?



