《对比Excel,轻松学python数据分析》学习笔记

数据分析基础

对于缺失数据,如果缺失比例高于30%,那么我们会选择放弃这个 指标,即做删除处理。而对于缺失比例低于30%的指标,我们一般进行 填充处理,即使用0、均值或者众数等进行填充

python基础

  • 当用find查找某一字符是否存在于 某个字符串中时,如果存在则返回该字符的具体位置,如果不存在则返 回-1

  • strip()函数,该函数用来移除字符串首尾的 指定字符,默认移除字符串首尾的空格或换行符

  • 将列表B合并到列表A中,用到的方法是A.extend(B),将列表A合并 到列表B中,用到的方法是B.extend(A)

  • index获取值出现的位置,就是看该值位于列表中的哪里。

  • pop()函数是根据列表中的位置进行删除,也就是删除指定位置的值。

  • remove()函数是根据列表中的元素进行删除,也就是删除某一元素

  • 列表生成式

num=[1,2,3,4,5]
[i**2 for i in num]
  • map函数, map(function,agrs),表示对序列 args 中的每 个值进行function操作,最终得到一个结果序列.map函数生成的结果序列不会直接把全部结果显示出来,要想获取 到结果需要for循环遍历取出来。也可以使用list方法,将结果值生成一 个列表
a=map(lambda x,y:x+y,[1,2,3],[3,2,1])
a
<map at 0x1b0260d29b0>
for i in a:
    print(i)
4
4
4    
b=list(map(lambda x,y:x+y,[1,2,3],[3,2,1]))
b
[4,4,4]
  • 模块导入
import module_name   #直接导入具体模块名
from modulel import module2   #从一个较大的模块中导入较小的模块
  • pandas
    如果只是传入一个列表不指定数据标签,那么Series会默认使用从0 开始的数做数据标签
import pandas as pd
S1=pd.Seriess(["a","b","c","d"])
S1
0  a
1  b
2  c
3  d

获取数据源

  • 从excel
pd.read_excel('file_path',sheet_name='**',index_col=n,header=0)  
#index_col表示用.xlsx文件中的第几列做行索引,从0开始计数。 
#header参数值默认为 0,即用第一行作为列索引;输入0和None是不一样的
#也可以是其他行,只需要传入具体的那一 行即可;
#usecols参数来指定要导入的列,可以输入一个列表[0,2]
  • 从csv
pd.read_csv('file_path',sep='',nrows=n,encoding='',engine='python',parse_dates=['时间'])
#sep为分割符号
#nrows为读取前几行
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值