文章目录
-
- 1.Python基础
- 2.Pandas
-
- 2.1 series
- 2.2 DataFrame
- 2.3 读取csv文件
-
- 读取csv文件
- 读取时设置显示行列的参数:pd.set_option()
- 修改类型
- query筛选
- 转置
- 按某个字段排序
- 排名
- 查看某个列的唯一值
- 查看重复的行
- 查看为空的有几行:
- 随机添加一列值
- 添加一行数据
- 设置value2列保留两位小数
- 将小数转换为百分数
- 将时间戳转换为datetime类型
- 拆分
- 删除首尾的字符
- 提取每列缺失值的具体行数
- 提取某列不是字符串的行
- 提取列包含字符串('--')的行
- 提取列以'25k'开头的行
- 提取value列中不在value1列出现的数字
- 提取value列和value1列出现频率最高的数字
- 提取value列中可以整除10的数字位置
- 统计某个列的各个值的数量
- 统计各列的数量
- 统计各列的最大值
- 返回某个轴上的累计和
- 查看各列的描述性统计数据
- 将值转换为离散值,划分区间
- 分组group
- 2.3 两表联合
- 2.4 文本处理
- 2.6 apply函数
- 2.7 透视表pivot_table
- 2.8 数据库
- 3 python练习
- 3.数据可视化
- 4.数据分析案例
- 5.数据分析平台
anaconda:
esc + m 转换为markdown格式
tab:补全
shift+tab:查看函数
1.Python基础
简单函数
list=[i**2 for i in range(1,101) if i%2=0]
dict={"a":1,"b":2}
[v**2 for v in dict.values()]
def func(x):
return x*x
[func(i) for i in range(1,11)]
list(map(func,[1,2,3,4,5]))
匿名函数:
lambda x:x*x
list(map(lambda x:x*x,[1,2,3,4,5]))
统计数字出现几次。另一种用第三方库的方式:
2.Pandas
series相当于数组,dataframe相当于excel表格
2.1 series
生成
s1=pd.Series([1,2,3,4])
s2=pd.Series([1,2,3,4],index=['a','b','c','d']) #可修改索引
用索引读取相应的行
2.2 DataFrame
生成
查看形状
df.shape
df.shape[0] or len(df)
查看属性和信息
查看数据类型
df.dtypes
查看某列有多少种元素
#方法一:
len(df['name'].unique())
查看某一列各元素出现的次数
df['name'].value_counts()
查看某列各元素的长度
# 方法一:
df['name'].str.len()
# 方法二:
df['name'].map(lambda x: len(x))
用索引读取相应的行和列
查看索引范围
按条件查找
用query按条件查找
用iloc和loc查找行
提取某列的特定行
# 方法一:
df.iloc[[1,10,15], 0]
# 方法二:
df['createTime'][[1,10,15]]
# 方法三:
df['createTime'].take([1,10,15])
将所有列倒序排列
#方法一:
df.iloc[:, ::-<