【机器学习-数据科学】第二节:ipython开发环境搭建以及pandas快速入门

本文介绍了如何搭建ipython开发环境,特别是ipython notebook的使用,接着深入讲解了pandas的基础操作,包括数据创建、空数据处理、数据选择、数据合并、数据整形、数据透视、时间序列分析以及数据可视化等,帮助读者快速入门数据科学。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

0.开发环境搭建

在这里插入图片描述

pip install jupyter
pip install numpy
pip install matplotlib

在这里插入图片描述
然后进入ipython 看一下没有错就可以了
在这里插入图片描述

技巧

ipython解析器对比python更易阅读。
在这里插入图片描述
在这里插入图片描述
ipython可以使用问号?访问
在这里插入图片描述

%timeit看某段代码执行的效果:
在这里插入图片描述

网页版ipython:ipython notebook

在这里插入图片描述
启动ipython:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

numpy

在这里插入图片描述
上一节讲过
补充一些:
在这里插入图片描述

1.pandas 快速入门一

在这里插入图片描述
https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html
10 minutes to pandas

导入

在这里插入图片描述

创建对象

创建一个通过Series传递值的列表:注意S大写

在这里插入图片描述
DataFrame通过传递带有日期时间索引和带标签的列的NumPy数组来创建:
在这里插入图片描述
通过字典来创建
df.A 访问列的数据
在这里插入图片描述
访问前几行:默认前五行

在这里插入图片描述
在这里插入图片描述
尾部的数据
在这里插入图片描述

行标签和列标签
在这里插入图片描述
在这里插入图片描述
可以看统计数据
在这里插入图片描述
转置
在这里插入图片描述
排序
根据列排序
在这里插入图片描述
降序的
在这里插入图片描述

通过A的值进行排序
在这里插入图片描述
数据选择
在这里插入图片描述
或者是属性值
在这里插入图片描述
又或者
在这里插入图片描述
又又或者
在这里插入图片描述
数字标签
在这里插入图片描述
在这里插入图片描述
访问某个特定值:第二种访问效率更高,但是需要访问最初始的参数,单只使用日期是会报错的
在这里插入图片描述

通过iloc选行
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
访问某个特定元素,第二种方法更高效
在这里插入图片描述
通过%timeit看是否高效
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
用isin过滤出某值
在这里插入图片描述
修改表中数据用iat
在这里插入图片描述
直接修改一列
在这里插入图片描述

还有有一种方式是直接标量,列的数目要匹配不然会报错
在这里插入图片描述
在这里插入图片描述

2. pandas 快速入门二

在这里插入图片描述
在这里插入图片描述

空数据处理

制造一些缺失项
NaN是没有数据的
在这里插入图片描述
处理空数据的方法:
一是删除
在这里插入图片描述
二是替换
在这里插入图片描述
判断是否有空数据
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
空数据是不参与计算的
在这里插入图片描述
按行求平均值
在这里插入图片描述

累加值
在这里插入图片描述
广播的概念

在这里插入图片描述
df减去s s相当于一直横向扩展
在这里插入图片描述

apply的用法

在这里插入图片描述
自定义函数
返回的是数组的和
在这里插入图片描述

count和mode函数

首先创建一个数列
在这里插入图片描述
counts可以看出随机产生的每个数字有多少个
在这里插入图片描述
s.mode()产生最多的
在这里插入图片描述

数据合并

在这里插入图片描述
用iloc取数
在这里插入图片描述
把三部分合并
在这里插入图片描述

比较一下
在这里插入图片描述

还有一种合并的方法
先创建两个数据
在这里插入图片描述
left和right连接起来 通过key进行关联
在这里插入图片描述
在这里插入图片描述
在另一个数据合并的方法是
首先创建数据
在这里插入图片描述
插入一行数据
在这里插入图片描述
改变其中一个量,可以看到新插入的数据变化
在这里插入图片描述

分组
在这里插入图片描述
按照A来进行分组,foo一组bar一组,然后进行计算
在这里插入图片描述
分组也可以多个分组,先A 再B分小组
是一种双索引的结构
在这里插入图片描述
在这里插入图片描述

3. pandas 快速入门三

在这里插入图片描述
在这里插入图片描述

数据整形

数据整形就是把行和列的数据进行互换
首先是创建和索引
在这里插入图片描述
把列索引变成行索引
在这里插入图片描述
在这里插入图片描述
再使用unstack转换回来
在这里插入图片描述
再转换一次,它会把第二层索引转换成列
在这里插入图片描述

数据透视

数据透视是只看一部分
首先创建一个DataFrame
在这里插入图片描述
D的值,以C为列索引,AB为行索引
在这里插入图片描述
上面存在nan表示 在索引中再在原数组中数据是不存在的
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

时间序列

在这里插入图片描述
在这里插入图片描述
是不是像股票的交易量,每秒交易了多少
我们这是需要对大量的数据进行重新采样
用每两分钟求和的方式进行采样

在这里插入图片描述
除了data_range,还有period_range
在这里插入图片描述
转换成时间的格式
在这里插入图片描述
时间的计算
在这里插入图片描述
时间的加法
在这里插入图片描述
类别数据介绍
下面是一个学生分数等级
在这里插入图片描述
创建一个grade的列
在这里插入图片描述
这一列是一个category的数据
在这里插入图片描述

在这里插入图片描述
可以重新命名的
在这里插入图片描述
上面是根据值来排序的
下面是降序
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

数据可视化

然后我们要把数据画出来
在这里插入图片描述

数据载入和保存

在这里插入图片描述
保存到磁盘里
在这里插入图片描述
%ls进行查看
在这里插入图片描述
%more查看
在这里插入图片描述
然后读回来
在这里插入图片描述
指定索引列
在这里插入图片描述
大部分来自官网啦
还是要看看官网啊

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值