Pandas数据处理基础
- Matplotlib中的
%matplotlib inline
:内嵌画图,不需要plt.show()
参考:https://blog.youkuaiyun.com/liangzuojiayi/article/details/78183783 numpy.random.randint
用法:返回一个随机整型数,范围从低(包括)到高(不包括),即[low, high);大小(size):x*y
参考:https://blog.youkuaiyun.com/u011851421/article/details/83544853- Numpy 与 DataFrame对比与应用:数组和表?
参考:https://www.cnblogs.com/yangzhizong/p/10118549.html - 在python和numpy中切片:取2~4行=1:4=取索引1到索引4
参考:https://www.cnblogs.com/Sinte-Beuve/p/6573246.html - pandas模块drop函数的使用:
DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')
其中参数:labels(标签或列表) columns(列名) axis=0:index axis=1:column
参考:https://jingyan.baidu.com/article/cb5d6105b9d051005c2fe095.html
Matplotlib 数据绘图基础课程
- 安装jupyter,并修改默认浏览器和工作区间
- matplotlib.pyplot.plot(*args, **kwargs)的理解:
https://blog.youkuaiyun.com/u014539580/article/details/78207537
https://blog.youkuaiyun.com/u011511601/article/details/82183889 神秘引申:为什么np.sin(np.pi)
的结果不为 0?
https://www.v2ex.com/t/532190- 饼图:https://www.cnblogs.com/zyg123/p/10504640.html
- axes.legend:图例
- 子图的自定义顺序排列:axes[0]
- rect.get_x() # 获取柱形图横坐标
mpl_toolkits.mplot3d
matplotlib中专门画3d的工具包np.arange
:格式np.arange([start, ]stop, [step, ]dtype=None)
,用于创建等差数列。
start:可忽略不写,默认从0开始;起始值
stop:结束值;生成的元素不包括结束值
step:可忽略不写,默认步长为1;步长
dtype:默认为None,设置显示元素的数据类型
参考:https://www.jianshu.com/p/d7d3ae1f096ffig.add_subplot(234)
:2*3网格,第四子图
参考:https://www.jianshu.com/p/7b68e01952b4
机器学习开放基础课程
实验1:使用Pandas进行数据探索
- Python中的Warnings模块忽略告警信息:
import warning
warnings.filterwarnings("ignore")
参考:https://blog.youkuaiyun.com/u013544265/article/details/28617527 - bool类型:布尔
- ascending=False 倒序排列,True正序
iloc
和loc
的区别:位置索引和标签索引
参考:https://blog.youkuaiyun.com/qiao8756/article/details/80843440- lambda用法:
lambda argument_list: expression
参考:https://blog.youkuaiyun.com/zjuxsl/article/details/79437563 describe(percentiles=[])
:查看分布情况pivot_table
:pandas透视表具体操作
https://www.cnblogs.com/onemorepoint/p/8425300.htmlnormalize=True
:计算占比
参考:https://www.cnblogs.com/keye/p/9664414.html- seaborn模块:数据可视化
https://www.jianshu.com/p/94931255aede - 交叉表:后加
.T
是倒置
https://blog.youkuaiyun.com/hustqb/article/details/78086394
实验2:Python数据可视化分析
-
plot()
函数详解
https://blog.youkuaiyun.com/brucewong0516/article/details/80524442 -
四分位距
如果有一个数,它大于的数据个数有整个数据的25/100,就称第1四分位数,如果有一个数,它大于的数据个数有整个数据的75/100,就称第3四分位数,
第1四分位数和第3四分位数的差的1/2,就称标准四分位距,它是测定一个分布的离散程度的。 -
箱型图读图
https://blog.youkuaiyun.com/uinglin/article/details/79895993 -
未解决:_, axes = plt.subplots(1, 2, sharey=True, figsize=(6, 4))(为什么在
axes
前有_,
,不添则报错)
补充问题:相同用法fig, axes=
,搜索可能得解释:此函数同时返回一个figure图像和一个子图ax的array列表。
参考:https://www.cnblogs.com/nju2014/p/5620776.html -
pandas中的
.corr()
函数用法:- corr()可以计算两列值得相关系数,默认用的是pearson相关系数
(参考:http://wenda.chinahadoop.cn/question/5146 ) - 相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱
(参考:https://baike.baidu.com/item/Pearson相关系数/6243913?fr=Aladdin )
- corr()可以计算两列值得相关系数,默认用的是pearson相关系数
-
笛卡尔坐标系:笛卡尔坐标就是两条(或三条)不相交的坐标轴组成的坐标系,当这两条坐标轴互相垂直的时候就是正交(也称直交)坐标系。所以直交坐标系是笛卡尔坐标系的一个特例,如果不加以强调的话,也可以默认笛卡尔坐标就是指直交坐标系。
-
jointplot()
用法:综合散点图
强力安利:https://blog.youkuaiyun.com/qq_42554007/article/details/82625118 -
%config InlineBackend.figure_format
的解释虽然交互式 GUI 具有其独特的优势,但在使用 IPython Notebook 或 Qtconsole 时,显示直接嵌入 notebook 中的 Matplotlib 生成图形通常更方便。此行为是使用 IPython 命令 %matplotlib inline 激活的,该命令激活为 IPython 提供支持的“内联(inline)后端”。这会将 Matplotlib 配置为使用非交互式后端生成图形,然后将其显示为 IPython Notebook 中的静态图像。IPython “内联后端” 也可以使用 IPython的 %config 命令进行微调。例如,我们可以使用 InlineBackend.figure_format 选项(对于 Mac OS X 用户 %config InlineBackend.figure_format=‘retina’ 是另一个有用的选项,它能提升 Matplotlib 图形在 Retina 屏上的质量)生成图形的输出格式。
%matplotlib inline %config InlineBackend.figure_format='svg'
参考:https://blog.youkuaiyun.com/And_w/article/details/79944188
-
lmplot()
:回归模型;fit-reg:如果为真,返回xy有关线性回归模型。
参考(1):https://www.sohu.com/a/164340723_718302
参考(2):http://seaborn.pydata.org/generated/seaborn.regplot.html -
enumerate()
函数:将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。
参考: https://www.runoob.com/python/python-func-enumerate.html -
catplot()
用法:分类型数据绘图
https://blog.youkuaiyun.com/u013317445/article/details/88196373
参数参考:https://blog.youkuaiyun.com/wmx3ng/article/details/82418712 -
groupby()
:分类
https://blog.youkuaiyun.com/m0_37870649/article/details/80979809 -
sort_values
:排序函数
模板:DataFrame.sort_values(by=‘##’,axis=0,ascending=True, inplace=False, na_position=‘last’)
部分参数:by(指定列名和索引值)、ascending(true为升序)
参考:https://blog.youkuaiyun.com/MsSpark/article/details/83154128 -
t-SNE算法理解
http://bindog.github.io/blog/2016/06/04/from-sne-to-tsne-to-largevis/ -
StandardScale()
:预处理数据,标准化
https://blog.youkuaiyun.com/sinat_33761963/article/details/53433799 -
fit_transform
:fit+transform
https://blog.youkuaiyun.com/weixin_38278334/article/details/82971752