
利用数据进行数据分析 第二版
利用数据进行数据分析 第二版 读书笔记
skyHdd
deep work,simple life
展开
-
sklearn 细节总结
sklearn 细节总结1、数据集划分随机划分分层划分1、数据集划分随机划分from sklearn.model_selection import train_test_split#data:需要进行分割的数据集#random_state:设置随机种子,保证每次运行生成相同的随机数#test_size:将数据分割成训练集的比例train_set, test_set = train_test_split(data, test_size=0.2, random_state=42)分层划分常用于原创 2020-06-23 20:08:23 · 267 阅读 · 0 评论 -
【利用Python进行数据分析】13 - Python建模库介绍
第十三章 Python建模库介绍1、pandas与模型代码的接口2、用Patsy创建模型描述2.1、Patsy创建模型设计矩阵2.2、用Patsy公式进行数据转换2.3、分类数据和Patsy主要内容:pandas数据规整和模型拟合和评分介绍两个流行的建模工具,statsmodels和scikit-learn。1、pandas与模型代码的接口模型开发的通常工作流是使用pandas进行数据加...原创 2020-04-08 20:55:40 · 1197 阅读 · 1 评论 -
【利用Python进行数据分析】12 - pandas高级应用
第12章 pandas高级应用1、分类数据1.1、pandas处理重复值常见函数1.2、分类编码 series_str.take(values)1.3、pandas的分类类型1.4、用分类进行计算 (pd.Series(draws).groupby(bins).agg(['count', 'min', 'max']).reset_index())1.5、用分类提高性能1.6、分类方法1.7、为建模...原创 2020-04-07 20:34:22 · 357 阅读 · 1 评论 -
【利用Python进行数据分析】11 - 时间序列
这里写目录标题日期和时间数据类型及工具字符串和datetime的相互转换dateframe转字符串字符串转日期格式时间序列(time series)数据是一种重要的结构化数据形式,时间序列数据主要有以下几种:时间戳(timestamp),特定的时刻。固定时期(period),如2007年1月或2010年全年。时间间隔(interval),由起始和结束时间戳表示。时期(period)可以被...原创 2020-04-02 22:47:04 · 637 阅读 · 1 评论 -
【利用Python进行数据分析】6-数据加载、存储与文件格式
输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。6.1、读写文本格式的数据pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。表6-1对它们进行了总结。pandas读取数据表6-1 pandas中的解析函数这些函数的选项可以划分为以下几个大类:索引:将一个或多个列当做返回的D...原创 2020-03-02 19:35:08 · 428 阅读 · 1 评论 -
【利用Python进行数据分析】4 NumPy基础
NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。NumPy的部分功能如下:ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。线性代数、随机数生成以及...原创 2020-03-01 12:05:23 · 3203 阅读 · 1 评论 -
【利用Python进行数据分析】5 - pandas入门
pandas含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建的,特别是基于数组的函数和不使用for循环的数据处理。虽然pandas采用了大量的NumPy编码风格,但二者最大的不同是pa...原创 2020-02-25 20:22:07 · 1176 阅读 · 1 评论 -
【利用Python进行数据分析】3-Python的数据结构、函数和文件
一、数据结构和序列1.1、元组1.1.1、定义元组元组是一个固定长度,不可改变的Python序列对象,创建元组的最简单方式,是用逗号分隔一列值。当用复杂的表达式定义元组,最好将值放到圆括号内。tup1 = 1,2,3 #(1,2,3)tup2 = (1,2),(3,4,5),(6,7,8,9,10) #((1,2),(3,4,5),(6,7,8,9,10))用tuple可以将任意序...原创 2020-02-17 19:19:21 · 553 阅读 · 1 评论 -
【利用Python进行数据分析】2 -Python语法基础、IPython和Jupyter Notebooks
Python解释器Python是解释性语言。Python解释器同一时间只能运行一个程序的一条语句。标准的交互Python解释器可以在命令行中通过键入python命令打开。提示输入代码。要退出Python解释器返回终端,可以输入exit()或按Ctrl-D。运行Python程序只需调用Python的同时,使用一个.py文件作为它的第一个参数。假设创建了一个hello_world.py文件,可以...原创 2020-02-16 15:42:01 · 1032 阅读 · 1 评论 -
【利用Python进行数据分析】1 - python介绍、安装与设置
结构化数据结构化数据(structured data),这个术语代指了所有通用格式的数据,例如:表格型数据,其中各列可能是不同的类型(字符串、数值、日期等)。比如保存在关系型数据库中或以制表符/逗号为分隔符的文本文件中的那些数据。多维数组(矩阵)。通过关键列(对于SQL用户而言,就是主键和外键)相互联系的多个表。间隔平均或不平均的时间序列。这绝不是一个完整的列表。大部分数据集都能被...原创 2020-02-15 20:21:38 · 520 阅读 · 1 评论 -
【利用Python进行数据分析】10 数据聚合与分组计算
对数据集进行分组并对各组应用一个函数,是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能,实现对数据集进行切片、切块、摘要等操作。使用一个或多个键(形式可以是函数、数组或DataFrame列名)分割pandas对象。计算分组的概述统计,比如数量、平均值或标准差,或是用户定义的函数。应用组内转换或...原创 2020-02-13 22:34:10 · 2225 阅读 · 1 评论