
Python数据分析
文章平均质量分 92
天涯尽头黄鹤楼
这个作者很懒,什么都没留下…
展开
-
Python数据分析学习系列 十六 IPython的内容
资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下载第2章中,我们学习了IPython shell和Jupyter notebook的基础。本章中,我们会探索IPython更深层次的功能,可以从控制台或在jupyter使用。Ipython维护了一个位于磁盘的小型数据库,用于保存执行的每条指令。它的用途有:这些功能在shell中,要比notebook更为有用,因为notebook从设计上是将输入和输出的代码放到每个代码原创 2022-06-21 19:43:31 · 543 阅读 · 0 评论 -
Python数据分析学习系列 十五 NumPy高级应用
资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下载本章包括了一些杂乱的章节,不需要仔细研究。NumPy的ndarray提供了一种将同质数据块(可以是连续或跨越)解释为多维数组对象的方式。正如你之前所看到的那样,数据类型(dtype)决定了数据的解释方式,比如浮点数、整数、布尔值等。ndarray如此强大的部分原因是所有数组对象都是数据块的一个跨度视图(strided view)。你可能想知道数组视图arr[::2,:原创 2022-06-21 19:42:09 · 496 阅读 · 0 评论 -
Python数据分析学习系列 十四 数据分析案例
资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下载本书正文的最后一章,我们来看一些真实世界的数据集。对于每个数据集,我们会用之前介绍的方法,从原始数据中提取有意义的内容。展示的方法适用于其它数据集,也包括你的。本章包含了一些各种各样的案例数据集,可以用来练习。案例数据集可以在Github仓库找到,见第一章。#14.1 来自Bitly的USA.gov数据2011年,URL缩短服务Bitly跟美国政府网站USA.gov原创 2022-06-21 19:40:13 · 5118 阅读 · 2 评论 -
Python数据分析学习系列 十三 Python建模库介绍
资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下载本书中,我已经介绍了Python数据分析的编程基础。因为数据分析师和科学家总是在数据规整和准备上花费大量时间,这本书的重点在于掌握这些功能。开发模型选用什么库取决于应用本身。许多统计问题可以用简单方法解决,比如普通的最小二乘回归,其它问题可能需要复杂的机器学习方法。幸运的是,Python已经成为了运用这些分析方法的语言之一,因此读完此书,你可以探索许多工具。本章中,原创 2022-06-21 19:38:35 · 2158 阅读 · 0 评论 -
Python数据分析学习系列 十二 数据聚合与分组运算
资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下载前面的章节关注于不同类型的数据规整流程和NumPy、pandas与其它库的特点。随着时间的发展,pandas发展出了更多适合高级用户的功能。本章就要深入学习pandas的高级功能。这一节介绍的是pandas的分类类型。我会向你展示通过使用它,提高性能和内存的使用率。我还会介绍一些在统计和机器学习中使用分类数据的工具。表中的一列通常会有重复的包含不同值的小集合的情况。原创 2022-06-21 19:24:22 · 489 阅读 · 0 评论 -
Python数据分析学习系列 十一 时间序列
资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下载时间序列(time series)数据是一种重要的结构化数据形式,应用于多个领域,包括金融学、经济学、生态学、神经科学、物理学等。在多个时间点观察或测量到的任何事物都可以形成一段时间序列。很多时间序列是固定频率的,也就是说,数据点是根据某种规律定期出现的(比如每15秒、每5分钟、每月出现一次)。时间序列也可以是不定期的,没有固定的时间单位或单位之间的偏移量。时间序列原创 2022-06-21 19:21:26 · 1175 阅读 · 0 评论 -
Python数据分析学习系列 十 数据聚合与分组运算
资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下载对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。关系型数据库和SQL(Structured Query Language,结构化查询语言)能够如原创 2022-06-20 10:05:14 · 1573 阅读 · 0 评论 -
Python数据分析学习系列 九 绘图和可视化
资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下载信息可视化(也叫绘图)是数据分析中最重要的工作之一。它可能是探索过程的一部分,例如,帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外,做一个可交互的数据可视化也许是工作的最终目标。Python有许多库进行静态或动态的数据可视化,但我这里重要关注于matplotlib(http://matplotlib.org/)和基于它的库。matplotlib是原创 2022-06-13 10:11:00 · 1223 阅读 · 0 评论 -
Python数据分析学习系列 八 数据规整:聚合、合并和重塑
资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下载在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。首先,我会介绍pandas的层次化索引,它广泛用于以上操作。然后,我深入介绍了一些特殊的数据操作。在第14章,你可以看到这些工具的多种应用。层次化索引(hierarchical indexing)是pandas的一项重要功能,它使你能在一个轴上拥有多个(两原创 2022-06-13 09:20:23 · 482 阅读 · 0 评论 -
Python数据分析学习系列 七 数据清洗和准备
资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下载在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时,存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言(如Python、Perl、R或Java)或UNIX文本处理工具(如sed或awk)对数据格式进行专门处理。幸运的是,pandas和内置的Python标准原创 2022-06-08 10:03:54 · 953 阅读 · 0 评论 -
Python数据分析学习系列 六 数据加载、存储与文件格式
访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出,虽然别的库中也有不少以此为目的的工具。输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。表6-1对它们进行了总结,其中read_csv...原创 2022-06-06 09:51:57 · 759 阅读 · 0 评论 -
Python数据分析学习系列 五 pandas入门
Python数据分析学习系列五资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下载pandas是本书后续内容的首选库。它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建的,特别是基于数组的函数和不使用fo原创 2022-05-31 11:01:34 · 600 阅读 · 0 评论 -
Python数据分析学习四 NumPy基础:数组和矢量计算
Python数据分析学习系列四资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下载NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。NumPy的部分功能如下:ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数(无需编写循环)。用于读写磁盘数据原创 2022-05-30 14:19:17 · 1406 阅读 · 0 评论 -
Python数据分析 环境准备
安装conda具体参考:(个人电脑系统不同,可以自行csdn或b站搜索安装)https://blog.youkuaiyun.com/qq_53564294/article/details/120535377?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522165361307716781667857211%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_原创 2022-05-27 09:00:50 · 144 阅读 · 0 评论 -
Python数据分析学习 三 Python的数据结构、函数和文件
Python数据分析学习系列三资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下载本章讨论Python的内置功能,这些功能本书会用到很多。虽然扩展库,比如pandas和Numpy,使处理大数据集很方便,但它们是和Python的内置数据处理工具一同使用的。我们会从Python最基础的数据结构开始:元组、列表、字典和集合。然后会讨论创建你自己的、可重复使用的Python函数。最后,会学习Python的文件对象,以及如何原创 2022-05-27 08:55:09 · 417 阅读 · 0 评论 -
Python数据分析学习 二
Python数据分析学习系列二资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下载第2章 Python语法基础,IPython和Jupyter Notebooks当我在2011年和2012年写作本书的第一版时,可用的学习Python数据分析的资源很少。这部分上是一个鸡和蛋的问题:我们现在使用的库,比如pandas、scikit-learn和statsmodels,那时相对来说并不成熟。2017年,数据科学、数据分原创 2022-05-26 10:17:12 · 610 阅读 · 0 评论 -
Python数据分析学习 一
Python数据分析学习系列一资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下载第1章 准备工作1.1 本书的内容本书讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。我的目标是介绍Python编程和用于数据处理的库和工具环境,掌握这些,可以让你成为一个数据分析专家。虽然本书的标题是“数据分析”,重点却是Python编程、库,以及用于数据分析的工具。这就是数据分析要用到的Pyth原创 2022-05-25 17:54:10 · 2180 阅读 · 0 评论