
python数据分析
文章平均质量分 90
python数据分析学习
CodeByZhou
这个作者很懒,什么都没留下…
展开
-
啃书:《利用python进行数据分析》第七章——数据清洗(三)
字符串操作是我们很常见的一种处理,在实际应用中,我们会经常使用到对字符串的处理,python本身就是对字符串处理非常擅长,非常多的库函数可以帮助我们解决绝大部分我们生产生活中的简单问题。对于我们学习的每一种编程语言,都会有对应的正则表达式的讲解,这都要归功于它提供了一种文本中能够灵活查找与匹配字符串模式的方法。编写正则表达式的方式是完全可以自己独立为一个大的章节的,由于网上有很多的更加详细的教程,这里就不在这里进行过多的赘述,大家可以通过网上学习很多详细的正则表达式的视频进行学习。下图是一个简要概括。原创 2022-09-15 21:52:19 · 619 阅读 · 0 评论 -
啃书:《利用python进行数据分析》第七章——数据清洗(二)
对数据处理的另一类重要操作则是过滤、清理以及其他的转换工作。DataFrame中出现重复行有多种原因。下面就是一个例子: DataFrame的duplicated方法返回一个布尔型Series,表示各行是否是重复行(前面出现过的行): 还有一个与此相关的drop_duplicates方法,它会返回一个DataFrame,重复的数组会标为False: 这两个方法默认会判断全部列,你也可以指定部分列进行重复项判断。假设我们还有一列值,且只希望根据k1列过滤重复项: duplicated和drop_duplica原创 2022-09-12 16:44:50 · 278 阅读 · 0 评论 -
啃书:《利用python进行数据分析》第七章——数据清洗(一)
在数据分析和建模中,我们绝大部分的时间将会是对数据进行处理准备上:加载、清理、转换以及重塑。这些工作都会占用我们全部分析时间的80%以上甚至更多。有时,存储在文件和数据库中的数据格式不适合某些任务,许多数据分析人员会使用一些编程语言(如Python、Perl、R或者Java)或者UNIX文本处理工具(如sed或awk)对数据格式进行独立的处理。...原创 2022-08-14 17:59:18 · 289 阅读 · 0 评论 -
啃书:《利用python进行数据分析》第六章——数据加载(四)
对于那些非常大的无法直接放入内存的数据集,HDF5就是不错的选择,因为它可以高效地分块读写。pandas的ExcelFile类或pandas.read_excel函数支持读取存储在Excel 2003(或更高版本)中的表格型数据。之后,我会给出几个HDF5的例子,但我建议你尝试下不同的文件格式,看看它们的速度以及是否适合你的分析工作。它最适合用作“一次写多次读”的数据集。数据导入的东西有很多,这里是一个初步的学习,当我们完成了数据的读入之后我们要对数据进行一系列处理,这是我们之后要学习的内容。...原创 2022-08-12 18:05:27 · 155 阅读 · 0 评论 -
啃书:《利用python进行数据分析》第六章——数据加载(三)
除其空值null和一些其他的细微差别(如列表末尾不允许存在多余的逗号)之外,JSON非常接近于有效的Python代码。对象中所有的键都必须是字符串。pandas有一个内置的功能,read_html,它可以使用lxml和Beautiful Soup自动将HTML文件中的表格解析为DataFrame对象。lxml的速度比较快,但其它的库处理有误的HTML或XML文件更好。我们在日常的开发中,经常会用到JSON数据,JSON已经成为通过HTTP请求在Web浏览器和其他应用程序之间发送数据的标准格式之一。...原创 2022-08-11 18:59:56 · 354 阅读 · 0 评论 -
啃书:《利用python进行数据分析》第六章——数据加载(二)
由于接收到含有畸形行的文件而使read_table出毛病的情况并不少见。read_csv所返回的这个TextParser对象使你可以根据chunksize对文件进行逐块迭代。在当我们对大文件处理时,有可能我们只想读取出其中的一小部分并逐块对整体迭代。要手工输出分隔符文件,你可以使用csv.writer。对于任何单字符分隔符文件,可以直接使用Python内置的csv模块。现在,为了使数据格式合乎要求,你需要对其做一些整理工作。TextParser还有一个get_chunk方法,它使你可以读取任意大小的块。..原创 2022-07-19 14:42:07 · 147 阅读 · 0 评论 -
啃书:《利用python进行数据分析》第六章——数据加载(一)
访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出,虽然别的库中也有不少以此为目的的工具。输入输出通常可以划分为几个大类读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用WebAPI操作网络资源。......原创 2022-07-19 12:04:24 · 322 阅读 · 0 评论 -
啃书:《利用python进行数据分析》第五章——pandas入门(三)
numpy的通用函数也可以对pandas对象操作: 另一个常见的操作是,将函数应用到由各列或行所形成的一维数组上。DataFrame的apply方法即可实现此功能: 这里的函数f,计算了一个Series的最大值和最小值的差,在frame的每列都执行了一次。结果是一个Series,使用frame的列作为索引。如果传递axis='columns’到apply,这个函数会在每行执行: 传递到apply的函数不是必须返回一个标量,还可以返回由多个值组成的Series: 排序和排名 排序一直都是数据中不可缺少的部分。原创 2022-06-28 19:31:47 · 213 阅读 · 0 评论 -
啃书:《利用python进行数据分析》第五章——pandas入门(二)
接下来索引篇的一个难点,处理pandas的整数索引常常会难住新手,因为它与python的内置列表元组的索引方式不同。例如下面代码: 是不是没什么问题?? 不,这里错了!!!这里,pandas可以勉强进行整数索引,但是会导致小bug。我们有包含0,1,2的索引,但是引入用户想要的东西(基于标签或位置的索引)很难。另外,对于非整数索引,不会产生歧义: 为了进行统一,如果轴索引含有整数,数据选取总会使用标签。为了更准确,请使用loc(标签)或iloc(整数): 算术运算和数据对齐 pandas最重要的一个功能就是原创 2022-06-28 19:00:35 · 279 阅读 · 0 评论 -
啃书:《利用python进行数据分析》第五章——pandas入门(一)
通过前面几个章节的铺垫,我们对于数据处理也有了一点了解。后续主要首选是Pandas,它包含了使数据清洗和分析工作更快更简单的数据结构和操作工具。pandas经常会和其他工具一起并行使用,如上章学习到的numpy和scipy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于numpy建立的,特别是对基于数组的函数和不使用for循环的数据处理。虽然pandas使用了很多的numpy编码风格,但是二者最大的不同是pandas专门为处理表格和混杂数据设计原创 2022-06-28 18:25:42 · 602 阅读 · 0 评论 -
啃书:《利用Python进行数据分析》第二章
由于本人使用Jupyter更多所以就不再记录IPython的内容Python作为解释语言,解释器同一时刻只能运行一个程序的一条语句指令。标准的Python解释器可以在命令行中输入命令打开: 提示输入代码,如果要推出解释器,可以输入exit()或者按Ctrl+D。通过使用Python命令,可以把以结尾的文件作为第一个参数输入,就能很方便的运行我们以及保存好的代码。例如我现在写好了一个的文件,其中内容如下: 你可以通过以下命令执行这个文件(首先你的文件必须保存在终端的工作目录下): 2.2Jupter Note原创 2022-06-23 15:41:46 · 233 阅读 · 0 评论 -
啃书:《利用Python进行数据分析》第三章
在这个章节,我们将开始学习Python的内置功能,这些功能将会对本书后续内容做一个铺垫。虽然扩展库有很多,但是基础知识不能忘,在有了基础的前提下,我们对模块库的学习将会事半功倍。这里首先从最基础的数据结构开始说明:元组、列表、字典和集合。然后会讨论到千变万化的函数。最后对Python对文件对象的操作和交互。元组是个一个不可改变的固定长度对象。创建元组也非常简单,通过逗号即可完成: 当用复杂的表达式定义元组的时候,尽量把值放在圆括号内,如下所示: 用可以将任意序列或迭代器转换成元组: 可以用方括号访问元组中的原创 2022-06-24 16:38:34 · 345 阅读 · 1 评论 -
啃书:《利用python进行数据分析》第四章——Numpy基础
NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。NumPy的部分功能如下:由于NumPy提供了一个简单易用的C API,因此很容易将数据传递给由低级语言编写的外部库,外部库也能以NumPy数组的形式将数据返回给Python。这个功能使Python成为一种包装C/C++/Fortran历史代码库的选择,并使被包装库拥有一个动态的、易用的接口。NumPy本身并没有提供多么高级的数据分析功能,理解NumPy数组以及原创 2022-06-24 21:42:44 · 1393 阅读 · 0 评论 -
啃书:《利用Python进行数据分析》第一章
本书系统阐述了Python进行数据控制、处理、整理、分析等多方面的具体细节和基本要点。我再学习这本书的过程中进行一个汇总和总结,通过笔记来强化牢记知识点。数据的类别本书中出现的数据类型均为结构化数据,即通用格式例如:这并不是结构化数据的全部展现,当然我们经常试用Excel的用户肯定对这方面很熟悉。在我学习的过程中,我也发现Python是一门很方便上手的语言,不仅是他简洁的语言格式,也有他对科学计算语言方面完善的轮子生态。使他能够在数据中心处理上独占一片。Python能够如此成功的成为科学计算工具的部分原因,原创 2022-06-17 11:08:57 · 325 阅读 · 2 评论