
Python数据分析
文章平均质量分 96
Python数据分析的个人学习专栏。
CCH²¹
想要闪烁就对自己更严格。
展开
-
【Kaggle数据分析实战练习】World University Rankings
数据集介绍本次数据分析的数据集来自Kaggle的World University Rankings的cwurData.csv。数据集共包含2201行14列(含标题行),官方给出的每列的描述如下:world_rank: world rank for universityinstitution: name of universitycountry: country of each universitynational_rank: rank of university within its count原创 2021-05-15 14:47:41 · 1869 阅读 · 0 评论 -
实验室20200314数据处理任务总结
如果你想获取数据集和代码,请点这里。任务描述基本要求把样本文件中的数据按下面的样例格式写入输出文件。需要注意的是,输入文件中所有的暂无数据均按暂无写入输出文件,所有的None均按NULL写入输出文件。样本文件中共240条数据。输入文件样例样本文件ori_data的数据样例如下:Tue Mar 19 16:23:02 2019,杭州租房网 > 萧山租房 > 钱江世纪城租...原创 2020-03-16 21:54:30 · 398 阅读 · 0 评论 -
Python与正则表达式
参考资料:1.菜鸟教程-Python 3 正则表达式,网址:https://www.runoob.com/python3/python3-reg-expressions.html2.《Python从小白到大牛》,作者关东升,清华大学出版社3.《Python数据分析基础》,作者[美]Clinton W. Brownley,译者陈光欣,中国工信出版集团,人民邮电出版社简述正则表达式 正...原创 2020-01-17 21:11:31 · 620 阅读 · 0 评论 -
Python数据分析基础之CSV文件(1)
参考资料:《Python数据分析基础》,作者[美]Clinton W. Brownley,译者陈光欣,中国工信出版集团,人民邮电出版社CSV文件简述 CSV(comma-separated value,逗号分隔值)文件格式是一种非常简单的数据存储与分享方式。CSV文件将数据表格存储为纯文本,表格(或电子表格)中的每个单元格都是一个数值或字符串。与Excel文件相比,CSV文件的一个主要...原创 2020-01-19 08:39:02 · 1821 阅读 · 0 评论 -
Python数据分析基础之CSV文件(2)
基本字符串分析的失败 在上一节我们讲了使用Python对CSV文件进行读写。事实上,当列中包含额外的逗号时,CSV分析会失败。 我们打开supplier_data.csv,将Cost列中的最后两个成本数量分别改为$6,015.00和$1,006,015.00,如下图所示。 之前的脚本是按照行中的逗号分析每行数据的,这会让脚本错误地拆分最后两行的数据,因为数据中有逗号。 有很多方法可...原创 2020-01-19 17:57:02 · 519 阅读 · 0 评论 -
Python数据分析基础之CSV文件(3)
这一节主要讲一下在读写CSV文件时筛选特定的行。 有些时候,我们并不需要文件中所有的数据。例如,我们可能只需要一个包含特定词或数字的行的子集,或者是与某个具体日期关联的行的子集。在这些情况下,我们可以用Python筛选出特定的行来使用。 下面主要来讲在输入文件中筛选出特定行的3种方法: 1.行中的值满足某个条件; 2.行中的值属于某个集合; 3.行中的值匹配于某个模式(正则...原创 2020-01-20 21:34:36 · 660 阅读 · 0 评论 -
Python数据分析基础之CSV文件(4)
有些时候,我们也并不需要文件中所有的列。有两种方法可以在CSV文件中选取特定的列: 1.使用列索引值; 2.使用列标题。使用列索引值1.基础Python 举个例子,在之前的CSV文件中,我们只想保留供应商姓名和成本这两列,使用Python编辑代码如下:#!/usr/bin/env python3import csvimport sysinput_file = sys...原创 2020-01-23 18:24:51 · 543 阅读 · 0 评论 -
Python数据分析基础之CSV文件(5)
选取连续的行 有时,工作表的头部和尾部是我们不想处理的。在很多情况下,工作表头部是标题、作者信息等,尾部是来源、假设、附加说明、注意事项等,我们并不需要处理这些内容。在这时,我们可以用Python来选取CSV文件中连续的行。 我们把之前的supplier_data.csv文件打开,在工作表头部和尾部分别加入一些不需要处理的内容,如下图所示。1.基础Python 要使用基础Pytho...原创 2020-01-24 11:40:05 · 650 阅读 · 3 评论 -
Python数据分析基础之CSV文件(6)
之前的5篇文章全部讲的是处理单个CSV文件。但是,在大多数情况下,我们需要处理很多文件,而手工处理效率低,或者文件多到手工处理根本行不通。在这种情况下,使用Python可以规模化地处理文件,减少了人为工作量的同时,也有效地减少了人为犯错的概率。 为了规模化地处理CSV文件,我们需要使用Python内置的glob模块。我们使用下面的语句来导入该模块:import glob读取多个CSV...原创 2020-01-26 21:52:15 · 582 阅读 · 0 评论 -
Python数据分析基础之Excel文件(1)
参考资料:《Python数据分析基础》,作者[美]Clinton W. Brownley,译者陈光欣,中国工信出版集团,人民邮电出版社Excel文件简述 Microsoft Excel是Microsoft为使用Windows和Apple Macintosh操作系统的电脑编写的一款电子表格软件,它几乎无处不在,是商业活动中不可或缺的工具。使用Python可以处理Excel文件中的数据。...原创 2020-01-28 21:42:22 · 959 阅读 · 0 评论 -
Python数据分析基础之Excel文件(2)
处理单个工作表——读写Excel文件1.基础Python 要使用基础Python读写Excel文件,我们需要导入xlrd和xlwt模块。 对于上一节创建的Excel工作簿,我们试着来读取其中的january_2013工作表中的数据。代码如下:#!/usr/bin/env python3import sysfrom xlrd import open_workbookfrom xl...原创 2020-02-03 20:22:04 · 538 阅读 · 4 评论 -
Python数据分析基础之Excel文件(3)
选取特定列 有些时候,我们并不需要工作表中所有的列。我们可以用Python选取出需要保留的列。 有两种方法可以在Excel文件中选取特定的列: 1.使用列索引值; 2.使用列标题。1.1 使用列索引值(基础Python) 这里我们以保留之前的january_2013工作表中Customer Name和Purchase Date这两列为例。代码如下:#!/usr/bin/en...原创 2020-02-07 18:15:06 · 309 阅读 · 0 评论 -
Python数据分析基础之Excel文件(4)
之前的3篇博客主要讲了如何处理单个工作表。但是,很多情况下我们需要处理多个工作表,如果手工处理的话,效率会非常低,甚至根本不可行。在这种情况下,Python可以让我们自动化和规模化地进行数据处理,远远超过手工处理能够达到的限度。在所有工作表中筛选特定行1.基础Python 对于《Python数据分析基础之Excel文件(1)》中建立的sales_2013.xlsx这个Excel工作簿,...原创 2020-02-07 22:07:53 · 280 阅读 · 0 评论 -
Python数据分析基础之Excel文件(5)
上一篇博客主要讲了如何在一个工作簿的所有工作表中筛选特定的行和列。但是,有些情况下,我们只需要处理工作簿中其中几个工作表。在这种情况下,我们可以使用sheet_by_index()或sheet_by_name()函数来处理这些待处理的工作表。在一组工作表中筛选特定行1.基础Python 我们想要筛选出sales_2013.xlsx这个工作簿的第一个和第二个工作表中销售额大于$1900....原创 2020-02-09 21:28:02 · 545 阅读 · 0 评论 -
Python数据分析基础之Excel文件(6)
这一篇博客主要讲一下处理多个工作簿。 之前我们已经创建了sales_2013.xlsx工作簿。在这里,我们再创建两个新的工作簿sales_2014.xlsx和sales_2015.xlsx,并且修改其中的工作表名称和日期数据。工作表计数以及每个工作表中的行列计数 如果想知道一个文件夹中工作簿的数量,每个工作簿中工作表的数量,以及每个工作表中的行与列的数量,我们可以编写下面的代码:...原创 2020-02-10 15:26:54 · 587 阅读 · 0 评论 -
Python数据分析基础之数据库(1)
SQL(Structured Query Language),表示结构化查询语言,是一组应用广泛的与数据库交互的命令。要学习如何使用Python同数据库交互,首先我们要有一个数据库,并且数据库中要有一张充满数据的表。有两种资源可供我们选择:一是Python的内置模块sqlite3,它可以创建内存数据库,我们不用下载安装专门的数据库软件;二是MySQL、PostgreSQL或Oracle这样的常...原创 2020-02-10 20:22:06 · 571 阅读 · 0 评论 -
MySQL Community 8.0.19.0 msi版安装教程
1.在MySQL官网中下载msi文件下载地址:https://dev.mysql.com/downloads/windows/installer/8.0.html如上图所示,下载第二个即可。这里需要说明的一点是,虽然这里的MySQL Installer是32位,但会同时安装32位和64位二进制文件。2.打开下载好的msi文件进行安装2.1 选择Custom,点击Next。2.2 将My...原创 2020-02-10 21:30:34 · 21054 阅读 · 7 评论 -
Python数据分析基础之数据库(2)
上一篇博客主要讲了使用Python的内置模块sqlite3来创建内存数据库,这篇博客以及之后的博客主要讲MySQL数据库。准备工作 我们需要安装Python的MySQLdb扩展包,在Python 2中是MySQL-python,在Python 3中是mysqlclient。我使用的是Anaconda,这个扩展包随着安装Anaconda的时候就捆绑安装好了。 我们还需要安装MySQL。...原创 2020-02-11 16:40:14 · 297 阅读 · 0 评论 -
Python数据分析基础之数据库(3)
查询一个表并将输出写入CSV文件 数据表中有了数据之后,最常见的下一个步骤就是使用查询从表中取出一组数据进行分析。使用Python脚本可以从数据表中查询出一组特定记录。 下面的代码会从Suppliers数据表中查询出Cost列中的值大于700.00的所有记录,并将这些记录所有列中的值输出。#!/usr/bin/env python3import csvimport MySQLdb...原创 2020-02-11 20:58:04 · 229 阅读 · 0 评论 -
实验室寒假数据处理任务总结
处理一:将数据中所有信息有问题的那行信息删除。如样例中第4行数据,这一行数据只有3个元素,而其他行都有6个元素,所以删除第4行即可。再如最后一行第3个信息明显有问题,所以该行也是问题行,删除即可。将全部数据处理完之后,每行单个元素以逗号为分隔,写入文件test1。输入数据样例18 Jogging 102271561469000 -13.53 16.89 -6.418 Jogging 1022...原创 2020-02-15 23:04:39 · 287 阅读 · 0 评论 -
Python数据分析基础之应用程序
参考资料:《Python数据分析基础》,作者[美]Clinton W. Brownley,译者陈光欣,中国工信出版集团,人民邮电出版社在一个大文件集合中查找一组项目 当我们有大量历史数据的时候,要找到真正需要的数据是非常困难的。我们可以打开每个文件,找出需要的记录,并将其复制粘贴到一个新文件中。但这个过程既浪费时间,又容易出错。使用Python可以自动化地完成整个过程,既节省时间,又不...原创 2020-02-18 18:01:13 · 404 阅读 · 0 评论 -
Python数据分析基础之图与图表(1)
参考资料:《Python数据分析基础》,作者[美]Clinton W. Brownley,译者陈光欣,中国工信出版集团,人民邮电出版社 数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。它可以使我们看到变量的分布和变量之间的关系,还可以检查建模过程中的假设。 Python提供了若干种用于绘图的扩展包,包括matplotlib, pandas, ggplot和seaborn...原创 2020-02-19 00:15:43 · 944 阅读 · 0 评论 -
Python数据分析基础之图与图表(2)
上一节主要学习了使用matplotlib模块绘制统计图。这一节主要学习使用pandas, seaborn等模块绘制统计图。使用pandas绘制统计图 pandas模块提供了一个可以作用于序列和数据框的函数plot(),简化了基于序列和数据框中的数据创建图表的过程。plot()函数默认创建折线图,我们可以通过设置参数kind来创建其他类型的图表。 除了使用matplotlib模块创建标...原创 2020-02-19 21:34:21 · 1121 阅读 · 0 评论 -
Python数据分析基础之图与图表(ggplot番外篇)
ggplot简介 ggplot是一个Python绘图包,它基于R语言的ggplot2包和图形语法。ggplot与其他绘图包的关键区别是它的语法将数据与实际绘图明确地分离开来。为了对数据进行可视化表示,ggplot提供了几种基本元素:几何对象、图形属性和标度。除此之外,为了进行更高级的绘图,ggplot还提供一些附加元素:统计变换、坐标系、子窗口和可视化主题。 Python的ggplot库不...原创 2020-02-20 15:21:18 · 631 阅读 · 0 评论 -
Python数据分析基础之描述性统计与建模(1)
葡萄酒质量数据集 葡萄酒质量数据集包括两个文件——红葡萄酒文件和白葡萄酒文件。红葡萄酒文件中包含1599条观测,白葡萄酒文件包含4898条观测。两个文件中都有1个输出变量和11个输入变量。输出变量是酒的质量,是一个从0(低质量)到10(高质量)的评分。输入变量是葡萄酒的物理化学成分和特性,包括非挥发性酸、挥发性酸、柠檬酸、残余糖分、氯化物、游离二氧化硫、总二氧化硫、密度、pH值、硫酸盐和酒精含...原创 2020-02-28 16:53:28 · 3358 阅读 · 3 评论 -
Python数据分析基础之按计划自动运行脚本(Windows系统)
前言 我打算调整一下学习的路线。我的上一篇博客写的是数据分析基础的描述性统计与建模,但是由于我个人对于统计学知识的欠缺,在学习时看着书上的讲解经常会感觉一头雾水,仿佛在看天书一般。所以我决定先把书上最后一块内容——按计划自动运行脚本学完。 我的电脑是Windows 10操作系统的。我也没用过macOS和Unix系统的电脑,所以暂时只学习基于Windows操作系统的自动运行脚本。任务计划程...原创 2020-03-01 20:53:49 · 388 阅读 · 1 评论