
python数据挖掘
python机器学习实战
sunchengquan
这个作者很懒,什么都没留下…
展开
-
机器学习数据预处理
文章目录Preparing data is time-consumingData in the real world is dirtyPreprocessing data to avoid "garbage in, garbage out"Preprocessing data - Clean your dataPreprocessing data - Data normalizationPrepr...原创 2020-03-04 22:17:50 · 2284 阅读 · 0 评论 -
第07章 数据清洗和准备--Python for Data Analysis 2nd
在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时,存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言(如Python、Perl、R或Java)或UNIX文本处理工具(如sed或awk)对数据格式进行专门处理。幸运的是,pandas和内置的Python标准库提供了一组高级的、灵活的、快速...翻译 2019-05-30 16:18:54 · 365 阅读 · 0 评论 -
第08章 数据规整:聚合、合并和重塑--Python for Data Analysis 2nd
在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。首先,我会介绍pandas的层次化索引,它广泛用于以上操作。然后,我深入介绍了一些特殊的数据操作。在第14章,你可以看到这些工具的多种应用。层次化索引层次化索引(hierarchical indexing)是pandas的一项重要功能,它使你能在一个轴上拥有多个(两个以上)索引级别...翻译 2019-05-30 16:20:23 · 325 阅读 · 0 评论 -
第09章 绘图和可视化--Python for Data Analysis 2nd
信息可视化(也叫绘图)是数据分析中最重要的工作之一。它可能是探索过程的一部分,例如,帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外,做一个可交互的数据可视化也许是工作的最终目标。Python有许多库进行静态或动态的数据可视化,但我这里重要关注于matplotlib(http://matplotlib.org/) 和基于它的库。matplotlib是一个用于创建出版质量图表的桌...翻译 2019-05-31 08:56:28 · 643 阅读 · 0 评论 -
第10章 数据聚合与分组运算--Python for Data Analysis 2nd
对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。关系型数据库和SQL(Structured Query Language,结构化查询语言)能够如此流行的原因之一就是其能够方便...翻译 2019-05-31 08:56:47 · 378 阅读 · 0 评论 -
第11章 时间序列--Python for Data Analysis 2nd
时间序列(time series)数据是一种重要的结构化数据形式,应用于多个领域,包括金融学、经济学、生态学、神经科学、物理学等。在多个时间点观察或测量到的任何事物都可以形成一段时间序列。很多时间序列是固定频率的,也就是说,数据点是根据某种规律定期出现的(比如每15秒、每5分钟、每月出现一次)。时间序列也可以是不定期的,没有固定的时间单位或单位之间的偏移量。时间序列数据的意义取决于具体的应用场景,...翻译 2019-05-31 09:12:54 · 661 阅读 · 0 评论 -
第12章 pandas高级应用--Python for Data Analysis 2nd
前面的章节关注于不同类型的数据规整流程和NumPy、pandas与其它库的特点。随着时间的发展,pandas发展出了更多适合高级用户的功能。本章就要深入学习pandas的高级功能。分类数据这一节介绍的是pandas的分类类型。我会向你展示通过使用它,提高性能和内存的使用率。我还会介绍一些在统计和机器学习中使用分类数据的工具。背景和目的表中的一列通常会有重复的包含不同值的小集合的情况。我们已...翻译 2019-05-31 09:14:58 · 304 阅读 · 0 评论 -
第13章 Python建模库介绍--Python for Data Analysis 2nd
本书中,我已经介绍了Python数据分析的编程基础。因为数据分析师和科学家总是在数据规整和准备上花费大量时间,这本书的重点在于掌握这些功能。开发模型选用什么库取决于应用本身。许多统计问题可以用简单方法解决,比如普通的最小二乘回归,其它问题可能需要复杂的机器学习方法。幸运的是,Python已经成为了运用这些分析方法的语言之一,因此读完此书,你可以探索许多工具。本章中,我会回顾一些pandas的特...翻译 2019-05-31 09:15:58 · 1071 阅读 · 1 评论 -
第14章 数据分析案例--Python for Data Analysis 2nd
本书正文的最后一章,我们来看一些真实世界的数据集。对于每个数据集,我们会用之前介绍的方法,从原始数据中提取有意义的内容。展示的方法适用于其它数据集,也包括你的。本章包含了一些各种各样的案例数据集,可以用来练习。案例数据集可以在Github仓库找到,见第一章。来自Bitly的USA.gov数据2011年,URL缩短服务Bitly跟美国政府网站USA.gov合作,提供了一份从生成.gov或.mi...翻译 2019-05-31 09:20:06 · 1879 阅读 · 0 评论 -
第06章 数据加载、存储与文件格式--Python for Data Analysis 2nd
访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出,虽然别的库中也有不少以此为目的的工具。输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。读写文本格式的数据pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。表6-1对它们进行了总结,其中read_csv和rea...翻译 2019-05-30 16:17:11 · 695 阅读 · 0 评论 -
第05章 pandas入门--Python for Data Analysis 2nd
pandas是本书后续内容的首选库。它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建的,特别是基于数组的函数和不使用for循环的数据处理。虽然pandas采用了大量的NumPy编码风...翻译 2019-05-30 16:15:48 · 405 阅读 · 1 评论 -
Seaborn散点图,箱型图,柱状图,折线图及多面板绘图
分类散点图 stripplot()import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib as mplimport matplotlib.pyplot as pltsns.set(style="whitegrid", color_codes=True)np.random.seed(原创 2018-01-03 18:19:00 · 41673 阅读 · 1 评论 -
python调用echart交互式可视化
echart 是一款十分流行的JS交互式绘图,而pyhton如何使用echart? 参考pyechart文档:http://pyecharts.org/#/zh-cn/ 必要时,可以根据自己的需求,修改pyechart的源码Bar(柱状图/条形图)import pandas as pdfrom pyecharts.chart import Chartfrom pyecha...原创 2018-03-04 19:07:00 · 42796 阅读 · 14 评论 -
第01章 准备工作 --Python for Data Analysis 2nd
下载本书:http://www.jianshu.com/p/fad9e41c1a42GitHub(欢迎提pull request,GitHub上的md文件可以用来自制电子书,pdf、mobi、epub格式的都行):https://github.com/iamseancheney/python_for_data_analysis_2nd_chinese_versionGitBook(有锚点功能...翻译 2019-05-30 15:56:28 · 660 阅读 · 0 评论 -
第02章 Python语法基础,IPython和Jupyter Notebooks--Python for Data Analysis 2nd
当我在2011年和2012年写作本书的第一版时,可用的学习Python数据分析的资源很少。这部分上是一个鸡和蛋的问题:我们现在使用的库,比如pandas、scikit-learn和statsmodels,那时相对来说并不成熟。2017年,数据科学、数据分析和机器学习的资源已经很多,原来通用的科学计算拓展到了计算机科学家、物理学家和其它研究领域的工作人员。学习Python和成为软件工程师的优秀书籍也...翻译 2019-05-30 15:59:55 · 473 阅读 · 0 评论 -
第03章 Python的数据结构、函数和文件--Python for Data Analysis 2nd
本章讨论Python的内置功能,这些功能本书会用到很多。虽然扩展库,比如pandas和Numpy,使处理大数据集很方便,但它们是和Python的内置数据处理工具一同使用的。我们会从Python最基础的数据结构开始:元组、列表、字典和集合。然后会讨论创建你自己的、可重复使用的Python函数。最后,会学习Python的文件对象,以及如何与本地硬盘交互。数据结构和序列Python的数据结构简单而...翻译 2019-05-30 16:01:24 · 310 阅读 · 0 评论 -
第04章 NumPy基础:数组和矢量计算--Python for Data Analysis 2nd
NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。NumPy的部分功能如下:ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数(无需编写循环)。用于读写磁盘数据的工具以及用于操作内存映射文件的工具。线性代数、随机数生成以及...翻译 2019-05-30 16:13:41 · 591 阅读 · 0 评论 -
Python-Seaborn热图绘制
制图环境: pycharm python-3.6 Seaborn-0.8热图import numpy as npimport seaborn as snsimport matplotlib.pyplot as pltsns.set()np.random.seed(0)uniform_data = np.random.rand(10, 12)ax = sns.heatmap(unif原创 2017-11-19 11:08:20 · 65785 阅读 · 4 评论