
数据分析
文章平均质量分 77
大数据的分析
Vax_Loves_1314
正不断走向秃顶的程序猿人生~
展开
-
Python数据分析中常用的工具类和方法【持续更新系列】
本文主要记录在工作和学习中,做数据分析常用到的一些简单的工具函数和类。原创 2022-08-11 17:57:59 · 710 阅读 · 0 评论 -
Python数据分析常用30段优化代码
1. 重复元素判定以下方法可以检查给定列表是不是存在重复元素,它会使用 set() 函数来移除所有重复元素。defall_unique(lst):returnlen(lst)==len(set(lst))x=[1,1,2,2,3,2,3,4,5,6]y=[1,2,3,4,5]all_unique(x)#Falseall_unique(y)#True2. 字符元素组成判定检查两个字符串的组成元素是不是一样的。from...原创 2022-04-30 23:27:07 · 1603 阅读 · 0 评论 -
【数据分析从入门到“入坑“系列】利用Python学习数据分析-文件和操作系统
文件和操作系统本书的代码示例大多使用诸如pandas.read_csv之类的高级工具将磁盘上的数据文件读入Python数据结构。但我们还是需要了解一些有关Python文件处理方面的基础知识。好在它本来就很简单,这也是Python在文本和文件处理方面的如此流行的原因之一。为了打开一个文件以便读写,可以使用内置的open函数以及一个相对或绝对的文件路径:In [207]: path = 'examples/segismundo.txt'In [208]: f = open(path)默认原创 2021-06-30 23:44:16 · 2199 阅读 · 1 评论 -
嘘!教你几个能够快速提升实战能力的Python项目
关于Python有一句名言:不要重复造轮子。但是问题有三个:你不知道已经有哪些轮子已经造好了,哪个适合你用。有名有姓的的著名轮子就400多个,更别说没名没姓自己在制造中的轮子。 确实没重复造轮子,但是在重复制造汽车。包括好多大神写的好几百行代码,为的是解决一个Excel本身就有的成熟功能。 很多人是用来抓图,数据,抓点图片、视频、天气预报自娱自乐一下,然后呢?抓到大数据以后做什么用呢?比如某某啤酒卖的快,然后呢?比如某某电影票房多,然后呢?我认为用Python应该能分析出来,这个现实的世界属于原创 2021-06-30 23:36:29 · 1879 阅读 · 0 评论 -
【数据分析从入门到“入坑“系列】利用Python学习数据分析-Python语法基础
Python语法基础在本节中,我将概述基本的Python概念和语言机制。在下一章,我将详细介绍Python的数据结构、函数和其它内建工具。语言的语义Python的语言设计强调的是可读性、简洁和清晰。有些人称Python为“可执行的伪代码”。使用缩进,而不是括号Python使用空白字符(tab和空格)来组织代码,而不是像其它语言,比如R、C++、JAVA和Perl那样使用括号。看一个排序算法的for循环:for x in array: if x < pivot: ...原创 2021-06-05 20:55:27 · 768 阅读 · 0 评论 -
【数据分析从入门到“入坑“系列】利用Python学习数据分析-IPython讲解
笔记:本章没有介绍Python的某些概念,如类和面向对象编程,你可能会发现它们在Python数据分析中很有用。 为了加强Python知识,我建议你学习官方Python教程,https://docs.python.org/3/,或是通用的Python教程书籍,比如: Python Cookbook,第3版,David Beazley和Brian K. Jones著(O’Reilly) 流畅的Python,Luciano Ramalho著 (O’Reilly) 高效的Python,Br原创 2021-06-05 19:16:18 · 686 阅读 · 2 评论 -
【数据分析从入门到“入坑“系列】利用Python学习数据分析-环境配置和软件安装
由于人们用Python所做的事情不同,所以没有一个普适的Python及其插件包的安装方案。由于许多读者的Python科学计算环境都不能完全满足本系列的需要,所以接下来我将详细介绍各个操作系统上的安装方法。我推荐免费的Anaconda安装包。写作本系列时,Anaconda提供Python 2.7和3.6两个版本,以后可能发生变化。本系列使用的是Python 3.6,因此推荐选择Python 3.6或更高版本。Windows要在Windows上运行,先下载Anaconda安装包。推荐跟随Anaconda原创 2021-05-30 22:24:58 · 553 阅读 · 0 评论 -
【数据分析从入门到“入坑“系列】利用Python学习数据分析-准备工作
1.1 本系列的内容本系列讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。我的目标是介绍Python编程和用于数据处理的库和工具环境,掌握这些,可以让你成为一个数据分析专家。虽然本系列的标题是“数据分析”,重点却是Python编程、库,以及用于数据分析的工具。这就是数据分析要用到的Python编程。什么样的数据?当书中出现“数据”时,究竟指的是什么呢?主要指的是结构化数据(structured data),这个故意含糊其辞的术语代指了所有通用格式的数据,例如:原创 2021-05-29 14:27:48 · 874 阅读 · 0 评论 -
【数据分析】基于癌症生存数据建立神经网络
目录概览Haberman乳腺癌生存数据集神经网络学习机制模型稳健性评估最终的模型和预测教程总结根据新数据集开发神经网络预测模型是一个挑战。一种方法是先对数据集进行探查,然后思考什么模型适用于这个数据集,先尝试一些简单的模型,最后再开发并调优一个稳健的模型。这个流程适用于为分类、回归预测模型问题开发高效的神经网络。本教程中,你将学习如何开发一个多层感知机神经网络模型,用于癌症生存二分类数据集。完成本教程后,你将了解到: 如何加载和汇总癌症生存数据集,根据.原创 2021-05-12 10:32:52 · 780 阅读 · 0 评论 -
盘点12个Python数据可视化库
大家普遍第一次接触到的Python数据可视化库基本上都是Matplotlib。Python还有很多数据可视化库,本文我将简单介绍12款常用的Python数据可视化库,并在文末送出一本数据可视化书籍!Python有很多数据可视化库,这些数据可视化库主要分为探索式可视化库和交互式可视化库。前者透过简单直接的视觉图形,更方便用户看懂原数据,后者主要用于与业务结合过程中展现总体分析结果。探索式可视化库探索式分析最大的优势在于,可以让业务人员在海量数据中“自由发挥”,不受数据模型的限制。通过探索式分析原创 2021-01-31 23:49:09 · 809 阅读 · 0 评论 -
(数据分析基础)Python爬虫定时计划任务的几种常见方法
记得以前的Windows任务定时是可以正常使用的,今天试了下,发现不能正常使用了,任务计划总是挂起。接下来记录下Python爬虫定时任务的几种解决方法。方法1:While True首先最容易的是while true死循环挂起,不废话,直接上代码:importosimporttimeimportsysfromdatetimeimportdatetime,timedeltadefOne_Plan():#设置启动周期Second_update_ti...原创 2021-01-31 23:45:39 · 899 阅读 · 0 评论 -
Python做数据分析(一)分析社区超市运营数据,自动更新促销时间
目录1.读取数据2.分析哪些类别的商品比较畅销3.分析哪些商品比较畅销4.分析不同门店的销售额占比5.分析超市客流高分高峰时间段1.读取数据数据存放在表格中,我们用pandas将其读出来importpandasaspddata=pd.read_csv('超市运营数据.csv',encoding='gbk',parse_dates=["成交时间"])data2.分析哪些类别的商品比较畅销首先将数据按照类别ID进行分组,然后对分组后的销量进行求和,最后用...原创 2021-01-10 21:55:09 · 1893 阅读 · 1 评论 -
做数据分析必不可少的可视化工具,让我们一起白嫖!!
今天我们会介绍一下10个适用于多个学科的Python数据可视化库,其中有名气很大的也有鲜为人知的。1、matplotlib两个直方图matplotlib 是Python可视化程序库的泰斗。经过十几年它任然是Python使用者最常用的画图库。它的设计和在1980年代被设计的商业化程序语言MATLAB非常接近。由于 matplotlib 是第一个 Python 可视化程序库,有许多别的程序库都是建立在它的基础上或者直接调用它。比如pandas和Seaborn就是matplot..原创 2021-01-10 21:49:14 · 1428 阅读 · 0 评论 -
强烈推荐的几个数据清洗小工具箱
在下面的代码片段中,数据清洗代码被封装在了一些函数中,代码的目的十分直观。你可以直接使用这些代码,无需将它们嵌入到需要进行少量参数修改的函数中。1. 删除多列数据defdrop_multiple_col(col_names_list,df):'''AIM->DropmultiplecolumnsbasedontheircolumnnamesINPUT->Listofcolumnnames,dfOU...原创 2020-11-30 23:22:42 · 2495 阅读 · 0 评论 -
最全Python数据清理终极指南
一般来说,我们在拟合一个机器学习模型或是统计模型之前,总是要进行数据清理的工作。因为没有一个模型能用一些杂乱无章的数据来产生对项目有意义的结果。数据清理或清除是指从一个记录集、表或是数据库中检测和修改(或删除)损坏或不准确的数据记录的过程,它用于识别数据中不完整的、不正确的、不准确的或者与项目本身不相关的部分,然后对这些无效的数据进行替换、修改或者删除等操作。这是个很长的定义,不过描述的较为简单,容易理解。为了简便起见,我们在Python中新创建了一个完整的、分步的指南,你将从中学习到如何进行数原创 2020-11-30 22:49:53 · 1707 阅读 · 0 评论