利用Python进行数据分析
文章平均质量分 90
Triumph19
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
整理了10个经典的Pandas数据查询案例(附原始数据\多个条件过滤\日期条件过滤)
我希望在阅读本文后,您可以更频繁,流利地使用Pandas中的query()函数,因为它可以方便以过滤数据集。这些查询的函数我每天都会或多或少的使用。转载 2022-10-17 16:09:14 · 1304 阅读 · 1 评论 -
电商用户行为数据可视化分析实战(频率分布直方图、箱限图、小提琴图、分组函数(groupby)、sns.FacetGrid))
电商用户行为数据可视化分析实战转载 2022-10-10 21:23:48 · 1696 阅读 · 1 评论 -
二手房房价分析与预测(图表绘制避免中文乱码、饼形图、折线图、条形图(柱形图)、enumerate函数、数据清洗(lambda\map)、二手房预测(scikit-learn))
二手房房价预测原创 2022-07-17 20:43:43 · 7781 阅读 · 6 评论 -
电商销售数据分析与预测(日期数据统计、按天统计、按月统计)
电商销售数据与预测原创 2022-07-17 10:56:36 · 13200 阅读 · 7 评论 -
机器学习库Scikit-Learn(线性模型、岭回归、插入一列数据(insert)、提取所需列、向量机(SVM)、聚类)
机器学习库Scikit-Learn原创 2022-07-16 20:34:59 · 4808 阅读 · 0 评论 -
数据统计分析案例(对比分析、销量定比分析、同比、双坐标图、环比、shift、贡献度分析(帕累托法则)、差异化分析、resample、季节性波动分析)
数据分析案例原创 2022-07-16 09:59:35 · 8193 阅读 · 1 评论 -
图解数组计算模块NumPy下(三角函数、四舍五入函数(around)、取整、将弧度转化为角度、统计分析函数、中位数、数组的排序、argsort()、lexsort())
图解数组计算模块NumPy原创 2022-07-15 10:00:44 · 1506 阅读 · 0 评论 -
图解数组计算模块Numpy上(指定数值类型、数值类型、二维数组索引、二维数组切片索引、数组重塑、数组的增、删、改、查、矩阵运算(mat)、矩阵求逆)
图解数组计算模块NumPy原创 2022-07-14 20:45:02 · 1762 阅读 · 0 评论 -
第三方可视化数据分析图表Pyecharts(下载保存图片(生成的html图片)、zip函数(将数据转换为列表加元组的格式)、南丁格尔玫瑰图、双y轴可视化、饼形图和环形图)
第三方可视化数据分析图表Pyecharts原创 2022-07-13 10:21:16 · 2723 阅读 · 0 评论 -
Seaborn可视化数据分析图表(折线图、直方图、条形图、散点图、线性回归模型、箱体图(箱形图)、核密度图、提琴图、字符串切分(str.split))、横向表合并、热力图)
Seaborn可视化数据分析图表原创 2022-07-12 17:33:18 · 3855 阅读 · 1 评论 -
Matplotlib可视化数据分析图表下(常用图表的绘制、折线图、柱形图、直方图、饼形图、散点图、面积图、热力图、箱形图、3D图表、绘制多个图表、双y轴可视化图表、颜色渐变图)
Matplotlib可视化数据分析图表原创 2022-07-11 20:56:23 · 6272 阅读 · 0 评论 -
Matplotlib可视化数据分析图表上(解决中文乱码、解决负号不显示问题、round函数、为图表中各个数据点添加文本标签、坐标轴范围、添加文本标签、设置标题和图例、添加注释)
matplotlib可视化图表原创 2022-07-07 21:07:48 · 2733 阅读 · 0 评论 -
Pandas统计分析下(日期数据处理、时间序列、降采样、升采样(resample)、Excel多表合并、股票行情数据分析、解决中文乱码)
Pandas统计分析原创 2022-07-06 19:15:29 · 3234 阅读 · 0 评论 -
Pandas统计分析中(数据计算、数据格式化、数据分组统计、数据移位、数据转换、数据合并、数据导出)
Pandas统计分析原创 2022-07-06 10:28:25 · 5178 阅读 · 0 评论 -
pandas统计分析上(导入excel数据、Series对象、DataFrame对象、绝对路径和相对路径、多个html表格的拼接及排序、loc与iloc的区别、数据的增修改和删除、数据清洗、异常值)
pandas数据分析3.Series切片索引用标签索引做切片,包头包尾(即包含索引开始位置的数据,也包含索引结束位置的索引)。通过标签切片索引“明日同学”至“七月流火”获取数据。程序代码如下:用位...原创 2022-07-02 21:13:27 · 2027 阅读 · 0 评论 -
第2章 构建自定义语料库
构建自定义语料库原创 2022-06-26 16:37:43 · 6144 阅读 · 0 评论 -
使用文本分析识别一段文本中的主要性别
使用文本分析一段文本中出现的性别比例原创 2022-06-24 10:44:25 · 984 阅读 · 0 评论 -
语料库数据处理个案实例(读取多个文本文件、读取一个文件夹下面指定的多个文件、解码错误、读取多个子文件夹文本、多个文件批量改名)
读取同一文件夹下的多个文件、读取多个子文件夹文本原创 2022-06-23 15:43:50 · 1267 阅读 · 0 评论 -
语料库数据处理个案实例(句子检索相关个案)
语料库句子检索相关个案原创 2022-06-23 11:12:44 · 1830 阅读 · 0 评论 -
语料库数据处理个案实例(计算机搭配强度、删除表中的停用词、词料检索的KWIC实现)
语料库数据处理个案实例原创 2022-06-22 15:46:54 · 2313 阅读 · 0 评论 -
语料库数据处理个案实例(词性赋码、词性还原)
词性赋码、词性还原从结果可见,nltk.word_tokenize()函数词性赋码后,返回一个列表,该列表的每一个元素是一个元组,每个元组又有两个元素,分别是单词和它的词性码。如果直接打印或输出上述结果,可读性不好。为了提高结果的可读性,我们可以将之处理成如"单词_词性"的形式。因此,可以使用如下代码...原创 2022-06-22 11:24:19 · 2819 阅读 · 0 评论 -
语料库数据处理个案实例(分词和分句、词频统计、排序)
分词和分句,nltk原创 2022-06-21 21:29:15 · 2648 阅读 · 0 评论 -
Please use the NLTK Downloader to obtain the resource
NLTK语料库下载转载 2022-06-21 20:09:23 · 966 阅读 · 0 评论 -
利用python进行数据分析第四章(NumPy基础:数组与向量化计算)
NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。NumPy的部分功能如下:ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数(无需编写循环)。用于读写磁盘数据的工具以及用于操作内存映射文件的工具。线性代数、随机数生成以及傅里叶变换功能。用于集成由C、C++、Fortran等语言编写的代码的A C API。由于NumPy提.转载 2022-01-07 20:30:11 · 654 阅读 · 0 评论 -
第三章 内建数据结构、函数及文件
本章要讨论贯穿本书所要使用的Python语言内建功能。由于像pandas和NumPy这类附加库提供了在大数据集上的高级计算功能,所有它们被设计为与Python内建数据操作工具协同使用。我们将开始介绍Python的常用数据结构:元组、列表、字典混合集合。然后我们会讨论如何创建可复用的Python函数。我们将介绍Python文件对象的机制以及如何与你的本地文件硬盘交互。3.1 数据结构和序列Python的数据结构简单但强大。精通这些数据结构是成为优秀Python编程者的必要条件。元组元组是一.原创 2022-01-06 19:34:08 · 1022 阅读 · 0 评论 -
第二章 Pyton语言基础、Ipython及Jupyter notebook(?功能,%run命令,魔法函数)
?功能在一个变量名的前后使用问号(?)可以显示一些关于该对象的概要信息:b=[1,2,3]b?假设已经写好了如下函数(你可以在Ipython或jup中复现):def add_numbers(a,b): """ Add two numbers together Returns ------- the_sum : type of arguments """ return a + b然后使用?来显示文档字符串...原创 2021-12-28 11:07:36 · 1806 阅读 · 2 评论 -
第 12 章 高阶pandas
前面的章节关注于不同类型的数据规整流程和NumPy、pandas与其它库的特点。随着时间的发展,pandas发展出了更多适合高级用户的功能。本章就要深入学习pandas的高级功能。12.1 分类数据这一节介绍的是pandas的分类类型。我会向你展示通过使用它,提高性能和内存的使用率。我还会介绍一些在统计和机器学习中使用分类数据的工具。12.1.1 背景和目标表中的一列通常会有重复的包含不同值的小集合的情况。我们已经学过了unique和value_counts,它们可以从数组提取出不同的值,.转载 2021-08-16 15:47:25 · 452 阅读 · 0 评论 -
第 11 章 时间序列
时间序列(time series)数据是一种重要的结构化数据形式,应用于多个领域,包括金融学、经济学、生态学、神经科学、物理学等。在多个时间点观察或测量到的任何事物都可以形成一段时间序列。很多时间序列是固定频率的,也就是说,数据点是根据某种规律定期出现的(比如每15秒、每5分钟、每月出现一次)。时间序列也可以是不定期的,没有固定的时间单位或单位之间的偏移量。时间序列数据的意义取决于具体的应用场景,主要有以下几种:时间戳(timestamp),特定的时刻。固定时期(period),如2007年1月或20.转载 2021-08-15 16:57:40 · 903 阅读 · 0 评论
分享