
python - 数据分析
文章平均质量分 96
python - 数据分析
周纠纠
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
5. 数据预处理
数据预处理文章目录 数据预处理1. 处理缺失数据滤除缺失数据填充缺失数据2. 数据转换移除重复数据利用函数或映射进行数据转换替换值:replace重命名轴索引离散化和面元划分检测和过滤异常值排列和随机采样计算指标/哑变量3. 字符串操作字符串对象方法正则表达式pandas的矢量化字符串函数案例:食谱数据库在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。pandas和内置的Python标准库提供了一组高级的、灵活的、快速的工具,可以让你轻松地将数据规整为想要的格式。1.原创 2021-08-23 20:58:34 · 335 阅读 · 0 评论 -
1. python爬虫
1 Python爬虫文章目录1 Python爬虫1、数据获取1.1 urllib库2、一些简单的HTML标记2.1 一些常用的HTML标记:2.2 一些HTML标记案例:3、网页html数据解析3.1 BeautifulSoup第三方库(1)beautifulsoup4 简介(2)beautifulsoup4 安装(3)BeautifulSoup 语法(4)使用方法(学习重点)1) 第一步:创建...原创 2020-03-08 17:20:00 · 975 阅读 · 0 评论 -
2 NumPy基础
2 NumPy基础文章目录2 NumPy基础NumPy的部分功能如下:1. NumPy的ndarray:一种多维数组对象(1)创建ndarray嵌套序列(如由一组等长列表组成的列表)将会被转换为一个多维数组:一些数组创建函数(2) ndarray的数据类型(dtype、astype)(3) NumPy数组的运算(元素级)(4)基本的索引和切片NumPy(Numerical Python的简称)...原创 2020-03-08 22:58:58 · 819 阅读 · 0 评论 -
3. pandas基础
pandas基础pandas是基于NumPy数组构建的,特别是基于数组的函数和不使用for循环的数据处理。虽然pandas采用了大量的NumPy编码风格,但二者最大的不同是pandas是专门为处理表格和混杂数据设计的。而NumPy更适合处理统一的数值数组数据。...原创 2020-03-31 10:48:54 · 533 阅读 · 0 评论 -
4. 数据加载、存储与文件格式
4 数据加载、存储与文件格式文章目录4 数据加载、存储与文件格式1. 读写文本格式的数据1.1 逐块读取文本文件1.2 将数据写出到文本格式1.3 处理分隔符格式1.4 JSON数据2. 二进制数据格式2.1 读取Microsoft Excel文件3. Web APIs交互4. 数据库交互输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用...原创 2020-04-06 11:12:22 · 417 阅读 · 0 评论 -
6. 时间序列
处理时间序列文章目录 处理时间序列1. Python的日期与时间工具1.1 原生Python的日期与时间工具:datetime与dateutil1.2 Pandas的日期与时间工具:理想与现实的最佳解决方案2. Pandas时间序列:用时间作索引3. Pandas时间序列数据结构¶4. 时间频率与偏移量¶5. 重新取样、迁移和窗口5.1 重新取样与频率转换5.2 时间迁移5.3 移动...原创 2020-04-07 15:51:49 · 880 阅读 · 0 评论 -
7. 数据的规整:分组、聚合、合并、重塑
第7部分 数据规整:聚合、合并、重塑和分组文章目录第7部分 数据规整:聚合、合并、重塑和分组数据规整:聚合、合并、重塑和分组1. 层次化索引重排与分级排序根据级别汇总统计使用DataFrame的列进行索引2. 合并数据集数据库风格的DataFrame合并数据规整:聚合、合并、重塑和分组在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。1. 层次化索引层次化索引(hierarchical indexing)是pandas的一项重要功能,它原创 2021-03-21 16:03:10 · 737 阅读 · 0 评论 -
8. 绘图和可视化
绘图和可视化文章目录 绘图和可视化1.matplotlib API入门1.1 Figure和Subplot1.2 调整subplot周围的间距1.3 颜色、标记和线型1.4 刻度、标签和图例1.4.1 设置标题、轴标签、刻度以及刻度标签1.4.2 添加图例1.6 将图表保存到文件1.7matplotlib配置信息可视化(也叫绘图)是数据分析中最重要的工作之一。它可能是探索过程的一部分...原创 2020-04-05 17:36:50 · 481 阅读 · 0 评论 -
9. scikit-learn机器学习
第15部分 scikit-learn机器学习文章目录第15部分 scikit-learn机器学习1.简介2. 回归1.简介自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了。scikit-learn简称sklearn,支持包括分类、回归、降维和聚类四大机器学习算法。还包含了特征提取、数据处理和模型评估三大模块。sklearn是Scipy的扩展,建立在Nu...原创 2020-04-01 21:26:04 · 684 阅读 · 0 评论