杜子腾dd-优快云博客

原创 6.Excel：通过 Power Query 处理从网上获取的数据

从腾讯新闻疫情追踪网站上，获取国内实时疫情数据。仅展示省、自治区、直辖市现有确诊数据即可。每30分钟自动更新数据。补充：网站已停。

2025-03-28 03:08:35 534

原创 5.Matplotlib：高级绘图

可分为树图和矩形树图，将一个大的主题或问题分解为许多嵌套的小问题或细节。树形图是数据树的图形表示形式，以父子层次结构来组织对象。树形图图形紧凑，同样大小的画布可以展现更多信息，以及成员间的权重。但是，也存在一些缺点，比如不够直观、明确，不像树图那么清晰，分类占比太小时不容易排布等缺点。树形图适合展现具有层级关系的数据，能够直观体现同级之间的数据比较。在商业领域，树形图可以用于展示公司的业务结构分析，包括公司组织架构、职位层次和业务分支等。

2025-03-27 02:09:30 1264

原创 4.Matplotlib：基础绘图

检查数据中的模式和趋势，帮助我们揭示数据集中隐藏的信息，以及连续变量之间的关系。它们描绘了数据分布的整体情况，使用箱子来表示数据的四分位距，即下四分位数和上四分位数之间的距离。水平条形图中每个条形的宽度表示相应的年份，垂直条形图中每个条形的高度表示相应的增长率。箱子的顶部和底部代表数据的上限值和下限值，箱子的中线表示数据的中位数，箱子的长度代表数据的四分位距离，而箱外的小圆点则表示异常值。在散点图中，每个点的位置取决于相应的X和Y变量的值。通常，x轴表示时间或其他连续量，而y轴表示所观察到的变量的值。

2025-03-26 23:41:19 1159

原创 3.Matplotlib：绘图参数文件和绘图的主要函数

可以通过在程序中添加代码对参数进行配置，但是如果一个项日对于 Matplotlib 的特性参数总会设置相同的值，就没有必要在每次编写代码的时候都进行相同的配置。分析某企业2022年的销售额在全国各个地区的增长情况，分别统计了每个地区在2021年和2022年的数据，并按照差额的大小进行了排序，折线图。如果不想每次在使用 Matplotlib 的时候都写上面的代码，那么可以使用前面修改 Matplotlibrc。在Matplotlib中，可以通过 Matplotlibrc 这个配置文件永久修改绘图参数。

2025-03-26 22:39:30 415

原创 5.Excel：从网上获取数据

Excel 只能爬取网页上表格类型的数据，不能爬取非结构化的数据。用上面方法将数据加载进工作表中。在表格内任意区域右键，刷新。每1分钟自动更新数据。

2025-03-26 14:34:50 409

原创 2.Matplotlib：主要参数配置

如果不在程序中设置参数，会使用默认的参数。可以设置线的颜色、线宽、样式，以及添加点，并设置点的样式、颜色、大小。补充：各种参数线的颜色：color线的标记：marker线的类型：linestyle。

2025-03-26 14:08:36 224

原创 4.用 Excel 录入数据

用鼠标键盘录入数据和从网上爬取数据。

2025-03-26 00:55:37 596

原创 3.Excel：快速分析

补充：快捷键：CTRL+Q。

2025-03-25 23:57:40 167

原创 1.认识Excel

文件-选项-常规-（excel背景和主题）

2025-03-25 23:32:58 338

原创 2.Excel ：快速填充和拆分重组

电子邮件中包含每个人的人名，现在要提取电子邮件中的姓名到名字列。

2025-03-25 23:32:17 525

原创 21.Excel自动化：如何使用 xlwings 进行编程

xw.apps是一个类似字典的对象，其中每个键对应一个Excel实例的标识符，而值则是App对象本身。不必每次都打开一个新的工作簿，你也可以通过为 view 函数提供一个 xlwings sheet 对象作为第二个参数来重复利用同一个工作簿文件：xw.view(df, mysheet)。sheet1.range("A1").value = [[1, 2], [3, 4]] 这行代码是什么意思，A1这一个单元格里面的数据是[1, 2], [3, 4]吗？.app是指Excel应用程序实例的接口。

2025-03-25 04:35:40 1008

原创 1. Matplotlib 的介绍

Matplotlib 是 Python 中最基础且广泛使用的数据可视化库。核心功能：绘制折线图、散点图、柱状图、饼图、热力图等 2D 图表，支持 3D 绘图扩展。

2025-03-25 04:10:20 120

原创 20. Excel 自动化：Excel 对象模型

遥控器上的按钮和命名（如“开始”按钮）与烤箱控制面板上的按钮和命名（如“启动”按钮）之间的细微差异，就类似于 xlwings 在命名上与Excel对象模型之间的细微差异（如使用。在Excel中，你可以通过一些特殊的方法（比如在Windows上按住Alt键打开新的Excel实例），来同时运行两个Excel实例，每个实例都打开同一个工作簿，但它们是独立的，不能互相通信。Excel对象模型是Excel图形用户界面的层次结构表示，它允许开发者通过编程来操作Excel的各种组件，如工作簿、工作表、单元格等。

2025-03-18 15:43:08 478

原创 19.如何使用 pandas 处理大型 Excel 文件：并行读取工作表

通过直接使用这些底层的库（OpenPyXL和xlrd），你可以避免Pandas在处理大量数据时可能带来的性能开销，因为Pandas在读取Excel文件时，会先将整个文件加载到内存中，形成一个DataFrame对象，这个过程可能会比较耗时。通过并行化OpenPyXL的使用，你可以绕过Pandas库（Pandas通常用于数据处理，但会先将数据加载到DataFrame中，这可能会成为性能瓶颈），直接从Excel文件中读取和处理数据，从而可能提高速度。函数返回一个字典，其中键是工作表的名称，值是与该工作表对应的。

2025-03-15 15:45:57 928

原创 18.使用读写包操作Excel文件：xlrd、xlwt 和 xlutils 包

属性来获取工作表的总行数和总列数，而这些值反映的是工作表的实际维度，而不是 "使用区域"（used range）的维度。如果你只关心包含数据的区域，而忽略空行和空列，你可能需要手动计算"使用区域"。例如，遍历所有行和列，找到第一个和最后一个包含数据的行和列，以确定实际使用的区域。：修改第一个工作表（索引为0）的第一个单元格（行0，列0）的内容为"changed!是解包操作，它将这个元组解包为两个独立的参数（行号和列号），然后传递给。函数返回的是一个包含两个元素的元组，这两个元素分别代表行号和列号。

2025-03-15 00:22:04 809

原创 17.使用读写包操作Excel文件：pyxlsb 包

表示第二行第四列的值。如果这个单元格包含日期，那么它的值可能是一个浮点数，表示 Excel 内部的时间戳。如果你要读取二进制的 xlsb 格式的 Excel 文件，那么 pyxlsb 就成了唯一选择。提供的一个实用函数，用于将以数字形式存储的日期值转换为 Python 的。3.将以日期为格式的单元格中的值转换为 datetime 对象。返回一个列表的结构，保存读取到的值。文件中的所有工作表，并打印每个工作表的行数和列数。返回一个工作簿中所有工作表的名称列表。获取某个具体的工作表对象（通过名称）。

2025-03-14 20:26:58 396

原创 16.使用读写包操作Excel文件：XlsxWriter 包

设置单元格的数字格式为小数点后保留两位小数。这意味着无论数字的实际值是多少，它都将在 Excel 中显示为两位小数。为图表设置标题，标题内容为 "Sales per Region"。创建一个新的图表对象，并指定图表类型为柱状图（column）。6.数字格式化（使用Excel的格式化字符串）7.日期格式化（使用Excel的格式化字符串）: 设置 X 轴的标签为 "Regions"。: 这行代码在 Excel 工作表的单元格。: 设置 Y 轴的标签为 "Sales"。: 指定数据系列的名称，引用工作表。

2025-03-14 20:02:04 694

原创 15.使用读写包操作Excel文件：OpenPyXL 包

你在软件中输入文字、调整格式、插入图片等，所有这些操作都是在软件的内存中完成的，而不是直接在你的硬盘上修改文件。当你完成报告并决定保存时，软件会将内存中构建好的报告数据写入到你的硬盘上，形成一个新的或更新后的文件。在内存中构建文件的好处是，你可以随时撤销、重做或尝试不同的操作，而不必担心会立即影响到硬盘上的文件。要获得单元格的值，需要使用 data_only=True 参数来打开工作簿，其默认值是 False，此时会返回单元格的公式而不是值。是单元格对象的一个属性，用于设置或获取单元格的边框样式。

2025-03-14 18:59:33 1191

原创 14.使用各种读写包操作 Excel 文件：辅助模块

与 read 函数的工作方式类似，write 函数接受 xlwt、 OpenPyXL 或 XlsxWriter 的 sheet 对象（read 和 write 函数都是自定义函数），以及以嵌套列表和可选的 first_cell 表示的值。想象你有一堆不同的工具箱，每个工具箱里都有工具可以帮你完成一些特定的任务，这些工具箱就像是你编程时用的不同包。现在，假设有人为你制作了一个“万能工具适配器”，这个适配器可以让你用同一种方式使用所有工具箱里的工具，而不需要去学习每种工具的具体使用方法。

2025-03-14 18:38:31 958

原创 13. Pandas ：使用 to_excel 方法写入 Excel文件

一 to_excel 方法的相关参数一 to_excel 方法的相关参数用它来指定要将 DataFrame 写入哪些工作表的哪些单元格，以及是否需要包含列标题和 DataFrame 索引。如何处理特殊值（如np.nan和np.infsheet_name：指定将DataFrame写入的工作表名称。若不存在，pandas会创建一个新的工作表。和startcol：指定从哪个行和列开始写入数据。在工作表中指定一个特定的位置来放置数据。header：布尔值，指定是否写入列标题。默认是True。index。

2025-03-13 11:22:46 661

原创 12. Pandas ：使用pandas读Excel文件的常用方法

ExcelFile 类。

2025-03-13 10:12:35 1106

原创 11. Pandas ：操作Excel文件（Excel报表的案例研究）

通过标准库 pathlib 模块中的 Path 类，你可以使用多种强大的工具：路径对象可以让你轻松地通过斜杠连接路径的分量来构造路径，就像在 this_dir / "sales_data" 及其下面 4 行代码中所展示的那样。每个月有两个文件，子文件夹 new 中的是新用户，子文件夹 existing 中的是老用户。脚本文件会从两个目录中读取 Excel 文件、汇总数据，最后将总结表写入一个新的 Excel 文件。从一个装有各种 Excel 文件的文件夹开始，这些文件需要被整合到 Excel 报表中。

2025-03-12 22:58:45 824

原创 10. Pandas ：导入和导出 DataFrame 的方法

可以告诉 pandas CSV 文件所使用的分隔符（如果它使用的不是默认的逗号）。文件的形式发给他是一个不错的选择，因为大部分程序知道如何导入 CSV。中你要么需要用两个反斜杠（C:\\path\\to\\file.csv。1." " 里面是保存的路径信息，相对路径和绝对路径。在字符串中，反斜杠会被用于转义某些字符。行，不过可以通过参数指定返回的行数。假设我们在处理一个有上千行数据的。的前几行或者最后几行。），要么需要在字符串前加上一个。方法来对 DataFrame。，通常要做的第一件事是执行。

2025-03-03 16:06:26 237

原创 8. Pandas ： Matplotlib 的使用方法

首先需要运行以下任意一条魔法指令（参见“魔法指令”）：%matplotlib inline。支持 2D 和部分 3D 绘图。涵盖折线图、散点图、热力图、3D 图等 20 余种图表。Jupyter 笔记本单元格表现为某种形式，或者让一些麻烦的任务变得简单起来的简单指令。要获得更详细的描述，可以执行 %magic。想看所有可用的指令列表，可以执行。作用于整个单元格的指令以。设置中文字体（如宋体）避免乱码。要么以 %% 开头，要么以。设置标题、坐标轴、图例等。开头，而只作用于一行的指。页面上的交互式体验。

2025-03-03 15:31:44 245

原创 7.Pandas ：3 种 DataFrame 连接方法和数据透视表

基于列值（类似 SQL JOIN）合并两个 DataFrame，支持多种连接方式（四种连接）。通过行、列分组键对目标值进行聚合统计（如求和、均值、计数），将原始数据转化为结构化的汇总表。的一个既特别又有用的特性是，它可以接受两个以上的 DataFrame。基于行索引横向合并 DataFrame（默认左连接），适合索引对齐的场景。）中不重复的值转化为数据透视表中的列标题，然后再聚合另一列中的值。按行合并：合并多个结构相同的 CSV 文件（如不同月份的数据）。支持行、列、值的自由组合，快速生成交叉统计结果。

2025-03-03 15:02:23 939

原创 5.Pandas ：DataFrame 的使用——数据操作

一导入 Pandas一导入 Pandas以下的导入excel表只是演示作用。为了能在Python中使用Excel表格，首先要导入pandas，然后使用read_excel函数通过这个 Excel文件构造一个DataFrame。如果你在Python 3.9或者更高版本中使用函数，那么一定要确保 pandas版本在1.2以上，否则会在读取xlsx文件时发生错误。二。

2025-03-03 05:30:33 1468

原创 4. Pandas ：DataFrame 介绍和 Pandas 的局限性

Pandas 的介绍在 Numpy 的介绍中。

2025-03-03 03:40:53 404

原创 6.Pandas ：DataFrame 的使用——索引，列，时序

df.reset_index().set_index("name") 这种形式的代码被称为链式方法调用。当你想将某列设置为新的索引，但同时希望保留原索引（即原索引不丢失，而是作为普通列存在于 DataFrame 中）时，需要先通过。df = df[~df.index.duplicated(keep='first')] # 保留第一个出现的索引。reindex 会接管所有能够匹配新索引的行，而无法匹配的索引会引入含有空值（NaN）的行。在数据合并、连接或追加过程中，可能暂时生成重复索引，后续再统一处理。

2025-03-03 03:33:39 979

原创 3.NumPy：操作数组的一部分

生成一个从开始，到结束的一维数组。生成 np.onesnp.zerosnp.eye视图是原数组的一个“窗口”，它通过特定的操作生成，与原数组共享同一块内存数据。因为它们指向同一物理内存，所以修改视图中的数据会直接改变原数组对应的位置。想象你有一间大房间（原数组），墙上有一排窗户（切片视图）。每扇窗户展示的是房间的一部分（比如某一面墙的装饰）。如果你通过某扇窗户在墙上贴了一幅画（修改视图数据），房间的实际墙面（原数组）也会被改变。视图仅存储对原数据的引用和描述（如形状、数据类型），无数据复制。引用：

2025-03-02 19:26:46 376

原创 2.NumPy ：操作整个数组

NumPy 数组 = 超市货架，专门用来整整齐齐摆放同一类商品（比如全是饮料、全是水果）。二一维数组VS二维数组。

2025-03-01 16:03:20 351

原创 1.NumPy的介绍

第四章：NumPy 基础。

2025-03-01 14:59:08 289

原创 PyQt的介绍

举例解释。

2024-12-29 10:08:05 812 3

原创 python数据分析|二 IPython和JupyterNotebooks

Python解释器同一时间只能运行一个程序的一条语句。如何适用：win + rcmd要退出Python解释器返回终端，可以输入 exit() 或 Ctrl-D。假设创建了一个 hello_world.py 文件，它的内容是：可以用下面的命令运行它（ hello_world.py 文件必须位于终端的工作目录）：从事数据分析和科学计算的人却会使用IPython，一个强化的Python解释器，或Jupyter notebooks，一个网页代码笔记本。

2024-11-10 23:16:26 941 1

原创 python数据分析|一概述

数据分析中的数据指的是结构化的数据。比如：大部分数据集都能被转化为更加适合分析和建模的结构化形式，或者将数据集的特征提取为某种结构化形式。什么意思：大部分数据集都能被转化为更加适合分析和建模的结构化形式，或者将数据集的特征提取为某种结构化形式。大部分原始的数据集，无论其最初的格式如何，都可以通过一系列的处理步骤被转化为结构化的形式，或者从中提取出结构化的特征，以便于后续的分析和建模工作。

2024-10-14 16:16:29 915

原创关于使用conda和pip二者安装包

当使用conda和pip二者安装包时，千万不要用pip升级conda的包，这样会导致环境发生问题。当使用Anaconda或Miniconda时，最好首先使用conda进行升级。方式1：conda install package_name。方式2：pip install package_name。

2024-10-12 16:00:08 329

原创 Tableau|三数据连接与管理

数据连接层（Connection）、数据模型层（DataModel）和数据可视化层（VizQL）。

2024-10-09 14:44:17 854 1

原创 Tableau|二如何利用功能区创建视图

Tableau求平均值是对行数的平均，以上海为例，其平均值为当期值总和除以省市为上海的行数，在原数据中每个省有6个月的当期值，每个月又分为9个用电类别，则出现上海的总行数为6×9=54，即平均值=总计/54。行列功能区可以不止拖放一个字段，例如我们可以将字段“同期值”拖放到“总计（当期值）”的右边，Tableau这时会根据度量字段“当期值”和“同期值”分别作出对应的轴。当想同时看各省当期值和同期值时，拖放“省市”到列功能区，再分别拖放“同期值”和“当期值”到行功能区，图中出现了当期值和同期值两条纵轴。

2024-09-24 21:58:34 1339

空空如也

空空如也