- 博客(59)
- 收藏
- 关注
原创 6.Excel:通过 Power Query 处理从网上获取的数据
从腾讯新闻疫情追踪网站上,获取国内实时疫情数据。仅展示省、自治区、直辖市现有确诊数据即可。每30分钟自动更新数据。补充:网站已停。
2025-03-28 03:08:35
534
原创 5.Matplotlib:高级绘图
可分为树图和矩形树图,将一个大的主题或问题分解为许多嵌套的小问题或细节。树形图是数据树的图形表示形式,以父子层次结构来组织对象。树形图图形紧凑,同样大小的画布可以展现更多信息,以及成员间的权重。但是,也存在一些缺点,比如不够直观、明确,不像树图那么清晰,分类占比太小时不容易排布等缺点。树形图适合展现具有层级关系的数据,能够直观体现同级之间的数据比较。在商业领域,树形图可以用于展示公司的业务结构分析,包括公司组织架构、职位层次和业务分支等。
2025-03-27 02:09:30
1264
原创 4.Matplotlib:基础绘图
检查数据中的模式和趋势,帮助我们揭示数据集中隐藏的信息,以及连续变量之间的关系。它们描绘了数据分布的整体情况,使用箱子来表示数据的四分位距,即下四分位数和上四分位数之间的距离。水平条形图中每个条形的宽度表示相应的年份,垂直条形图中每个条形的高度表示相应的增长率。箱子的顶部和底部代表数据的上限值和下限值,箱子的中线表示数据的中位数,箱子的长度代表数据的四分位距离,而箱外的小圆点则表示异常值。在散点图中,每个点的位置取决于相应的X和Y变量的值。通常,x轴表示时间或其他连续量,而y轴表示所观察到的变量的值。
2025-03-26 23:41:19
1159
原创 3.Matplotlib:绘图参数文件和绘图的主要函数
可以通过在程序中添加代码对参数进行配置,但是如果一个项日对于 Matplotlib 的特性参数总会设置相同的值,就没有必要在每次编写代码的时候都进行相同的配置。分析某企业2022年的销售额在全国各个地区的增长情况,分别统计了每个地区在2021年和2022年的数据,并按照差额的大小进行了排序,折线图。如果不想每次在使用 Matplotlib 的时候都写上面的代码,那么可以使用前面修改 Matplotlibrc。在Matplotlib中,可以通过 Matplotlibrc 这个配置文件永久修改绘图参数。
2025-03-26 22:39:30
415
原创 5.Excel:从网上获取数据
Excel 只能爬取网页上表格类型的数据,不能爬取非结构化的数据。用上面方法将数据加载进工作表中。在表格内任意区域右键,刷新。每1分钟自动更新数据。
2025-03-26 14:34:50
409
原创 2.Matplotlib:主要参数配置
如果不在程序中设置参数,会使用默认的参数。可以设置线的颜色、线宽、样式,以及添加点,并设置点的样式、颜色、大小。补充:各种参数线的颜色:color线的标记:marker线的类型:linestyle。
2025-03-26 14:08:36
224
原创 21.Excel自动化:如何使用 xlwings 进行编程
xw.apps是一个类似字典的对象,其中每个键对应一个Excel实例的标识符,而值则是App对象本身。不必每次都打开一个新的工作簿,你也可以通过为 view 函数提供一个 xlwings sheet 对象作为第二个参数来重复利用同一个工作簿文件:xw.view(df, mysheet)。sheet1.range("A1").value = [[1, 2], [3, 4]] 这行代码是什么意思,A1这一个单元格里面的数据是[1, 2], [3, 4]吗?.app是指Excel应用程序实例的接口。
2025-03-25 04:35:40
1008
原创 1. Matplotlib 的介绍
Matplotlib 是 Python 中最基础且广泛使用的数据可视化库。核心功能:绘制折线图、散点图、柱状图、饼图、热力图等 2D 图表,支持 3D 绘图扩展。
2025-03-25 04:10:20
120
原创 20. Excel 自动化:Excel 对象模型
遥控器上的按钮和命名(如“开始”按钮)与烤箱控制面板上的按钮和命名(如“启动”按钮)之间的细微差异,就类似于 xlwings 在命名上与Excel对象模型之间的细微差异(如使用。在Excel中,你可以通过一些特殊的方法(比如在Windows上按住Alt键打开新的Excel实例),来同时运行两个Excel实例,每个实例都打开同一个工作簿,但它们是独立的,不能互相通信。Excel对象模型是Excel图形用户界面的层次结构表示,它允许开发者通过编程来操作Excel的各种组件,如工作簿、工作表、单元格等。
2025-03-18 15:43:08
478
原创 19.如何使用 pandas 处理大型 Excel 文件:并行读取工作表
通过直接使用这些底层的库(OpenPyXL和xlrd),你可以避免Pandas在处理大量数据时可能带来的性能开销,因为Pandas在读取Excel文件时,会先将整个文件加载到内存中,形成一个DataFrame对象,这个过程可能会比较耗时。通过并行化OpenPyXL的使用,你可以绕过Pandas库(Pandas通常用于数据处理,但会先将数据加载到DataFrame中,这可能会成为性能瓶颈),直接从Excel文件中读取和处理数据,从而可能提高速度。函数返回一个字典,其中键是工作表的名称,值是与该工作表对应的。
2025-03-15 15:45:57
928
原创 18.使用读写包操作Excel文件:xlrd、xlwt 和 xlutils 包
属性来获取工作表的总行数和总列数,而这些值反映的是工作表的实际维度,而不是 "使用区域"(used range)的维度。如果你只关心包含数据的区域,而忽略空行和空列,你可能需要手动计算"使用区域"。例如,遍历所有行和列,找到第一个和最后一个包含数据的行和列,以确定实际使用的区域。:修改第一个工作表(索引为0)的第一个单元格(行0,列0)的内容为"changed!是解包操作,它将这个元组解包为两个独立的参数(行号和列号),然后传递给。函数返回的是一个包含两个元素的元组,这两个元素分别代表行号和列号。
2025-03-15 00:22:04
809
原创 17.使用读写包操作Excel文件:pyxlsb 包
表示第二行第四列的值。如果这个单元格包含日期,那么它的值可能是一个浮点数,表示 Excel 内部的时间戳。如果你要读取二进制的 xlsb 格式的 Excel 文件,那么 pyxlsb 就成了唯一选择。提供的一个实用函数,用于将以数字形式存储的日期值转换为 Python 的。3.将以日期为格式的单元格中的值转换为 datetime 对象。返回一个列表的结构,保存读取到的值。文件中的所有工作表,并打印每个工作表的行数和列数。返回一个工作簿中所有工作表的名称列表。获取某个具体的工作表对象(通过名称)。
2025-03-14 20:26:58
396
原创 16.使用读写包操作Excel文件:XlsxWriter 包
设置单元格的数字格式为小数点后保留两位小数。这意味着无论数字的实际值是多少,它都将在 Excel 中显示为两位小数。为图表设置标题,标题内容为 "Sales per Region"。创建一个新的图表对象,并指定图表类型为柱状图(column)。6.数字格式化(使用Excel的格式化字符串)7.日期格式化(使用Excel的格式化字符串): 设置 X 轴的标签为 "Regions"。: 这行代码在 Excel 工作表的单元格。: 设置 Y 轴的标签为 "Sales"。: 指定数据系列的名称,引用工作表。
2025-03-14 20:02:04
694
原创 15.使用读写包操作Excel文件:OpenPyXL 包
你在软件中输入文字、调整格式、插入图片等,所有这些操作都是在软件的内存中完成的,而不是直接在你的硬盘上修改文件。当你完成报告并决定保存时,软件会将内存中构建好的报告数据写入到你的硬盘上,形成一个新的或更新后的文件。在内存中构建文件的好处是,你可以随时撤销、重做或尝试不同的操作,而不必担心会立即影响到硬盘上的文件。要获得单元格的值,需要使用 data_only=True 参数来打开工作簿,其默认值是 False,此时会返回单元格的公式而不是值。是单元格对象的一个属性,用于设置或获取单元格的边框样式。
2025-03-14 18:59:33
1191
原创 14.使用各种读写包操作 Excel 文件:辅助模块
与 read 函数的工作方式类似,write 函数接受 xlwt、 OpenPyXL 或 XlsxWriter 的 sheet 对象(read 和 write 函数都是自定义函数),以及以嵌套列表和可选的 first_cell 表示的值。想象你有一堆不同的工具箱,每个工具箱里都有工具可以帮你完成一些特定的任务,这些工具箱就像是你编程时用的不同包。现在,假设有人为你制作了一个“万能工具适配器”,这个适配器可以让你用同一种方式使用所有工具箱里的工具,而不需要去学习每种工具的具体使用方法。
2025-03-14 18:38:31
958
原创 13. Pandas :使用 to_excel 方法写入 Excel文件
一 to_excel 方法的相关参数一 to_excel 方法的相关参数用它来指定要将 DataFrame 写入哪些工作表的哪些单元格,以及是否需要包含列标题和 DataFrame 索引。如何处理特殊值(如np.nan和np.infsheet_name:指定将DataFrame写入的工作表名称。若不存在,pandas会创建一个新的工作表。和startcol:指定从哪个行和列开始写入数据。在工作表中指定一个特定的位置来放置数据。header:布尔值,指定是否写入列标题。默认是True。index。
2025-03-13 11:22:46
661
原创 11. Pandas :操作Excel文件(Excel报表的案例研究)
通过标准库 pathlib 模块中的 Path 类,你可以使用多种强大的工具:路径对象可以让你轻松地通过斜杠连接路径的分量来构造路径,就像在 this_dir / "sales_data" 及其下面 4 行代码中所展示的那样。每个月有两个文件,子文件夹 new 中的是新用户,子文件夹 existing 中的是老用户。脚本文件会从两个目录中读取 Excel 文件、汇总数据,最后将总结表写入一个新的 Excel 文件。从一个装有各种 Excel 文件的文件夹开始,这些文件需要被整合到 Excel 报表中。
2025-03-12 22:58:45
824
原创 10. Pandas :导入和导出 DataFrame 的方法
可以告诉 pandas CSV 文件所使用的分隔符(如果它使用的不是默认的逗号)。文件 的形式发给他是一个不错的选择,因为大部分程序知道如何导入 CSV。中你要么需要用两个反斜杠(C:\\path\\to\\file.csv。1." " 里面是保存的路径信息,相对路径和绝对路径。在字符串中,反斜杠会被用于转义某些字符。行,不过可以通过参数指定返回的行数。假设我们在处理一个有上千行数据的。的前几行或者最后几行。),要么需要在字符串前加上一个。方法来对 DataFrame。,通常要做的第一件事是执行。
2025-03-03 16:06:26
237
原创 8. Pandas : Matplotlib 的使用方法
首先需要运行以下任意一条魔法指令(参见“魔法指令”):%matplotlib inline。支持 2D 和部分 3D 绘图。涵盖折线图、散点图、热力图、3D 图等 20 余种图表。Jupyter 笔记本单元格表现为某种形式,或者让一些麻烦的任务变得简单起来的简单指令。要获得更详细的描述,可以执行 %magic。想看所有可用的指令列表,可以执行。作用于整个单元格的指令以。设置中文字体(如宋体)避免乱码。要么以 %% 开头,要么以。设置标题、坐标轴、图例等。开头,而只作用于一行的指。页面上的交互式体验。
2025-03-03 15:31:44
245
原创 7.Pandas :3 种 DataFrame 连接方法和数据透视表
基于列值(类似 SQL JOIN)合并两个 DataFrame,支持多种连接方式(四种连接)。通过行、列分组键对目标值进行聚合统计(如求和、均值、计数),将原始数据转化为结构化的汇总表。的一个既特别又有用的特性是,它可以接受两个以上的 DataFrame。基于行索引横向合并 DataFrame(默认左连接),适合索引对齐的场景。)中不重复的值转化为数据透视表中的列标题,然后再聚合另一列中的值。按行合并:合并多个结构相同的 CSV 文件(如不同月份的数据)。支持行、列、值的自由组合,快速生成交叉统计结果。
2025-03-03 15:02:23
939
原创 5.Pandas :DataFrame 的使用——数据操作
一导入 Pandas一导入 Pandas以下的导入excel表只是演示作用。为了能在Python中使用Excel表格,首先要导入pandas,然后使用read_excel函数通过这个 Excel文件构造一个DataFrame。如果你在Python 3.9或者更高版本中使用函数,那么一定要 确保 pandas版本在1.2以上,否则会在读取xlsx文件时发生错误。二。
2025-03-03 05:30:33
1468
原创 6.Pandas :DataFrame 的使用——索引,列,时序
df.reset_index().set_index("name") 这种形式的代码被称为链式方法调用。当你想将某列设置为新的索引,但同时希望保留原索引(即原索引不丢失,而是作为普通列存在于 DataFrame 中)时,需要先通过。df = df[~df.index.duplicated(keep='first')] # 保留第一个出现的索引。reindex 会接管所有能够匹配新索引的行,而无法匹配的索引会引入含有空值(NaN)的行。在数据合并、连接或追加过程中,可能暂时生成重复索引,后续再统一处理。
2025-03-03 03:33:39
979
原创 3.NumPy:操作数组的一部分
生成一个从 开始,到 结束的一维数组。 生成 np.onesnp.zerosnp.eye视图是原数组的一个“窗口”,它通过特定的操作生成,与原数组共享同一块内存数据。因为它们指向同一物理内存,所以修改视图中的数据会直接改变原数组对应的位置。想象你有一间大房间(原数组),墙上有一排窗户(切片视图)。每扇窗户展示的是房间的一部分(比如某一面墙的装饰)。如果你通过某扇窗户在墙上贴了一幅画(修改视图数据),房间的实际墙面(原数组)也会被改变。视图仅存储对原数据的引用和描述(如形状、数据类型),无数据复制。引用:
2025-03-02 19:26:46
376
原创 2.NumPy :操作整个数组
NumPy 数组 = 超市货架,专门用来整整齐齐摆放同一类商品(比如全是饮料、全是水果)。二 一维数组VS二维数组。
2025-03-01 16:03:20
351
原创 python数据分析|二 IPython和JupyterNotebooks
Python解释器同一时间只能运行一个程序的一条语句。如何适用:win + rcmd要退出Python解释器返回终端,可以输入 exit() 或 Ctrl-D。假设创建了一个 hello_world.py 文件,它的内容是:可以用下面的命令运行它( hello_world.py 文件必须位于终端的工作目录):从事数据分析和科学计算的人却会使用IPython,一个强化的Python解释器,或Jupyter notebooks,一个网页代码笔记本。
2024-11-10 23:16:26
941
1
原创 python数据分析|一 概述
数据分析中的数据指的是结构化的数据。比如:大部分数据集都能被转化为更加适合分析和建模的结构化形式,或者将数据集的特征提取为某种结构化形式。什么意思:大部分数据集都能被转化为更加适合分析和建模的结构化形式,或者将数据集的特征提取为某种结构化形式。大部分原始的数据集,无论其最初的格式如何,都可以通过一系列的处理步骤被转化为结构化的形式,或者从中提取出结构化的特征,以便于后续的分析和建模工作。
2024-10-14 16:16:29
915
原创 关于使用conda和pip二者安装包
当使用conda和pip二者安装包时,千万不要用pip升级conda的包,这样会导致环境发生问题。当使用Anaconda或Miniconda时,最好首先使用conda进行升级。方式1:conda install package_name。方式2:pip install package_name。
2024-10-12 16:00:08
329
原创 Tableau|二 如何利用功能区创建视图
Tableau求平均值是对行数的平均,以上海为例,其平均值为当期值总和除以省市为上海的行数,在原数据中每个省有6个月的当期值,每个月又分为9个用电类别,则出现上海的总行数为6×9=54,即平均值=总计/54。行列功能区可以不止拖放一个字段,例如我们可以将字段“同期值”拖放到“总计(当期值)”的右边,Tableau这时会根据度量字段“当期值”和“同期值”分别作出对应的轴。当想同时看各省当期值和同期值时,拖放“省市”到列功能区,再分别拖放“同期值”和“当期值”到行功能区,图中出现了当期值和同期值两条纵轴。
2024-09-24 21:58:34
1339
原创 Tableau|一入门
BI 工具即商业智能(Business Intelligence)工具,是一种用于收集、整理、分析和展示企业数据的软件系统,其主要目的是帮助企业用户更好地理解和利用数据,以支持决策制定。主要功能:1.数据整合:能够从多个数据源(如数据库、Excel 文件、文本文件、网络服务等)抽取数据,并将这些数据整合到一个统一的数据仓库或数据集市中。2.数据分析:提供各种分析方法和工具,帮助用户深入挖掘数据中的信息。包括数据查询、数据透视、统计分析、预测分析等功能。
2024-09-24 10:08:36
2426
原创 黑马程序员Python数据挖掘|1Jupyter Notebook的使用
用 Jupyter Notebook :方便进行数据的展示。用 pycharm :画完图后没有继续执行读取数据的代码,阻塞了。把图片关掉才会继续执行代码。
2024-09-01 16:12:26
811
原创 黑马程序员Python机器学习|1机器学习概述
从数据中学习,学习后得出的结论是模型(规律),通过这个规律去解决问题(做预测)。算法的改进,也要有数据的积累,有大量的数据,再用算法进行训练,数据量大要进行训练也很消耗计算机,对计算机的要求也比较高。确定在开发过程中定位到哪个方向。
2024-08-29 13:38:42
760
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人