
Python
文章平均质量分 69
Avasla
好好学习,天天向上。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
`AttributeError: ‘numpy.ndarray‘ object has no attribute ‘iloc‘`
是 Pandas DataFrame 对象的属性,不适用于。转换为 Pandas DataFrame。上索引,可以使用数组的索引方法,例如。如果不确定变量的类型,可以使用。错误表示你正在尝试对一个。原创 2024-11-01 15:15:26 · 656 阅读 · 0 评论 -
分组数据的交叉验证方法【Python代码汇总】
对分组数据的交叉验证 方法笔记及代码原创 2024-10-29 14:47:41 · 633 阅读 · 0 评论 -
掌握Python eval()函数:解析动态代码执行的神奇之处
>> x = 100 # 一个全局变量200>>> y = 200 # 另一个全局变量如果向 globals 参数提供了一个自定义字典,那么eval()将只会使用该字典中的名称作为全局变量。任何在这个自定义字典之外定义的全局名称在eval()内部将无法访问。这就是为什么在上面的代码中尝试访问 y 时,Python 抛出 NameError 的原因:传递给 globals 的字典不包括 y。你可以通过在字典中列出名称来将名称插入到 globals 中,这样这些名称在评估过程中将可用。原创 2024-08-13 11:30:23 · 1315 阅读 · 0 评论 -
Python推导式和生成器表达式
由于语法结构类似,有些地方会把生成器表达式称为“元组推导式”,或者把两者混为一谈。通常,所谓的“元组推导式”实际上是指生成器表达式。生成器对象是惰性求值的,只有在迭代时才会计算出每一个值,节省内存。总结来说,生成器表达式用于惰性求值和节省内存,而“元组推导式”并不存在,生成元组需结合生成器表达式与。如果按照Python推导式的定义,”元组推导式“应该返回一个元组,但实际输出结果是一个生成器对象。在上述示例中,生成器表达式返回一个生成器对象,而不是元组。注意:生成器表达式使用的是圆括号。原创 2024-08-07 17:34:23 · 354 阅读 · 0 评论 -
Parquet使用指南:一个超越CSV、提升数据处理效率的存储格式
在大数据时代,数据存储和处理的效率越来越重要。同时,我们在工作中处理的数据也越来越多,从excel格式到csv格式,从文件文档传输到直接从数据库提取,数据单位也从K到M再到G。当数据量达到了G以上,几G甚至几十G,在使用python时就能察觉到数据处理效率在变慢。在这种情况下有什么更好的解决方法吗?原创 2024-05-23 17:13:02 · 14829 阅读 · 0 评论 -
17个机器学习/数据科学必学的Python库
本文介绍了17个常用的Python工具库,涵盖了数据处理、统计分析、数据可视化和机器学习等领域的关键功能,支持使用者在数据科学和人工智能领域进行各种任务和项目的开发。原创 2024-04-26 19:33:13 · 1145 阅读 · 0 评论 -
【Python】set() 函数详解:集合运算、查找、去重 (附代码示例)
本文介绍了 Python 中函数 set() 的功能,包括创建集合、数据去重、快速查找和集合运算等操作。原创 2024-04-21 18:15:00 · 12702 阅读 · 1 评论 -
【数据分析面试】15. 找出符合条件的学生 (Python: loc 和 iloc的使用方法)
在python中loc和iloc的区别。原创 2024-04-10 12:00:00 · 489 阅读 · 0 评论 -
【数据分析面试】12. 随机抽取颜色球(Python random模块应用:choices()/choice()/sample())
是Python标准库中的一个函数,用于从一个给定的集合中随机选择元素。其中,population是需要从中选择元素的集合,可以是列表、元组、字符串等。weights是一个可选参数,用于指定每个元素的选择权重,如果不提供,则默认所有元素具有相同的权重。k是一个整数,表示需要选择的元素数量,默认为1。以下是一些使用# 创建列表jar# 随机选择5个元素,每个元素被选中的概率相等。# 随机选择5个元素,但只有数字3有被选中的权重,因此结果中只会包含数字3。#使用累积权重来确定每个元素被选中的概率。原创 2024-04-07 11:00:00 · 1222 阅读 · 0 评论 -
超越Pandas:数据处理利器Polars的快速入门指南
Polars是一个用于数据处理和分析的快速、内存高效的Rust语言编写的数据操作库。它提供了类似于Pandas的API,但具有更好的性能和内存使用效率。本文将介绍Polars库的基本使用说明,并通过具体的代码案例展示其功能和特性。原创 2024-04-01 14:00:00 · 2700 阅读 · 0 评论 -
【数据分析面试】4.寻找超过100元的订单 (Python:merge和concat用法)
concat()left和right: 要连接的DataFrame对象。how: 连接方式,可选值有’left’, ‘right’, ‘outer’, ‘inner’,默认为’inner’。on: 连接键,用于连接两个DataFrame的列名。如果两个DataFrame中的列名不同,可以使用left_on和right_on来指定左右DataFrame的连接键。left_on和right_on: 左右DataFrame连接的列,如果列名不同。left_index和。原创 2024-03-30 10:30:00 · 843 阅读 · 0 评论 -
Python中,type() 和 isinstance() 的区别
函数检查一个对象是否是特定类或类型的实例。它接受两个参数:要检查的对象和要检查的类或类型。如果对象是指定类或类型的实例,则返回。函数返回一个对象的类型。它接受一个参数,并返回该参数的类型。这会返回对象的类或类型,帮助您了解变量中存储的数据类型。当您想要检查对象是否属于特定类或其子类时,这非常有用。允许您检查对象是否是特定类或类型的实例,包括其子类。给出了对象的确切类型,而。原创 2024-03-23 13:00:00 · 374 阅读 · 0 评论 -
Python中装饰器函数的用法介绍
在Python中,装饰器(Decorator)是一种特殊的函数,它可以用来修改或增强其他函数或方法的行为。装饰器允许您在不修改原始函数代码的情况下,向函数添加新的功能或行为。它们通常用于添加日志记录、性能分析、验证或修改函数的返回值等方面。符号紧跟着装饰器函数名,放在要装饰的函数定义之前。当调用被装饰的函数时,装饰器函数将被自动调用,并用其返回值来替换原始函数。是一个装饰器函数,它接受一个函数作为参数并返回一个新的包装函数。函数在调用被装饰的函数之前打印日志,并且通过。函数,从而使其被装饰。原创 2024-03-23 12:15:00 · 269 阅读 · 0 评论 -
【数据科学】Python开源库数据集大全(附代码)
还在发愁找不到合适的数据集嘛? 本文介绍了数据科学中常用的数据集库及加载代码,包括scikit-learn、NLTK、TensorFlow Datasets、Keras Datasets、Statsmodels、Seaborn等。原创 2023-11-20 16:38:07 · 5996 阅读 · 0 评论 -
数据分析初学者的热门项目推荐(附数据集链接)
本文介绍了适合初学者的多个数据分析项目,涵盖经济、住房、媒体等领域,包括薪资数据、市场营销、租赁与住房、娱乐音乐、经济公共数据分析等。同时推荐了高级项目,如谷歌趋势和《纽约时报》电影评论情感分析,介绍如何使用API等高级技巧进行数据分析。原创 2023-11-20 10:00:00 · 5348 阅读 · 0 评论 -
plt.imshow()的用法和参数介绍
plt.imshow()的用法和参数介绍原创 2023-11-06 10:30:00 · 29240 阅读 · 2 评论 -
【机器学习】随机种子Random Seed介绍(在Python、Pytorch、TensorFlow中的设置代码汇总)
本文介绍随机种子激起用法,汇总了在不同场景下的代码设置原创 2023-10-19 17:06:20 · 9303 阅读 · 4 评论 -
Python 读取.tsv文件
Python 提取 TSV(Tab Separated Values)格式文件代码原创 2023-10-16 17:06:15 · 1984 阅读 · 0 评论 -
Python数据分组计算利器:Transform函数
本文介绍了Transform函数的语法和使用说明,该函数可以对数据进行高效的分组计算,并且按照原来的Dataframe格式输出。原创 2023-03-13 15:13:11 · 5630 阅读 · 0 评论 -
Python使用groupby()+ffill()根据指定列填充缺失值
介绍了Pandas.DataFrame.fill 的用法,以及结合Groupby() 填补Dataframe缺失值的方法原创 2023-01-13 23:42:57 · 2853 阅读 · 0 评论 -
Python验证中心极限定理
中心极限定理提出:无论总体服从什么分布,只要n充分大,那么样本均值分布就接近正态分布。样本的数量越大,取样次数越多,样本平均值的分布也就越接近于一条正态分布曲线。普遍的经验是,样本的数量必须超过30,中心极限定理才能成立。原创 2023-01-12 16:37:24 · 1549 阅读 · 0 评论 -
Python 根据两列/多列合并数据表
【代码】Python 根据两列/多列合并数据表。原创 2023-01-10 16:20:23 · 3581 阅读 · 0 评论 -
零售行业交易数据分析(3)——群组/同期群分析(留存率分析)
本文介绍了群组分析(同期群分析)的方法以及Python实现过程,并继续对一家零售公司的交易数据进行用户留存分析和可视化。原创 2023-01-07 22:25:33 · 1152 阅读 · 0 评论 -
零售行业交易数据分析(2)——RFM模型分类及可视化(Python实现)
分析一年的零售交易数据,从用户的角度,使用RFM模型对用户进行打分归类,并对结果进行可视化展示。原创 2022-12-30 19:33:31 · 2725 阅读 · 0 评论 -
Jupyter NoteBook 美化小技巧(目录导航器、添加gif动图、编辑图片、自定义单元格风格)
介绍了6种美化Jupter notebook 的小技巧,包括导航器、添加编辑图片、插入gif动图自定义单元格风格等等。原创 2022-12-28 00:04:19 · 2060 阅读 · 0 评论 -
零售行业交易数据分析(1)——客户终身价值(CLTV)计算和回归预测模型(Python)
本文整理了客户终身价值(CLV或者CLTV)的相关概念,并对一家英国线上零售公司的一年交易数据进行分析,计算该公司所有客户的CLV并且建立回归预测模型。原创 2022-12-22 02:02:39 · 7165 阅读 · 0 评论 -
nltk报错punkt 缺失 Error Loading Error11004
nltk 文件缺失报错手动下载解决方法原创 2022-12-02 13:04:47 · 941 阅读 · 0 评论 -
python将数据透视表pivot_table转为DataFrame 格式
python将数据透视表pivot_table转为DataFrame 格式原创 2022-08-23 17:56:27 · 3614 阅读 · 1 评论 -
jupyter notebook 隐藏&显示全部输出内容
jupyter notebook 隐藏和显示 输出内容原创 2022-08-04 19:53:39 · 6589 阅读 · 1 评论 -
Python Lambda 常用使用方法汇总(结合fliter\map\reduce等函数)
Python中Lambda 表达式的7种常用方法:筛选过滤(结合filter); 修改变量字符串内容(结合MAP函数); 判断(if),累计和迭代运算(reduce), 数据清洗(replace & split)原创 2022-08-01 11:28:12 · 2024 阅读 · 0 评论 -
使用python Fake 制造假数据/测试数据
使用fake构造一个虚拟数据集原创 2022-07-12 15:43:39 · 2002 阅读 · 0 评论 -
Python连接mysql、sqlserver、hive、presto方法汇总
汇总了Python连接几种常用数据库的方法:mysql,sqlserver, hive,presto原创 2022-06-19 02:48:37 · 1117 阅读 · 1 评论 -
Sklearn中Pipeline的用法介绍 (使用Pipelines简化Python机器学习代码)
介绍如何使用Pipeline封装数据处理和数据建模的工作流,简化Python代码,优化机器学习的流程。原创 2022-06-01 01:58:12 · 15351 阅读 · 0 评论 -
python 批量合并CSV文件 & 读取文件夹中多个文件路径(GLOB模块)
glob模块包的应用,包括批量输出多个文件路径,批量合并csv文件原创 2022-05-24 10:39:45 · 957 阅读 · 0 评论 -
Python 重复索引报错 cannot reindex from a duplicate axis 重建索引方法
原因分析:使用df.index.duplicated() 查看是否又重复的索引,若有返回”True“,则表明有重复索引解决方案:删掉原来的索引直接重建新的dataframe.reset_index(drop=True)使用 dataframe.reindex()重新定义所需要的索引值...原创 2022-05-19 14:13:28 · 3926 阅读 · 0 评论 -
Python输入时间范围输出指定格式年月日
start_date, end_date = '2021-1-1', '2021-12-31'dtrange = pd.date_range(start=start_date, end=end_date, freq='d')months = pd.Series(dtrange .month)starts, ends = months.ne(months.shift(1)), months.ne(months.shift(-1))lastmon=months.ne(months.shift(2))原创 2022-03-29 22:08:34 · 2969 阅读 · 0 评论 -
python数据清洗处理常用语句
Python处理数据的常用语句,包括notebook 的开头设置,数据读取、清洗合并等等。原创 2022-03-18 14:31:57 · 2065 阅读 · 0 评论 -
Python更换索引(Index)
方法一:直接设置索引data.index=data['索引列名']方法二:使用.set_indexdata.set_index('索引列名', drop= True, inplace=True) # Drop:是否删掉原数据列,inplace:是否修改原dataframedata.reset_index(drop=True)#drop:是否删掉原来的索引数据参考链接:Set_indexReset_index...原创 2021-11-09 14:38:18 · 10450 阅读 · 0 评论 -
Python时间序列处理:时间索引(datetimeindex)转化和使用方法
记录了在python如何将时间序列中的时间信息转换成时间索引,以及时间索引的使用技巧,比如提取指定时间点/时间段的数据信息。原创 2020-12-14 16:30:32 · 28339 阅读 · 2 评论 -
Python提取多个docx文本内容
使用docx2txt和正则表达式提取多个docx文本内容,并且将结果合并成DataFrame格式。原创 2020-09-29 11:44:08 · 2306 阅读 · 1 评论