- 博客(59)
- 收藏
- 关注

原创 用python的pandas读取excel文件中的数据
方法,可通过文件路径直接读取。df.loc[i1i2,"序号""姓名"].values,返回行号[i1,i2]、列号["序号","姓名"]闭区间的数据,返回类型为ndarray(二维);df.iloc[i1i2,j1j2].values,返回行号[i1,i2)、列号[j1,j2)左闭右开区间内的数据,返回类型为ndarray(二维)。df.iloc[i1i2,j1j2].values,返回行号[i1,i2)、列号[j1,j2)左闭右开区间内的数据,返回类型为ndarray(二维)。...
2022-07-19 21:13:48
25212
2
原创 Pandas DateTime 超强总结
虽然我们可以使用 resample() 方法进行上采样和下采样,但我们将重点介绍如何使用它来执行下采样,这会降低时间序列数据的频率——例如,将每小时的时间序列数据转换为每日或 每日时间序列数据到每月。让我们看一下 DataFrame 的内容。week 的数据类型是 DatetimeIndex 对象,一周中的每个日期都是 Timestamp 的一个实例。此外,我们可以让 pandas 的 read_csv() 方法将某些列解析为 DataTime 对象,这比使用 to_datetime() 方法更直接。
2022-09-21 20:39:21
511
原创 进阶 | 数据科学家提高效率的 40 个 Python 技巧
Python简单易学,现今非常流行。Python被用于各种场景,如数据科学、机器学习、web开发、脚本编制、自动化等等。Python的简单易学性在数据科学非常重要。尽管一些数据科学家有计算机科学背景或了解其他编程语言,但仍有许多数据科学家来自各类专业,如统计学、数学或其他技术学科,当他们刚进入这个行业时,可能并没有那么多编程知识。Python语法易于理解和编写的优势,使它成为一种流行于快速且易于学习的编程语言。本文将和大家一起学习 40 个可以帮助你加快数据处理效率的的方法和技巧,希望对你有所帮助。
2022-09-20 15:49:45
211
原创 强大易用!新一代爬虫利器 Playwright
本文介绍了 Playwright 的基本用法。它是一款自动化测试工具,其 API 强大又易于使用,同时具备很多 Selenium、Pyppeteer 不具备的更好用的 API,所以可以用来抓取复杂的 JavaScript 渲染页面,可谓是新一代的爬取利器。本文相关代码下载:https://github.com/Python3WebSpider/PlaywrightTest。
2022-09-19 20:20:42
1316
2
原创 全的 100 个 Pandas 函数汇总,建议收藏
我整理了100个Pandas常用的函数,分别分为6类:统计汇总函数、数据清洗函数、数据筛选、绘图与元素级运算函数、时间序列函数和其他函数。
2022-09-18 16:28:17
207
原创 Pandas Query 方法深度总结
从上面的示例可以看出,query()方法使搜索行的语法更加自然简洁,希望感兴趣的小伙伴多加练习,真正的达到融会贯通的地步哦~
2022-09-18 15:30:35
253
原创 一份详实的 Scrapy 爬虫教程,从原理到实战
Scrapy是:由Python语言开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据,只需要实现少量的代码,就能够快速的抓取。
2022-09-18 15:06:40
1615
2
原创 安利一个超好用的Pandas数据挖掘分析神器,Bamboolib
今天博主继续来给大家介绍一款用于做EDA(探索性数据分析)的利器,并且可以,帮助大家极大节省工作时间与提升工作效率的利器,叫做Bamboolib。大家可以将其理解为是Pandas的GUI扩展工具,所具备的功能有查看DataFrame数据集与Series数据集过滤数据数据的统计分析绘制交互式图表文本数据的操作数据清洗与类型转换合并数据集。
2022-09-18 14:45:25
214
原创 Pandas 内置的 10 种画图方法
Pandas是非常常见的数据分析工具,我们一般都会处理好处理数据然后使用searbon或matplotlib来进行绘制。但在Pandas内部就已经集成了matplotlib,本文将展示Pandas内部的画图方法。
2022-09-18 14:06:10
698
原创 Python和Excel的完美结合:常用操作汇总(案例详析)
在以前,商业分析对应的英文单词是Business Analysis,大家用的分析工具是Excel,后来数据量大了,Excel应付不过来了(Excel最大支持行数为1048576行),人们开始转向python和R这样的分析工具了,这时候商业分析对应的单词是Business Analytics。其实python和Excel的使用准则一样,都是,都是尽可能用更方便的操作替代机械操作和纯体力劳动。
2022-09-13 21:38:34
161
原创 Python处理办公自动化的10大场景
在编程世界里,Python已经是名副其实的网红了。曾经一个学汉语言的研究生,问我怎么学Python,因为他们课程论文里需要用到文本分析,用Python来跑数据。我和他说,你看两天语法,就可以上手开干,不会的再查资料。后来这位同学半个月就用Python把论文数据搞好了。所以Python最大优势在于容易学,门槛比Java、C++低非常多,给非程序员群体提供了用代码干活的可能性。当然Python能成为大众编程工具,不光光是因为易学,还因为Python有成千上万的工具包,遍布各行各业。
2022-09-09 21:20:16
156
原创 年薪50W+的Python程序员如何写代码
Pylint是Python代码分析工具,它分析Python代码中的错误,查找不符合代码风格标准(默认使用的代码风格是 PEP 8)和有潜在问题的代码。阅读下面的代码,看看你能看出哪些地方是有毛病的或者说不符合Python的编程规范的。代理模式在Python中可以通过内置的或自定义的装饰器来实现。函数加上缓存代理,缓存函数执行的中间结果,优化代码的性能。装饰器,这个函数每行代码的执行次数和时间都会被剖析。:需要实现单例模式的类只需要添加上面的装饰器即可。装饰器,这个函数每行代码的内存使用情况都会被剖析。
2022-09-09 16:20:01
984
原创 一个 Python 的轻量级搜索工具 -- Whoosh
Whoosh 由 Matt Chaput 创建,它一开始是一个为 Houdini 3D 动画软件包的在线文档提供简单、快速的搜索服务工具,之后便慢慢成为一个成熟的搜索解决工具并已开源。Whoosh 纯由 Python 编写而成,是一个灵活的,方便的,轻量级的搜索引擎工具,现在同时支持 Python2、3,其优点如下:Whoosh 纯由 Python 编写而成,但很快,只需要 Python 环境即可,不需要编译器;默认使用 Okapi BM25F 排序算法,也支持其他排序算法;
2022-09-08 21:02:59
189
原创 10行Python代码能做出哪些有趣的事情?
在这个例子中,我们正在处理多层嵌套的代码,这很难阅读。一开始,我给自己一个挑战,目的是让我练习更多的 Python 语言功能,而不是使用其他编程语言的编程经验。同样,如果您只想迭代数组中的元素,也可以使用一样的代码 Generator Expression。另外,如果要迭代组合序列,则需要使用product(), permutations(), combinations()。幸运的是,Python 已经有很多工具可以帮助你完成这些工作,你只需要转移你的思路,并以不同的角度来思考它。别急,再看看下面的代码。
2022-09-08 20:31:39
90
原创 用Python处理Excel的14个常用操作
最后想说说,我觉得最好不要拿excel和python做对比,去研究哪个好用,其实都是工具,excel作为最为广泛的数据处理工具,垄断这么多年必定在数据处理方便也是相当优秀的,有些操作确实python会比较简单,但也有不少excel操作起来比python简单的。利润一列存在于df2的表格中,所以想知道df1的每一个订单对应的利润是多少。实际上缺失值处理的办法是很复杂的,这里只介绍简单的处理方法,若是数值变量,最常用平均数或中位数或众数处理,比较复杂的可以用随机森林模型根据其他维度去预测结果填充。
2022-09-08 20:09:58
154
原创 Python教程:读取文件有三种方法:(read、readline、readlines)详细用法
python3中,读取文件有三种方法read()、readline()、readlines()。此三种方法,均支持接收一个变量,用于限制每次读取的数据量,但是,通常不会使用。readlines()读取所有行,然后把它们作为一个字符串列表返回。缺点如果文件非常大,尤其是大于内存时,无法使用read()方法。readline()读取整行,包括行结束符,并作为字符串返回。特点一次性读取整个文件;本文的目的分析、总结上述三种读取方式的使用方法及特点。特点读取整个文件,将文件内容放到一个字符串变量中。...
2022-07-24 20:25:56
9901
原创 Python设计模式-创建型:单例模式和工厂模式家族
接着,我们创建了一个抽象的工厂Factory,该工厂有一抽象方法Factory.create_course用于创建课程,最后我们基于抽象工厂实现了生产基础课程的工厂BasicCourseFactory和生产项目课的工厂ProjectCourseFactory。这样当我们新增加一种课程时,就不需要修改已经存在的基础课工厂和项目课工厂了。仔细想想,如果对工厂进行抽象化,让每个工厂只负责一种产品的生产,那这样当增加一种产品时,就不需要修改已有的工厂了,只需要新增加一个工厂就行了,这样就避免修改整个工厂了。...
2022-07-24 19:41:56
377
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人