- 博客(465)
- 资源 (8)
- 收藏
- 关注
原创 Python 数据分析 - 初识 Pandas
Pandas 基于NumPy开发,它提供了快速、灵活、明确的数据结构,旨在简单、直观地处理数据。有序和无序的时间序列数据带行列标签的矩阵数据,包括同构或异构型数据与SQL或Excel表类似的,含异构列的表格数据任意其它形式的观测、统计数据集,数据转入 Pandas 数据结构时不必事先标记Pandas 主要数据结构是Series(一维数据)与DataFrame(二维数据),这两种数据结构足以处理金融、统计等领域里的大多数典型用例。
2025-01-28 12:22:02
1312
原创 Python 数据分析 - Matplotlib 绘图
Matplotlib是Python提供的一个绘图库,通过该库我们可以很容易的绘制出折线图、直方图、散点图、饼图等丰富的统计图,安装使用命令即可,Matplotlib经常会与NumPy一起使用。在进行数据分析时,可视化工作是一个十分重要的环节,数据可视化可以让我们更加直观、清晰的了解数据,Matplotlib就是一种可视化实现方式。
2025-01-28 12:21:47
1197
2
原创 Python 数据分析 - NumPy 基础知识
是一个开源的 Python 科学计算扩展库,主要用来处理任意维度数组与矩阵,通常对于相同的计算任务,使用NumPy要比直接使用 Python 基本数据结构要简单、高效的多。安装使用命令即可。
2025-01-27 21:28:23
1010
原创 Python 爬虫 - PyQuery 框架
PyQuery 是仿照 jQuery 实现的,语法与 jQuery 几乎完全相同,如果你熟悉 jQuery,那么 PyQuery是一个很好的选择。
2025-01-27 21:25:15
487
原创 Python 爬虫 - BeautifulSoup 库
是一个可以从HTML或XML文件中提取数据的Python库,它能够将HTML或XML转化为可定位的树形结构,并提供了导航、查找、修改功能,它会自动将输入文档转换为Unicode编码,输出文档转换为UTF-8编码。支持Python标准库中的HTML解析器和一些第三方的解析器,默认使用Python标准库中的HTML解析器,默认解析器效率相对比较低,如果需要解析的数据量比较大或比较频繁,推荐使用更强、更快的lxml解析器。
2025-01-25 08:30:00
711
原创 Python 爬虫 - Selenium 框架
Selenium是一个强大的自动化测试工具,同时也被广泛应用于网络爬虫领域。它主要用于模拟用户在浏览器中的操作,如点击、输入、滚动页面等,能够处理各种复杂的动态网页,是爬取使用JavaScript动态渲染内容的网页的有效工具。Selenium支持多种浏览器,包括Chrome、Firefox、Edge等,并且可以通过不同的驱动程序(如ChromeDriver、GeckoDriver等)与相应的浏览器进行交互。
2025-01-25 08:30:00
1476
原创 Python 爬虫 - 爬虫伪装
一种是做身份验证,直接把虫子挡在了门口,一种是在网站设置各种反爬机制,让虫子知难而返。有些时候我们进行爬取时得到的信息不完整、得到不相关的信息、得不到信息,这种情况我们就需要研究网站的防爬机制,对其进行详细分析了。常见的几种我列一下:网址上会有一些没有规则的一长串信息,这种情况通常采用selenium(模拟浏览器,效率会低一些)解决;比如根据时间及一些其他自定义规则生成,这种情况我们就需要找到其规则进行破解了;需要与页面进行交互才能通过验证,可以采用selenium解决;
2025-01-24 08:30:00
770
原创 Python 爬虫 - Requests 库
对于RequestsRequests唯一的一个非转基因的PythonHTTP库,人类可以安全享用。警告:非专业使用其他HTTP库会导致危险的副作用,包括:安全缺陷症、冗余代码症、重新发明轮子症、啃文档症、抑郁、头疼、甚至死亡。这个介绍还是比较生动形象的,便不再多说。安装使用终端命令pipinstallrequests。当我们要给请求添加headers时,只需给headershds={注自定义headers优先级是低于一些特定的信息的,如:在.netrc。
2025-01-24 08:30:00
1297
原创 Python 进阶 - JSON 基本操作
是一种轻量级的数据交换格式,它具有简洁、清晰的层次结构,易于阅读和编写,还可以有效的提升网络传输效率。Python标准库的json模块可以用来处理JSON格式数据的基本操作。
2025-01-23 08:30:00
258
原创 Python 进阶 - 网络编程
网络编程主要的工作就是在发送端将信息通过指定的协议进行组装包,在接收端按照规定好的协议对包进行解析并提取出对应的信息,最终达到通信的目的。传输协议主要有TCP和UDPTCP需要建立连接,是可靠的、基于字节流的协议,通常与 IP 协议共同使用;UDP不需要建立连接,可靠性差,但速度更快。网络编程有一个重要的概念socket(套接字),应用程序可以通过它发送或接收数据,套接字允许应用程序将I/O插入到网络中,并与网络中的其他应用程序进行通信。Python 提供了如下两个 socket 模块:Socket。
2025-01-23 08:30:00
902
原创 Python 进阶 - Word 基本操作
Word 是一个十分常用的文字处理工具,通常我们都是手动来操作它,本节我们来看一下如何通过 Python 来操作。Python 提供了python-docx 库,该库就是为 Word 文档量身定制的,安装使用命令即可。
2025-01-22 08:30:00
601
原创 Python 进阶 - XML 基本操作
XML()中文译为可扩展标记语言,它是一种简单、灵活、易扩展的文本格式,它主要关注数据内容,常用来传送、存储数据。当通过XML来传送数据时,自然会涉及到 XML 的解析工作,通常PythonDOMDOM方式会将整个XML读入内存,在内存中解析成一个树,通过对树的操作来操作XML,该方式占用内存较大,解析速度较慢。SAXSAX方式逐行扫描XML文档,边扫描边解析,占用内存较小,速度较快,缺点是不能像DOM方式那样长期留驻在内存,数据不是长久的,事件过后,若没保存数据,数据会丢失。方式几乎兼具了DOM。
2025-01-22 08:30:00
405
原创 Python 进阶 - 邮件的发送与收取
中文译为简单邮件传输协议,它能跨越网络传输邮件,可实现相同网络处理进程之间的邮件传输,也可通过中继器或网关实现进程与其他网络之间的邮件传输。,并将授权码记录下来,如果之前已经开启了服务,但忘记了授权码,可以点击“生成授权码”,看一下具体示例。是版本号,中文译为邮局协议,该协议可以实现邮件的收取,Python 的。我们知道有时候邮件内容,除了文本,还会有附件、图片等。做了封装,可以很方便的实现邮件的发送,同时提供了。先看一下如何发送简单的文本内容。为例,我们先用发送者账号登录。
2025-01-21 08:30:00
523
原创 Python 进阶 - 数据库操作之 MySQL
MySQL 是目前使用最广泛的数据库之一,它有着良好的性能,能够跨平台,支持分布式,能够承受高并发。如果还没有安装 MySQL,可以查看下载地址安装参考。Python 大致有如下 5 种方式操作 MySQL。也称MySQLdb,基于 C 库开发,曾经是一个十分流行的 MySQL 驱动,具有出色的性能,但其早已停更,仅支持Python2不支持 Python3,现在基本不推荐使用了,取而代之的是它的衍生版。MySQLdb的Fork 版本,完全兼容MySQLdb,支持Python3,它是Django ORM。
2025-01-21 08:30:00
711
原创 Python 进阶 - 数据库操作之 SQLite
SQLite 是一种嵌入式关系型数据库,其本质就是一个文件,它占用资源低、处理速度快、跨平台、可与 Python、Java 等多种编程语言结合使用。SQLite 是一个进程内的库,可以自给自足、无服务器、无需配置、支持事务,Python 可以通过sqlite3模块与SQLite3集成(3 是版本号),Python 2.5.x 以上版本内置了sqlite3模块,我们可以直接使用。
2025-01-20 08:30:00
1641
原创 Python 进阶 - Excel 基本操作
在现实中,很多工作都需要与数据打交道,Excel 作为常用的数据处理工具,一直备受人们的青睐,而大部分人都是手动操作 Excel,如果数据量较小且是一些简单的操作还好说,但如果数据量较大或是一些复杂的操作,工作量可想而知,因此,我们需要掌握一种简单、高效的方法来操作 Excel。在数据处理方面,Python 一直扮演着重要的角色,对于 Excel 操作,它有着完整且成熟的第三方库,使用也较为简单。Python 中常用 Excel 操作库如下:从 Excel 中读取数据,支持xls、xlsx。
2025-01-20 08:30:00
1341
1
原创 SpringBoot一键提取身份证与营业执照信息
在处理图像以进行文字识别的上下文中,OpenCV可以用于多种预处理步骤,比如调整图像大小、转换为灰度图、应用滤波器、边缘检测等,以增强图像中的文字部分,从而提高OCR的准确性。以下是在上面的OCR示例中如何使用OpenCV进行图像预处理的代码示例。在这个示例中,我们首先将图像转换为灰度图,然后应用高斯模糊来平滑图像,最后使用Canny算法进行边缘检测。这些步骤可以帮助突出图像中的文字,使其在OCR过程中更容易被识别。OCR可以协同工作,提高图像中文字识别的准确率。来识别图像中的文本,然后使用。
2025-01-17 08:31:04
790
原创 Python 进阶 - 多线程(一)
在说这个问题之前,我们先简单了解一下基本情况:最初因 GIL 可以简单、快捷的解决多线程并发访问的安全问题选择了这种机制,随后又有大量的代码库开发者开始依赖这种特性,随之时间的推移,人们开始意识到了并行性的问题,但这时已经到了尾大不掉的程度了,所以现实情况是:尽管可以去掉 GIL,但工程量太大了。的值保持不变,但从多线程的执行结果来看,我们发现出现了错误的结果,并且每次执行的结果可能不同,通常这种问题我们可以使用加锁的方式解决。对于修改状态的线程,它们将当前状态改变为可能是等待者所期待的新状态后,调用。
2025-01-17 08:30:00
950
原创 Python 进阶 - 多进程(二)
通常一个运行着的应用程序就是一个进程,比如:我启动了一个音乐播放器,现在它就是一个进程。线程是进程的最小执行单元,比如:我在刚启动的音乐播放器上选了一首歌曲进行播放,这就是一个线程。CPython 解释器下的多线程牺牲了并行性,为此Python提供了多进程模块,该模块同时提供了本地和远程并发,使用子进程代替线程,可以有效的避免GIL带来的影响,能够充分发挥机器上的多核优势,可以实现真正的并行效果,并且它与threading模块的 API 基本类似,使用起来也比较方便。
2025-01-17 08:30:00
772
原创 Python 教程 - argparse 模块
argparse 模块主要用于处理 Python 命令行参数和选项,程序定义好所需参数后,该模块会通过sys.argv解析出那些参数;除此之外,argparse 模块还会自动生成帮助和使用手册,并在用户给程序传入无效参数时报出错误信息。使用argparse 模块,我们可以轻松的编写出用户友好的命令行接口。
2025-01-16 08:30:00
878
原创 Python 教程 - 正则表达式
正则表达式是一个强大的字符串处理工具,几乎所有的字符串操作都可以通过正则表达式来完成,其本质是一个特殊的字符序列,可以方便的检查一个字符串是否与我们定义的字符序列的某种模式相匹配。正则表达式并不是Python所特有的,几乎所有编程语言都支持正则表达式,Python提供了内置模块re和第三方模块regex来支持正则表达式,regex模块提供了与re模块兼容的 API 接口,同时还提供了额外的功能和更全面的Unicode支持,本文只介绍re模块。
2025-01-16 08:30:00
1311
原创 Python 教程 - 数学相关模块
模块描述math提供了对 C 标准定义的数学函数的访问(不适用于复数)cmath提供了一些关于复数的数学函数decimal为快速正确舍入的十进制浮点运算提供支持fractions为分数运算提供支持random实现各种分布的伪随机数生成器statistics提供了用于计算数字数据的数理统计量的函数本文具体介绍一下相对比较常用的模块:math、decimal 和 random。
2025-01-15 08:30:00
1383
原创 Python 教程 - sys 模块
sys模块主要负责与Python解释器进行交互,该模块提供了一系列用于控制Python运行环境的函数和变量。之前我们说过os模块,该模块与sys模块从名称上看着好像有点类似,实际上它们之间是没有什么关系的,os模块主要负责与操作系统进行交互。
2025-01-15 08:30:00
1013
原创 Python 教程 - 装饰器
closures),是引用了自由变量的函数。装饰器(decorator)也称装饰函数,是一种闭包的应用,其主要是用于某些函数需要拓展功能,但又不希望修改原函数,它就是语法糖,使用它可以简化代码、增强其可读性,当然装饰器不是必须要求被使用的,不使用也是可以的,Python 中装饰器通过。通过上面的示例,我们会发现闭包与类有一些相似,比如:它们都能实现数据的封装、方法的复用等;比如我们调用一个带有返回值的函数 x,此时函数 x 为我们返回一个函数 y,这个函数 y 就被称作闭包,这么一说是不是豁然开朗了。
2025-01-14 08:30:00
770
原创 Python 教程 - 命名空间以及作用域
作用域是 Python 程序可以直接访问命名空间的文本区域(代码区域),名称的非限定引用会尝试在命名空间中查找名称,作用域是静态的,命名空间是随着解释器的执行动态产生的,因此在作用域中访问命名空间中的名字具有了动态性,即作用域被静态确定,被动态使用。命名空间(namespace)是名称到对象的映射,当前大部分命名空间都是通过 Python 字典来实现的,它的主要作用是避免项目中的名字冲突,每一个命名空间都是相对独立的,在不同的命名空间中可以同名,在相同的命名空间中不可以同名。变量修改为全局变量,则需使用。
2025-01-14 08:30:00
679
原创 Python 教程 - 枚举
起初Python 中并未内置枚举(enum)类型,枚举是在Python3.4Python3.4之前的版本还能不能使用枚举呢?答案是可以使用,但是不能直接使用,使用之前需要先用 pip install enum安装。什么是枚举?枚举可看作是一系列符号名称的集合,集合中每一个元素要保证唯一性和不可变,因此我们可以对枚举中元素进行恒等比较,通俗来讲枚举就是一系列常量的集合,枚举是可迭代的。枚举有什么作用?我们先来思考一个问题:不使用枚举我们如何定义常量呢?
2025-01-13 08:30:00
531
原创 Python 教程 - 迭代器与生成器
中,一边循环一边计算的机制,称为生成器),它的作用是:有利于减小服务器资源,在列表中所有数据存入内存,而生成器相当于一种方法而不是具体的信息,用多少取多少,占用内存小。两个方法,这两个方法共同组成了迭代器协议,通俗来讲迭代器就是一个可以记住遍历位置的对象,迭代器一定是可迭代的,反之不成立。生成器是用来创建迭代器的工具,其写法与标准函数类似,不同之处在于返回时使用。迭代器对象本质是一个数据流,它通过不断调用。,特点是更加简洁,但不够灵活)。生成器的创建方式有很多种,比如:使用。是一个关键字,作用和。
2025-01-13 08:30:00
436
原创 Python 教程 - os 模块
我们都知道os中文就是操作系统的意思,顾名思义,Python的os模块提供了各种操作系统的接口,这些接口主要是用来操作文件和目录。Python中所有依赖于操作系统的内置模块统一设计方式为:对于不同操作系统可用的相同功能使用相同的接口,这样大大增加了代码的可移植性;当然,通过os模块操作某一系统的扩展功能也是可以的,但这样做会损害代码的可移植性。
2025-01-11 08:30:00
1256
原创 Python 教程 - 错误和异常
程序中的错误我们通常称为 ,工作中我们不仅需要改自己程序中的 bug ,还需要改别人程序中的 ,新项目有 要改,老项目也有 要改,可以说 几乎贯穿一个程序员的职业生涯…我们通常将 分为 (错误) 和 (异常),我们下面来具体学习下 Python 中的 错误 和 异常。错误通常是指程序中的 语法错误 或 逻辑错误,来通过两个 Python 例子看一下:我们编写程序通常使用开发工具编写,比如:我使用 工具编写 Python 程序,像这种语法错误,在编写程序时,编译器就会检测出来并提示我们,因此
2025-01-11 08:30:00
650
原创 Python 教程 - 函数、模块与包
def 函数名(参数) : 函数体 return 返回值如果要定义一个无任何功能的空函数,函数体只写pass即可。def 函数名():pass当我们不确定参数的个数时,可以使用不定长参数,在参数名前加def 函数名(*参数名):函数体lambda 参数 : 表达式Python 中一个以.py结尾的文件就是一个模块,模块中定义了变量、函数等来实现一些类似的功能。Python 有很多自带的模块(标准库)和第三方模块,一个模块可以被其他模块引用,实现了代码的复用性。
2025-01-10 08:30:00
289
原创 Python 教程 - 面向对象
面向对象(OOP)是一种对现实世界理解和抽象的方法,对象的含义是指在现实生活中能够看得见摸得着的具体事物,一句比较经典的描述是一切皆对象,Python 是一门面向对象的语言,面向对象编程简单来说就是一种封装代码的方式。
2025-01-10 08:30:00
474
原创 Python 教程 - 字典与集合
当看到字典这个词时,有些人包括我自己在内,首先映入眼帘的便是新华字典。它的使用大家也应该都清楚,通过拼音、偏旁部首等进行查询;今天我们说的字典(dict)是 Python 的数据结构,因为都叫字典,我们不用想也知道它们是十分相似的,它们的内容都是以键-值(key-value)的方式存在的。dict 拥有良好的查询速度,dict 中的值可以是任意 Python 对象,多次对一个 key 赋 value,后面的 value 会把前面的 value 覆盖。
2025-01-09 08:30:00
229
原创 Python 教程 - 与时间相关的模块
tm_sec 范围为 0 ~ 61,值 60 表示在闰秒的时间戳中有效,并且由于历史原因支持值 61。TextCalendar 为 Calendar子类,用来生成纯文本日历。模块重新封装了 time 模块,提供了更多接口,变得更加直观和易于调用。类代表一个时间对象,可以通过索引和属性名访问值。模块提供了很多与时间相关的类和函数,下面我们介绍一些常用的。calendar 模块提供了很多可以处理日历的函数。,参数范围值参考 date 类与 time 类。表示当前时间,返回类型为。
2025-01-09 08:30:00
823
原创 Quartz 结合项目使用
至此quartz在项目中就可以使用了,可以创建SimpleTrigger和CronTrigger,也可以根据实际需求来进行设置不同的监听来在JOb执行的不同阶段进行相应操作。至此quartz在项目中就可以使用了,可以创建SimpleTrigger和CronTrigger,也可以根据实际需求来进行设置不同的监听来在JOb执行的不同阶段进行相应操作。由于存储在内存中的形式,在清理缓存时会造成数据丢失,并且在做集群的时候也是采取存在数据库中的形式才可以,因此这里主要介绍的是存储在数据库中方式。
2025-01-08 10:08:52
1299
原创 Python 教程 - 序列
Python 中的序列是一块可存放多个值的连续内存空间,所有值按一定顺序排列,每个值所在位置都有一个编号,称其为索引,我们可以通过索引访问其对应值。字符串就是序列结构,除此之外常见的序列结构还包括列表、元组等。
2025-01-08 08:30:00
372
原创 Python 教程 - 列表与元组
Python 中没有数组,而是加入了功能更强大的列表(list),列表可以存储任何类型的数据,同一个列表中的数据类型还可以不同;索引、切片、加、乘、检查成员。元组(tuple)与列表类似,但元组是不可变的,可简单将其看作是不可变的列表,元组常用于保存不可修改的内容。
2025-01-08 08:30:00
377
原创 Python 教程 - 我是一个数字
Hello,我是 Python 数据类型数字,大家之前对我可能已经有所耳闻,俗话说闻名不如见面,见面要先自我介绍,为了让大家对我有一个清晰的了解,下面我要向大家介绍一下自己。模块中除了求平方根函数,还有很多可以使用的函数。随机生成一个 0 到 1 范围内的实数。随机生成一个 x 到 y 范围内的实数。我的基本运算见下表,整型和浮点型均支持下表中运算。除了上面的基本运算外,我还可以借助数学模块。模块对随机数的生成提供了支持。,如果你使用的还是我的低版本。引入之后就可以使用了,以。浮点型(float)
2025-01-07 08:30:00
632
原创 新兴的开源 AI Agent 智能体全景技术栈
一套开源模型和工具,使任何开发者都能构建最先进的 AI Agent 智能体应用程序。如果我们能回到过去,告诉软件工程师他们的应用程序将由神秘的 AI Agent 智能体驱动,我们对它的内部运作一无所知,并且他们为了体验的便利性,将最敏感的数据交给第三方,他们可能会摇头表示不相信。但现在的我们就是这样。如今,全世界的开发者都在围绕AI Agent智能体重新想象他们的应用程序,而这默认意味着将专有的大语言模型(LLMs)集成到每个方面。虽然像OpenAI和Anthropic这样的专有LLMs点燃了。
2025-01-07 08:30:00
1209
原创 Python 教程 - 基本语句
是空语句,它不做任何事情,一般用做占位语句,作用是保持程序结构的完整性。while 循环,满足条件时进行循环,不满足条件时退出循环。当需要多次重复执行时,我们要用到循环语句,Python 提供了。在进行逻辑判断时,我们需要用到条件语句,Python 提供了。语句中,用来终止整个循环。语句中,用来终止本次循环。
2025-01-06 08:30:00
673
Activiti-5.22、activiti-demo、Activiti-master、stencilset.json
2022-04-04
springboot集成swagger.zip
2020-04-10
TaskFramework.rar
2020-04-10
线程休眠辅助工具类,能够按秒休眠以及按毫秒数休眠
2020-03-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人