
Python
文章平均质量分 93
落痕的寒假
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[深度学习] 大模型学习4-RAG技术全景解析
RAG系统工作流程概览RAG系统的核心在于检索与生成流程的深度融合,其核心逻辑是通过动态引入外部知识,大幅提升输出内容的准确性与相关性。具体工作流程以用户查询为起点:首先,检索模块借助向量检索等技术,将用户查询转化为向量形式,从文档库、知识图谱或搜索引擎等外部知识源中快速定位、筛选并提取高度相关的信息片段;随后,以LLM为基础的生成模块会整合查询内容与检索到的上下文信息,经推理、整合与重组,最终生成连贯且精准的答案。例如,当用户询问“2024年夏季奥运会的举办城市是哪里,有哪些特色比赛项目?原创 2025-08-08 20:09:51 · 1130 阅读 · 1 评论 -
[深度学习] 大模型学习3下-模型训练与微调
前面提到大语言模型发布时通常会推出基础版与对话版两个版本。其中,基础模型是经过大规模语料无监督预训练的模型,这类模型虽然学习了大量通用知识,但没有经过任何行为指导;而对话模型则是专门为用户交互构建的,通常采用提问与回答的格式,它是在基础模型的基础上,通过指令监督微调与基于人类反馈的强化学习进行优化得到的,能够与人进行对话,并且输出的结果更加符合预期、更易于控制,也更加安全。想让大语言模型理解并生成好的对话,需要给它一个清晰的“剧本”,这就是 Chat Template(聊天模板)。原创 2025-07-23 19:59:20 · 965 阅读 · 0 评论 -
[python] python抽象基类使用总结
以下示例将name方法声明为抽象属性,要求所有继承Person的子类必须实现这个属性。使用。原创 2025-06-03 06:15:00 · 627 阅读 · 0 评论 -
[python] 轻量级定时任务调度库schedule使用指北
schedule是一款专为简化定时任务调度而设计的Python库,它通过直观的语法降低了周期性任务的实现门槛。作为进程内调度器,它无需额外守护进程,轻量且无外部依赖,适合快速搭建自动化任务。不过,该库在功能完整性上有所取舍,目前暂不支持断点续传、亚秒级精度控制以及多任务并行执行等复杂场景。。原创 2025-05-20 22:01:26 · 1227 阅读 · 0 评论 -
[python] 基于WatchDog库实现文件系统监控
Watchdog库是Python中一个用于监控文件系统变化的第三方库。它能够实时监测文件或目录的创建、修改、删除等操作,并在这些事件发生时触发相应的处理逻辑,因此也被称为文件看门狗。Watchdog库的官方仓库见:watchdog,Watchdog库的官方文档见:watchdog-doc。Watchdog库的安装命令如下:注意:Watchdog库最新版本(2.1.5以上版本)需在Python3.9以上版本运行。若使用Python3.4或3.5,应选用Watchdog版本低于1.0.0;若使用Python3.原创 2025-04-27 19:35:06 · 1195 阅读 · 0 评论 -
[python] 使用Python实现Markdown文档格式转换
MarkItDown库是一款轻量级的Python版Markdown格式解析与渲染工具,能够将多种文件格式高效转换为Markdown格式,从而满足大语言模型(LLMs)及相关文本分析流程的需求。它专注于以Markdown格式精准保留文档的关键结构与内容,包括标题、列表、表格、链接等元素。虽然其输出结果既美观又易于人类用户阅读,但其核心设计宗旨是为文本分析工具提供支持,因此对于那些需要高保真度转换以供人类阅读的文档,它可能并非最优选择。PDFPowerPoint(按从上到下、从左到右的顺序读取内容)原创 2025-03-24 20:49:40 · 1525 阅读 · 0 评论 -
[python] asyncio库常见问题与实践案例
死锁(Deadlock)是并发编程中的一种常见问题,它发生在多个任务之间的资源争用中,导致所有任务都陷入无法继续执行的僵局。即使在Python中使用。原创 2024-11-25 12:00:17 · 1598 阅读 · 1 评论 -
[python] Python异步编程库asyncio使用指北
异步编程是一种非阻塞的编程范式。在这种范式中,请求和函数调用会在未来某个时刻以某种方式在后台执行。非阻塞意味着当一个请求被发出时,程序不会停下来等待该请求的结果,而是会继续执行后续的操作。当请求的结果准备好时,程序会在适当的时机处理该结果,而不会影响程序其他部分的执行。因此,调用者可以继续执行其他任务,并在结果准备好或需要时,稍后处理已发出的调用结果。异步操作指的是在程序运行时,有些任务不会立即完成,而是安排在未来某个时刻执行。与同步操作不同,后者要求任务在当前步骤中完成。异步函数调用。原创 2024-11-22 12:17:26 · 1011 阅读 · 0 评论 -
[图像处理] 基于CleanVision库清洗图像数据集
CleanVision支持多种格式示例图片问题类型描述关键字完全重复完全相同的图像近似重复视觉上几乎相同的图像模糊图像细节模糊(焦点不实)blurry信息量低缺乏内容的图像(像素值的熵很小)过暗不规则的暗图像(曝光不足)dark过亮不规则的亮图像(曝光过度)light灰度缺乏颜色的图像grayscale异常宽高比宽高比异常的图像异常大小相比数据集中其他图像,尺寸异常的图像odd_size。原创 2024-10-24 10:36:25 · 2308 阅读 · 0 评论 -
[python] 基于PyOD库实现数据异常检测
PyOD作者发布了一份长达45页的预印论文,名为ADBench: Anomaly Detection Benchmark,以及提供ADBench开源仓库对30种异常检测算法在57个基准数据集上的表现进行了比较。ADBench结构图如下所示:。pyod.models.base.BaseDetector.fit():训练模型,对于无监督方法,目标变量y将被忽略。pyod.models.base.BaseDetector.decision_function():使用已训练的检测器预测输入数据的异常分数。原创 2024-10-01 10:50:20 · 2140 阅读 · 0 评论 -
[深度学习] 时间序列分析工具TSLiB库使用指北
任务类型定义特点应用场景示例长时预测预测时间序列在未来较长时间段内的变化趋势需要考虑长期趋势和季节性因素,使用复杂的模型来捕捉长期依赖性股票价格预测、长期能源需求预测等短时预测预测时间序列在近期的未来值通常关注短期波动,模型需要快速响应新数据短期销售预测、交通流量预测等缺失值填补填补时间序列中缺失的数据点需要保持时间序列的连续性和一致性时间序列预处理、历史数据补全等异常检测识别时间序列中的异常或离群点需要区分正常波动和异常事件网络安全监控、设备故障检测等分类。原创 2024-08-28 22:10:59 · 3103 阅读 · 2 评论 -
[python] Python并行计算库Joblib使用指北
Joblib是用于高效并行计算的Python开源库,其提供了简单易用的内存映射和并行计算的工具,以将任务分发到多个工作进程中。Joblib库特别适合用于需要进行重复计算或大规模数据处理的任务。。原创 2024-08-10 09:32:52 · 1507 阅读 · 1 评论 -
[python] 启发式算法库scikit-opt使用指北
启发式算法介绍启发式算法,顾名思义,就是一种基于直觉或经验来解决问题的算法。它不像传统算法那样一步一步地穷尽所有可能性,而是通过一些启发式的规则或策略,快速找到一个可行的解。打个比方,若开车去一个陌生的地方,没有导航仪。启发式算法就像问路一样,可以向路人询问,也可以根据路边的标志和指示牌来判断方向。虽然这种方式不能保证找到最优路线,但通常能够在较短时间内找到一个可行的路线。快速性: 启发式算法通常能够在较短时间内找到一个可行的解,特别是在面对复杂问题时。原创 2024-07-30 21:32:47 · 1221 阅读 · 0 评论 -
[python] Python日志记录库loguru使用指北
可以使用datatime库来自定义日志时间格式。原创 2024-06-30 13:36:38 · 1188 阅读 · 3 评论 -
[机器学习] 低代码机器学习工具PyCaret库使用指北
PyCaret是一个开源、低代码Python机器学习库,能够自动化机器学习工作流程。它是一个端到端的机器学习和模型管理工具,极大地加快了实验周期,提高了工作效率。PyCaret本质上是围绕几个机器学习库和框架(如scikit-learn、XGBoost、LightGBM、CatBoost、spaCy、Optuna、Hyperopt、Ray等)的Python包装器,与其他开源机器学习库相比,PyCaret可以用少量代码取代数百行代码。。原创 2024-06-01 09:24:52 · 1431 阅读 · 0 评论 -
[python] 基于PyWaffle库绘制华夫饼图
PyWaffle库通过其Waffle类提供了一种便捷的方式来创建华夫饼图。每个类别的方格占比可以通过参数values进行设置,数据可以是列表、字典和Pandas.DataFrame结构。然后可以使用rows和columns参数来定制行数和列数。只需要指定其中一个参数,另一个参数可以根据values的总和推断出来。# 新建绘图图像rows=5,# 保存结果plt.show()如果value参数输入的是比例值,则必须设置rows和columns属性来定义值的显示方式。rows=2,原创 2024-04-30 21:42:59 · 1352 阅读 · 2 评论 -
[深度学习] 计算机视觉低代码工具Supervision库使用指北
Supervision库是一款出色的Python计算机视觉低代码工具,其设计初衷在于为用户提供一个便捷且高效的接口,用以处理数据集以及直观地展示检测结果。。Supervision库需要在Python3.8及以上版本的环境下运行。原创 2024-03-18 09:31:13 · 11410 阅读 · 4 评论 -
[python] 基于RapidFuzz库实现字符串模糊匹配
是一个用于快速字符串模糊匹配的Python库,它能够快速计算两个字符串之间的相似度,并提供与和类似的接口。RapidFuzz和TheFuzz功能相似,只是提供的接口不同。RapidFuzz库是一个经过高度优化的C++实现,为用户提供了以Python编写代码的速度和灵活性。该库还提供了一个与TheFuzz和Fuzzywuzzy中所有算法兼容的API,因此强烈推荐使用RapidFuzz库进行文本模糊匹配。原创 2024-01-25 11:50:01 · 2888 阅读 · 0 评论 -
[python] 基于Dataset库操作数据库
dataset库是Python中一个用于操作数据库的简单库,它提供了一种简洁的方式与各种关系型数据库进行交互,例如SQLite、MySQL、PostgreSQL 等。你可以使用dataset库来执行查询、插入、更新和删除操作,而无需编写复杂的SQL语句。dataset库适用于小规模的数据存储和查询场景,相比csv和json文件只能通过编程语言来处理数据,dataset支持使用SQL语言进行查询,提供了丰富的查询功能和灵活性。原创 2023-12-29 18:27:30 · 2419 阅读 · 0 评论 -
[python] 基于Tablib库处理表格数据
Tablib是一个用于处理电子表格(如 Excel,CSV,JSON)的Python 库。它提供了一种简单而强大的方式来操作和处理数据。利用Tablib,我们可以轻松地读取、写入、过滤和转换各种类型的电子表格数据。Tablib 具有一致且易于使用的 API,以在不同的数据格式之间进行无缝转换。比如,Tablib可以将数据从Excel表格导入为Python对象,然后将其转换为JSON或CSV格式,并进行相应的操作和分析。此外Tablib还支持对数据进行排序、筛选和合并等常见操作。。原创 2023-11-30 11:53:29 · 1464 阅读 · 0 评论 -
[数据分析与可视化] 基于Python绘制简单动图
动画是一种高效的可视化工具,能够提升用户的吸引力和视觉体验,有助于以富有意义的方式呈现数据可视化。本文的主要介绍在Python中两种简单制作动图的方法。其中一种方法是使用matplotlib的Animations模块绘制动图,另一种方法是基于Pillow生成GIF动图。原创 2023-10-24 13:40:42 · 4063 阅读 · 4 评论 -
[自然语言处理] 基于pycorrector实现文本纠错
pycorrector通过加载自定义混淆集,支持用户纠正已知的错误,实际就是字符串替换。原创 2023-09-24 11:39:25 · 8097 阅读 · 4 评论 -
[编程基础] Python内置模块collections使用笔记
collections是Python标准库中的一个内置模块,它提供了一些额外的数据结构类型,用于增强Python基础类型如列表(list)、元组(tuple)和字典(dict)等。本文主要介绍这些数据类的基础使用方法,以更好地利用Python的collections模块来处理不同类型的数据。。原创 2023-09-05 17:34:50 · 682 阅读 · 0 评论 -
[语音识别] 基于Python构建简易的音频录制与语音识别应用
PyAudio是一个用于处理音频输入和输出的Python库,其主要变量和接口的实现依赖于C语言版本的PortAudio。PyAudio提供从麦克风或其他输入设备录制音频、保存音频文件、实时处理音频数据以及播放音频文件或实时音频流等功能。此外,PyAudio也允许通过设置采样率、位深度、声道数等参数以及支持回调函数和事件驱动机制来满足不同应用需求。PyAudio。PyAudio的安装需要Python3.7及以上环境。本文所用PyAudio版本为0.2.13。原创 2023-08-21 12:14:06 · 9370 阅读 · 17 评论 -
[数据分析与可视化] Python绘制数据地图5-MovingPandas绘图实例
MovingPandas是一个基于Python和GeoPandas的开源地理时空数据处理库,用于处理移动物体的轨迹数据。,本文主要介绍三个MovingPandas的绘图实例。。。。MovingPandas作者推荐在Python 3.8及以上环境下安装MovingPandas,并建议使用conda进行安装。由于MovingPandas的依赖环境较为复杂,所以不推荐使用pip进行安装。下面的代码展示了MovingPandas的版本信息,本文所用Python版本为Python3.10。原创 2023-08-11 12:16:19 · 1770 阅读 · 0 评论 -
[数据分析与可视化] Python绘制数据地图4-MovingPandas入门指北
MovingPandas是一个基于Python和GeoPandas的开源地理时空数据处理库,用于处理移动物体的轨迹数据。它提供了一组强大的工具,可以轻松地加载、分析和可视化移动物体的轨迹。通过使用MovingPandas,用户可以轻松地处理和分析移动对象数据,并从中提取有关行为、模式和趋势的见解。无论是处理交通流量数据、物流轨迹数据还是动物迁徙数据,MovingPandas都是一个强大的地理可视化工具。。。。原创 2023-08-03 12:23:42 · 1880 阅读 · 0 评论 -
[自然语言处理] 自然语言处理库spaCy使用指北
自然语言处理(Natural Language Processing,简称NLP)是一门研究人类语言与计算机之间交互的领域,旨在使计算机能够理解、解析、生成和处理人类语言。NLP结合了计算机科学、人工智能和语言学的知识,通过各种算法和技术来处理和分析文本数据。近年来,随着深度学习技术的发展,神经网络模型在自然语言处理(NLP)领域取得了重大的突破。其中,循环神经网络(RNN)、长短时记忆网络(LSTM)和Transformer等模型都发挥了关键作用。原创 2023-07-27 17:45:57 · 12375 阅读 · 0 评论 -
[数据分析与可视化] 基于matplotlib和plottable库绘制精美表格
plottable提供了ColumnDefinition类(别名ColDef)来自定义图形表格的单个列的样式。name: str,要设置绘图效果的列名title: str = None,用于覆盖列名的绘图标题width: float = 1,列的宽度,默认情况下各列的宽度为轴的宽度/列的总数textprops: Dict[str, Any] = field(default_factory=dict),提供给每个文本单元格的文本属性。原创 2023-07-10 17:58:54 · 4993 阅读 · 4 评论 -
[数据分析与可视化] 基于matplotlib-scalebar库绘制比例尺
matplotlib-scalebar是一个Python库,用于在matplotlib图形中添加比例尺。它允许用户指定比例尺的大小、位置、字体和颜色,以及比例尺的单位。该库支持不同的比例尺单位,例如米、英尺、英寸等。matplotlib-scalebar安装命令如下:pip install matplotlib-scalebar比例尺是一种用于描述图上线段长度与实际相应线段长度之间关系的方法。其基本公式为:比例尺 = 图上距离 / 实际距离。比例尺的表示方法可以分为三种:数字式,采用数字的比例形原创 2023-06-28 19:35:46 · 3181 阅读 · 3 评论 -
[数据分析与可视化] Python绘制数据地图3-GeoPandas使用要点
通过更改 ScaleBar 参数能够调整比例尺的显示效果,ScaleBar具体参数如下所示。这些参数的使用可以自行尝试。原创 2023-06-16 19:52:17 · 5352 阅读 · 0 评论 -
[python] Python类型提示指北
Python也支持对自定义类进行类型提示。在上面的代码中,我们定义了一个 Person 类,它有两个属性:name 和 age。在初始函数中,我们使用类型提示指定了这两个属性的类型。接下来,我们定义了一个 say_hello 函数,这个函数的参数是一个 Person 类型的对象,并且返回值是一个字符串。原创 2023-05-10 19:42:33 · 3719 阅读 · 1 评论 -
[python] Python枚举模块enum总结
基础示例。原创 2023-04-17 12:00:33 · 5418 阅读 · 0 评论 -
[数据分析与可视化] Python绘制数据地图2-GeoPandas地图可视化
如下代码所示,绘制江苏省地级市GDP地图。# 读取2019江苏省各市GDP数据 import geopandas as gpd import matplotlib . pyplot as plt import pandas as pdplt . rcParams [ "font.family" ] = 'FZSongYi-Z13S' # 数据来自互联网 gdp = pd . read_csv("2022江苏省各市GDP.csv") gdp排行地级市2022年GDP(亿元)01苏州市。原创 2023-04-09 10:42:19 · 6958 阅读 · 0 评论 -
[数据分析与可视化] Python绘制数据地图1-GeoPandas入门指北
地信、计算机和遥感等领域的从业人员或多或少都会接触地理信息系统(GIS,Geographic Information System)的相关知识。所谓GIS简单来说就是一个以计算机为核心,对地理空间位置相关数据进行创建、管理、分析、绘制和展示的多功能集成信息系统。绘制地图,则需要了解GIS中的坐标参考系。本文只是简单介绍坐标参考系的相关内容。相关内容总结于以下文章,想要具体了解更多内容也可以看看这些文章。聊聊GIS中的坐标系基于geopandas的空间数据分析——坐标参考系篇前后端都要懂一点的 GIS。原创 2023-03-16 20:05:22 · 3937 阅读 · 0 评论 -
[深度学习] 基于切片辅助超推理库SAHI优化小目标识别
AutoDetectionModel类SAHI基于AutoDetectionModel类的from_pretrained函数加载深度学习模型。目前支持YOLOv5 models, MMDetection models, Detectron2 models和HuggingFace object detection models等深度学习模型库,如果想支持新的模型库,可以参考目录下的模型文件,新建模型检测类。模型预测。原创 2023-01-03 20:33:49 · 12728 阅读 · 52 评论 -
[python] 基于paramiko库操作远程服务器
SSHClient实现了OpenSSH中ssh命令所包含的功能,用于远程连接服务器。SFTPClient实现了OpenSSH中sftp命令所包含的功能,用于远程操作文件。Paramiko没有提供scp命令的相关功能,scp和sftp功能类似,都是用于远程操作文件。不同的地方在于scp是轻量级的,scp传输速度通常比sftp快,但是sftp提供了断点续传功能。。原创 2023-01-01 09:50:54 · 1892 阅读 · 1 评论 -
[python] 基于wordcloud库绘制词云图
词云Wordcloud是文本数据的一种可视化表示方式。它通过设置不同的字体大小或颜色来表现每个术语的重要性。词云在社交媒体中被广泛使用,因为它能够让读者快速感知最突出的术语。然而,词云的输出结果没有统一的标准,也缺乏逻辑性。对于词频相差较大的词汇有较好的区分度,但对于颜色相近、频次相近的词汇来说效果并不好。因此词云不适合应用于科学绘图。本文基于python库wordcloud来绘制词云。wordcloud安装方式如下:wordcloud库关于绘制词云的相关函数均由其内置类WordCloud提供。WordCl原创 2022-12-07 11:51:40 · 7436 阅读 · 0 评论 -
[python] 基于Gradio可视化部署机器学习应用
基于Gradio可视化部署机器学习应用。原创 2022-10-24 11:59:07 · 17469 阅读 · 11 评论 -
[python] 基于blind-watermark库添加图片盲水印
是一个能够给图片添加/解析基于频域的数字盲水印的Python库。图像水印image watermark是指在图片里添加文本或图形,以标记图片的来源。但是图像水印会破坏原图。因此另外一种水印形式,即图像盲水印blind image watermark在实践中更多地用于标记图像来源。图像盲水印是一种肉眼不可见的水印,以不可见的形式添加到原始图像中,不会对原始图像的质量产生很大影响。图像盲水印的具体原理见。原创 2022-09-19 11:50:34 · 4353 阅读 · 0 评论 -
[python] 基于diagrams库绘制系统架构图
Python的Diagrams库允许通过简单的Python代码绘制云系统架构,实现对新的系统架构进行原型设计。。。原创 2022-09-10 09:49:09 · 3540 阅读 · 0 评论