志在创建优质博客、通俗易懂、助力大家提高学习效率！

本博客以算法工程师日常工作经验为基础，分享各类算法：NLP、cv、搜广推、机器学习、深度学习、数据分析的共工作项目总结！

原创【画图Matplotlib-驯化】一文教会Ubuntu系统使用Matplotlib画出显示中文的设置大全

【画图Matplotlib-驯化】一文教会Ubuntu系统使用Matplotlib画出显示中文的设置大全本次修炼方法请往下查看如果使用mac或者linux进行Matplotlib中文画图显示时，会出现字体设置的问题，譬如网上说的很多通过代码里面设置Matplotlib的方式来处理中文显示问题，都是不可行的方法，具体的如下：对于上述的问题的核心在于linux或者mac中

2025-04-18 15:17:28 777

原创【LLM实战-智能问答系统】一文搞懂基于Langchain、Llama2和PDF/CSV文件集成的智能问答系统

随着企业数据量的爆炸性增长，传统的信息检索方式已经无法满足高效工作的需求。智能问答系统应运而生，它能够理解自然语言问题，并从海量数据中快速提取答案。在本项目中，我们的目标是构建一个能够处理PDF文档和CSV文件的智能问答系统。通过Langchain框架和Llama2模型，我们希望为用户提供一个简单易用的界面，让他们能够快速获取所需信息。

2025-02-27 20:11:51 763

原创【LLM实战-大模型自动打标】一文搞懂基于LLM大模型进行自动化打标

在自然语言处理（NLP）领域，文本标注是一个耗时且需要专业知识的任务，尤其是对于涉及敏感内容的文本标注。随着大语言模型（LLM）的发展，我们可以利用这些强大的模型来自动化标注过程，从而提高效率并减少人工干预。本文将介绍如何使用OpenAI的API，结合Python脚本，实现对文本是否涉及敏感话题的自动标注。在许多应用场景中，如社交媒体监控、内容审核等，我们需要快速判断文本是否包含敏感内容。传统的文本标注方法依赖人工标注，不仅效率低下，还容易受到主观因素的影响。

2025-02-12 11:02:18 1038

原创【NLP实战-BERT文本分类】一文搞懂基于BERT进行文本分类并定制化评估指标

文本分类任务的目标是将文本数据分配到预定义的类别中。在本次项目中，我们使用了一个包含用户评论和评价维度的数据集。数据集中的每条评论都对应一个评价维度（如“服务态度”、“产品质量”等），我们的目标是训练一个模型，能够自动根据评论内容预测其对应的评价维度。

2025-02-07 17:09:32 981

原创 LLM相关的code

【代码】【无标题】

2024-12-18 14:33:04 212

原创【Transforms-驯化】一个通过seq2seq和Transforms实现文本生成的例子

文本生成目前都是通过gpt等大模型进行完成，本次介绍一下通过seq2sep以及Transforms来实现。

2024-12-17 11:43:53 283

原创【多模态-驯化】一文搞懂通过http下载图片url并保存到execl中

在数据处理和报告制作中，经常需要将图片与数据结合，以提供更直观的信息展示。本博客将介绍如何使用Python自动化地从网络下载图片，并将其插入到Excel文件中。

2024-12-03 17:05:54 999

原创【大模型-驯化】一文教会qwen-vl、qwen系列通过Prompt输出json格式为非markdown格式问题

【大模型-驯化】一文教会qwen-vl、qwen系列通过zero-shot输出json格式为非markdown格式问题本次修炼方法请往下查看在企业的工程工作中，有时候由于没有想过的训练数据，需要通过zero-shot的方式调用大模型进行推理预测，目前来说比较好的模型中文解释模型为qwen系列的单模和多模模型，通常来说算法和工程进行对接时，我们需要将结果处理成json格式给后

2024-11-21 14:52:15 1793

原创【大模型-驯化】一文教会你bert、qwen、llama等模型对结果进行概率控制问题

【大模型-驯化】一文教会你bert、qwen、llama等模型对结果进行概率控制问题本次修炼方法请往下查看大模型的发展使得之前的nlp相关任务：文本分类、实体抽取、文本生成、文本理解等任务都在由bert预训练模型向gpt模型进行过渡，具体的之前用bert进行文本分类的任务都可以通过gpt进行sft来得到微调的最终结果，在通过bert进行文本分类的过程中，我们可以对bert的

2024-11-20 11:08:19 1244 3

原创【Bert-驯化】成功解决bert模型进行回归预测并进行预测代码流程

如果target_way = 'target’为原始训练方法，如果target_way = 'target_scaler’为优化方法。训练代码如下：1. 通过修改里面target_way变量名字用两种不同的方式进行训练。

2024-11-15 13:40:51 393 2

原创【大模型-驯化】成功解决载cuda-11.8配置下搭建swift框架

【大模型-驯化】成功解决载cuda-11.8配置下搭建swift框架本次修炼方法请往下查看当前训练大模型的框架有很多，诸如：llava-factory、swift、原始微调脚本等，各个微调方法各有优缺点，对于llava-fatory来说相对来说比较复杂，而且不怎么好用，这边从实操的角度来分析，建议大家使用swift框架来训练大模型，对于swift来说需要搭建来说如果你的cu

2024-09-27 11:02:36 741

原创【大模型-驯化】成功搞懂大模型的jsonl数据格式处理和写入，通过pandas读取和保存JSONL文件

JSONL（JSON Lines）是一种文本格式，目前大模型很多的数据格式都是jsonl和json的，通常我们使用json的文件相对较多，对于jsonl的处理，我们其中每一行都是一个独立的JSON对象。这种格式非常适合于那些需要逐行读取和写入数据的场景，比如日志文件处理。Pandas是一个强大的Python数据分析库，它提供了读取和保存JSONL文件的功能，使得处理这种格式的数据变得简单快捷。有时候，JSONL文件中的数据可能包含复杂的结构，比如嵌套的JSON对象。

2024-09-24 16:51:12 2077

原创【大模型-驯化】成功解决fused_adam.so: undefined symbol: _ZN3c107WarningC1ENS中fused_adam .. [NO] ..[OKAY]问题

大模型-驯化】成功解决fused_adam.so: undefined symbol: _ZN3c107WarningC1ENS中fused_adam … [NO] …[OKAY]问题本次修炼方法请往下查看目前大模型的训练大都是是基于deepspeed来进行多卡并行加速，大家在安装deepspeed成功后，在训练大模型是经常会遇到运行的过程中出现训练：💡 2. 问题分析

2024-09-06 16:27:18 1207

原创【大模型-驯化】成功解决deepspeed加速出现：./fused_adam/fused_adam.so: undefined symbol: _ZN3c107WarningC1ENS问题

成功解决qwen中deepspeed出现fused_adam.so问题

2024-09-03 16:26:39 1405

原创【openpyxl-驯化】一文搞懂python是如何将文本、图片写入到execl中的技巧

我们在进行图片的分类等处理过程中，经常需要将图片插入到execl中，并对其进行显示，这个时候我们需要用到openpyxl库来对其进行处理，openpyxl 是一个 Python 库，用于读写 Excel 2010 xlsx/xlsm/xltx/xltm 文件。它提供了丰富的功能，包括创建工作簿、操作工作表、添加图片等。本文将介绍如何使用 openpyxl 在 Excel 工作表中插入文本和图片。openpyxl 是一个功能强大的库，用于操作 Excel 文件。

2024-08-28 14:33:25 1172

原创【Pyspark-驯化】一文搞懂Pyspark中对json数据处理使用技巧：get_json_object

在处理存储为JSON格式的列时，我们经常需要从嵌套结构中提取特定字段。PySpark提供了get_json_object函数，它可以从JSON字符串中提取出特定的值。这个函数对于处理具有复杂JSON结构的DataFrame非常有用。get_json_object函数是PySpark中处理嵌套JSON数据的有用工具。通过本博客的代码示例，我们学习了如何使用这个函数从复杂的JSON结构中提取所需的字段。希望这篇博客能够帮助你更好地理解get_json_object的用法，并将其应用于处理JSON数据的任务中。

2024-08-12 13:41:14 795

原创【Pyspark-驯化】一文搞懂Pyspark中表连接的使用技巧

在数据处理和分析中，表连接（Join）是一种常用的操作，用于将两个或多个表中满足特定条件的数据行组合在一起。PySpark提供了多种连接函数，允许用户根据不同的键进行内连接、外连接、左连接和右连接。PySpark中的连接函数是处理和分析数据集的重要工具。通过本博客的代码示例，我们学习了如何使用不同的连接类型和条件来合并数据。希望这篇博客能够帮助你更好地理解PySpark中的连接操作，并将其应用于实际的数据处理任务中。

2024-08-12 13:35:06 1872

原创【Pyspark-驯化】一文搞懂Pyspark写入hive表的使用技巧

在大数据处理中，经常需要将数据从临时存储转换到持久化存储中。PySpark提供了丰富的API，允许用户轻松地创建Hive表，并将数据从DataFrame或临时表写入。本文将介绍如何使用PySpark创建Hive表，添加列注释，并从临时表中导入数据。本文介绍了如何使用PySpark创建Hive表，为列添加注释，并从临时表中导入数据。通过示例代码，我们展示了创建表、定义数据类型和注释、以及数据导入的完整流程。希望这篇博客能够帮助您更好地理解PySpark与Hive的集成，并应用于实际的数据存储和管理任务中。

2024-08-10 11:07:33 960

原创【Pyspark-驯化】一文搞懂Pyspark修改hive表描述以及增加列使用技巧

在Hive中管理表结构是一项常见任务，尤其是在数据仓库环境中。使用PySpark，我们可以方便地对Hive表进行操作，包括增加新列和为列添加注释。这些操作有助于优化数据模型和提高数据的可读性。通过PySpark，我们可以方便地对Hive表进行结构调整，包括增加新列和为列添加注释。这些操作有助于维护数据的组织结构和提高数据的可用性。本博客提供了如何使用PySpark执行这些操作的示例，希望能够帮助您更好地管理和优化您的Hive表结构。

2024-08-10 10:44:31 632

原创【Pyspark-驯化】一文搞懂Pyspark中过滤数据when和otherwise函数的使用技巧

在PySpark中，when和otherwise是pyspark.sql.functions模块中的函数，它们通常一起使用来实现条件数据转换。这种用法类似于传统编程语言中的if-else语句，允许用户根据条件创建新列或转换现有列的值。when和otherwise在PySpark中提供了一种灵活的条件数据转换方式，类似于编程中的if-else语句。通过本博客的代码示例，我们学习了如何使用这两个函数进行条件数据转换，包括嵌套使用和结合多个条件。

2024-08-09 15:47:02 1192

原创【Pyspark-驯化】一文搞懂Pyspark中dropDuplicates和sort的使用技巧

在处理大规模数据集时，经常需要对数据进行清洗和排序。PySpark提供了dropDuplicates和sort方法，分别用于删除重复的行和对数据进行排序。这些操作对于提高数据质量、优化查询性能和准备数据进行分析至关重要。dropDuplicates和sort是PySpark中两个非常有用的函数，它们允许用户在DataFrame中删除重复的行和对数据进行排序。通过本博客的代码示例，我们学习了如何使用这两个函数进行数据清洗和排序操作。

2024-08-09 15:38:16 976

原创【Pyspark-驯化】一文搞懂Pyspark中过滤数据filter和when函数的使用技巧

在PySpark中，when和filter是两个非常有用的函数，它们用于在DataFrame中进行条件筛选和数据转换。when通常与select和withColumn一起使用，用于根据条件创建新的列或转换数据。filter则用于根据条件筛选出满足特定条件的行。PySpark中的when和filter是两个强大的函数，它们允许用户在DataFrame中进行条件筛选和数据转换。通过本博客的代码示例，我们学习了如何使用when进行条件筛选和数据转换，以及如何使用filter进行条件筛选。

2024-08-08 13:37:43 1074 1

原创【Pyspark-驯化】一文搞懂Pyspark中对空值的处理dropna函数的使用技巧

在数据分析和机器学习中，处理缺失数据是一项常见且重要的任务。PySpark提供了dropna方法，它允许用户从DataFrame中删除包含缺失值的行或列，从而简化数据集并提高模型的性能。withColumnRenamed是PySpark中一个非常实用的功能，它允许用户轻松地重命名DataFrame中的列。通过本博客的代码示例，我们学习了如何使用withColumnRenamed进行单个列和多个列的重命名操作，以及如何将其与其他DataFrame操作结合使用。

2024-08-08 13:36:25 742

原创【Pyspark-驯化】一文搞懂Pyspark中的withColumnRenamed函数的使用技巧

在数据处理过程中，经常需要对列名进行修改以符合特定的命名规范或为了提高可读性。PySpark提供了withColumnRenamed方法，这是一种便捷的方式来重命名DataFrame中的列。withColumnRenamed是PySpark中一个非常实用的功能，它允许用户轻松地重命名DataFrame中的列。通过本博客的代码示例，我们学习了如何使用withColumnRenamed进行单个列和多个列的重命名操作，以及如何将其与其他DataFrame操作结合使用。

2024-08-07 13:20:44 1087

原创【Pyspark-驯化】一文搞懂Pyspark中Dataframe的基本操作介绍

一般目前对于pyspark进行操作，基本都是处理一些log数据，这个时候一般通过将数据转换为dataframe进行操作会比较常用，对于算法工程师来说，目前我在的公司基本数据以及被进行ETL操作了，基本是结构化的数据，不需要我们通过scala进行数据转换了，因此基本都是对dataframe的数据进行数据清洗、特征提取。PySpark的DataFrame提供了一种高效、易用的方式来处理结构化数据。

2024-08-07 13:11:29 1194

原创【Pyspark-驯化】一文搞懂Pyspark中的RDD的使用技巧

spark的运行基本由两部分组成：Transformnation(转换)和action，其中第一部分这类方法仅仅是定义逻辑，并不会立即执行，即lazy特性。目的是将一个RDD转为新的RDD。action不会产生新的RDD，而是直接运行，得到我们想要的结果RDD是PySpark中的核心数据结构，提供了丰富的操作来处理大规模数据集。通过本博客的代码示例，我们学习了如何创建RDD、执行转换和行动操作，以及使用高级功能如Pair RDD和聚合操作。

2024-08-06 14:24:34 694

原创【Pyspark-驯化】一文搞懂PYspark中读取各类数据格式技巧：parquet、hdfs、json

hdfs、hive、本地CSVJSONParquetHive表JDBC等。通常我们将数据保存为parquet格式，这样可以将数据的存放大小缩小一个量级。PySpark提供了多种方式来读取不同类型的数据源。通过SparkSession，我们可以轻松地读取CSV、JSON、Parquet等格式的数据，并进行进一步的处理和分析。希望这篇博客能够帮助你更好地理解如何在PySpark中读取数据，并将其应用于处理大规模数据集。

2024-08-06 14:22:39 1029

原创【Pyspark-驯化】一文搞定spark的代码执行原理和使用技巧

Spark Core：包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的。Spark SQL：提供通过Apache Hive的SQL变体Hive查询语言（HiveQL）与Spark进行交互的API。每个数据库表被当做一个RDD，Spark SQL查询被转换为Spark操作。

2024-08-05 14:09:50 1175

原创【搜索策略-驯化】一文彻底讲明白搜索系统中的策略算法：query解析、召回、排序

在AI的发展过程中，搜索系统应该是第一个成功运用ai的业务，随着各大公司的竞争，在搜索系统的技术这块，国内主要看百度，国外看谷歌，二者由于处理的数据的形式(中文、英文)如上图所示的用户在搜索框里面搜索的词，统称为query，对于搜索系统来说，最终给用户展示什么样的结果都需要根据query为基础，因此，query的理解和解析算是搜索系统的基石，如果query解析做的不好，整体搜索系统的结果上限不高。

2024-08-05 14:03:41 2285

原创【Hadoop-驯化】一文学会hadoop访问hdfs中常用命令使用技巧

Hadoop分布式文件系统（HDFS）是一个分布式文件系统，允许跨多个机器存储和处理大量数据。HDFS的命令行工具hdfs提供了多种命令，用于文件和目录的管理、访问权限的设置以及数据的复制和恢复等。Hadoop的HDFS命令行工具提供了丰富的功能，用于管理分布式文件系统中的文件和目录。通过本博客的代码示例，我们学习了如何使用这些命令来执行基本和高级的文件操作。希望这篇博客能够帮助你更好地理解Hadoop HDFS命令的用法，提高你在Hadoop集群中管理数据的效率。

2024-08-04 11:32:19 799

原创【Hadoop-驯化】一文教你轻松搞懂hadoop的基本原理

hadoop是一个大规模的集群处理框架，可以用来对大规模的数据进行并行处理，用来处理大规模的日志信息很方便，目前用的比较多的基本就是hdfs和MR计算框架了，Hadoop的生态架构如下所示：目前对于上述的生态组件的话，hive，hdfs，hbase以及flume和sqoop用的比较多，机器学习库mahout现在基本不用了，但是随着spark的得绝对优势，目前hadoop的使用基本都很少了，对于非大数据开发工程师来说，基本了解上层的数据挖掘、分析的使用即可，平时基本接触不到底层的原理。

2024-08-03 11:10:01 1059

原创【Plotly-驯化】一文画出漂亮的流量漏斗图：plotly.funnel函数使用技巧

流量漏斗图是一种用于展示用户在完成某个目标的过程中，各个阶段的转化率和流失率的图表。它可以帮助我们理解用户行为，并识别转化过程中的瓶颈。Plotly是一个强大的图表库，它能够创建交互式的流量漏斗图，使得数据探索更加直观和动态。流量漏斗图的核心在于计算每个阶段的用户转化率和流失率。转化率阶段的离开用户数阶段的进入用户数×100转化率=( 阶段的离开用户数/阶段的进入用户数)×100%转化率阶段的离开用户数阶段的进入用户数×100流失率100流失率=100%−转化率流失率100。

2024-08-03 11:04:57 1108

原创【Python正则-驯化】最全面干净的通过python将文本中的异常符号进行处理技巧

string = "123我123456abcdefgABCVDFF？/ ，。,.:;:''';Python的re模块为处理文本提供了强大的正则表达式功能。通过本博客的代码示例，我们学习了如何使用正则表达式进行搜索、查找、替换和分割操作。希望这篇博客能够帮助你更好地利用正则表达式来清洗和处理文本数据。

2024-08-01 15:49:54 849

原创【Python正则-驯化】一文学会通过Python中的正则表达式提取文本中的日期

在处理文本数据时，经常需要从大量非结构化数据中提取日期信息。正则表达式提供了一种强大的文本匹配工具，可以用来识别和提取符合特定格式的日期字符串，例如 MM/DD/YYYY。\b：单词边界，确保我们匹配的是独立的日期字符串。(0[1-9]|1[0-2])：匹配月份，可以是 01 到 09 或 10 到 12。/：字面意义上的斜杠。(0[1-9]|[12][0-9]|3[01])：匹配日期，可以是 01 到 09，10 到 29，或者 30 和 31。/：字面意义上的斜杠。

2024-08-01 13:20:31 503

原创【Python正则-驯化】一文学会通过Python中的正则表达式提取文本中的网址

在数据验证和文本处理中，经常需要验证输入的网址是否符合标准格式。正则表达式是一种强大的工具，用于匹配字符串中的特定模式。本博客将介绍一个用于验证网址的正则表达式，并展示如何在Python中使用它。协议+域名+后缀模版^(((http|https|ftp):\/\/)?\-]*))*$的构成如下：^：匹配字符串的开始。：匹配协议(http, https, ftp)，可能跟一个://，出现0次或1次。([[a-zA-Z0-9]\-\.])+：匹配域名部分，允许字母、数字、短划线和点。

2024-07-31 13:24:45 885

原创【Python正则-驯化】一文学会通过Python中的正则表达式提取文本数据中的电话号码：re

正则表达式是处理字符串匹配的强大工具，在Python中，我们使用re模块来实现。电话号码和电话代码的匹配是常见的应用场景之一。本文将介绍如何使用正则表达式来匹配电话号码和电话代码。正则表达式^+?^：匹配字符串的开始。：匹配加号字符，出现0次或1次。[\d\s]：匹配数字或空格。{3,}：前面的模式至少出现3次。$：匹配字符串的结束。正则表达式^+?[\d\s]+(?=\d{10,}$)用于匹配电话代码，解释如下：^+?：匹配加号字符，出现0次或1次。

2024-07-31 13:22:48 905

原创【flash attention安装】成功解决flash attention安装: undefined symbol: _ZN2at4_ops9_pad_enum4callERKNS_6Tensor

在进行大模型训练时，我们通过为了解决内存采用策略来优化模型的性能，具体flash attention策略的原理可以自行去看论文，在实际的安装过程中坑太多了，最为经典的坑就是安装成功但是报各种各样的问题，最为经典的模型为目前最为火的模型为intervl看晚上很多的人说需要降低版本，因此，最后将版本降到2.1.0版本，至于高版本可不可以这个具体得看了，反正我调通了就没去试了。在暗疮flash-attn中常见。

2024-07-30 20:02:38 5438

原创【Plotly-驯化】一文教您画出Plotly中动态可视化饼图：pie技巧

饼图是一种用于展示数据占比的图表，通过将圆分成多个扇形，每个扇形的角度和面积表示数据的比例。Plotly是一个流行的图表库，它能够创建交互式的饼图，允许用户探索数据的分布。饼图的每个扇形由中心角决定，中心角的大小与数据值成比例。σvn∗360σnv∗360Plotly的饼图为展示数据占比提供了一种直观且交互性强的方式。通过本博客的代码示例，我们学习了如何使用Plotly绘制饼图，并定制图表的样式和布局。希望这篇博客能够帮助你更好地利用饼图进行数据可视化，使你的数据展示更加生动和有趣。

2024-07-30 11:06:55 1007

原创【正则表达式-驯化】Python中网页提取神器使用正则表达式以及基础语法介绍

正则表达式（Regular Expression，简称Regex）是一种用于匹配字符串中字符组合的模式。在Python中，正则表达式通过re模块提供，它是一个用于处理字符串的强大工具，可以用于搜索、替换、分割和验证文本格式等任务。元字符描述匹配行的开始匹配行的结束匹配除换行符以外的任意字符。[ ]字符类，匹配方括号中包含的任意字符，[amk] 匹配 ‘a’，‘m’或’k’[^ ]不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。匹配前面的子表达式零次或多次。

2024-07-30 11:01:05 970

原创【Git-驯化】一文学会git中对代码进行存储操作：git stash技巧

在Git中，stash是一个用于临时存储当前工作目录中的更改，让工作区回到干净状态的功能。当你需要切换到另一个分支或者开始新的工作，但又不想立即提交当前的更改时，stash就显得非常有用。将工作目录（包括已跟踪和未跟踪文件）的更改保存到一个栈上。清空工作目录，撤销所有未提交的更改。git stash是Git中一个非常实用的功能，它允许你临时存储工作目录中的更改，以便快速切换到其他分支或开始新的工作。通过本博客的代码示例，我们学习了如何使用stash来存储、列出、应用和删除更改。

2024-07-29 14:18:39 882

python中画图工具seaborn、plotly总结

该文档针对想要通过python进行可视化的学生、数据分析工程师的画图工具进行全是总结，具体的内容包括如下所示： 1. 对python中多个画图工具进行全面的对比分析 2. 对seaborn中各种类型的画图方法进行对比和使用技巧以及案例的代码教程 3. 对目前最美的画图工具plotly的使用方法以及环境的搭建进行系统全面的解析 4. 对整体画图代码进行结构化的教学撰写整体的文档内容如下所示： 4、总结Maplotlib工具1. 基本介绍2. 画图流程3. 高阶用法Pandas画图1、基本介绍 2、画图实践 3、高阶用法Seaborn介绍 1、基本介绍 2、使用方法2.1 环境安装绘制基本图表2.2 主题设置 3、注意事项4、总结Seabron-箱线图boxplot1. 基本介绍 2. 原理介绍3. 画图实践3.1 数据准备3.2 单维画图3.3 分组画图4 高阶用法注意事项总结Seabron-violinplot小提琴图1. 基本介绍原理介绍 3. 画图实践3.1 数

2024-07-27

TA关注的人

python中画图工具seaborn、plotly总结

机器学习-sklearn-项目学习大全

pandas使用工作技能总结

pandas数据骚操作总结

python处理pandas读取文件名有中文报错问题解决方法

windows10下已经编译好了的LightGBM安装包

现在就职了，分享去年各大互联网公司的机器学习与数据挖掘面积以及总结，望各位都能找个好工作。

qt正常的啊，代码也是正常的啊