自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

原创 n-gram学习

定义:n-gram 将文本切分为连续的 n 个词或字符的序列,n 可以是任意正整数。例如,当 n=2 时,称为 bigram,表示两个连续的词或字符;当 n=3 时,称为 trigram,依此类推。计算方式:对于给定的文本,n-gram 模型通过统计 n-gram 序列的出现频率来估计概率。

2025-03-17 14:34:23 433

原创 多模态文档检索

多模态文档检索是一种先进的检索技术,它整合了文本、图像、音频、视频等多种模态的数据,通过不同模态数据的互补性,为用户提供全面且精确的检索结果。

2025-03-13 13:44:18 236

原创 构建 FAISS 向量数据库

通过以上步骤,你可以使用 OpenAI 的模型和 FAISS 库构建一个高效的向量数据库。这个数据库可以用于多种自然语言处理任务,如语义搜索、文档检索等。你可以根据具体需求调整代码中的参数和功能。

2025-03-13 13:41:50 177

原创 什么是 Token

Token是计算机科学和自然语言处理中一个非常重要的概念,它表示文本的基本单位或编程语言中的一个标识符。在不同的上下文中,Token 的含义和用途有所不同,但它们都具有一个共同点:将复杂的信息分解为更小、更易处理的单元。Token 是一种将复杂信息分解为更小、更易处理单元的方式,在自然语言处理、编程语言、数据传输、区块链和 OpenAI API 等多个领域都有广泛的应用。理解 Token 的概念对于深入学习和使用这些技术至关重要。

2025-03-13 13:36:58 427

原创 使用 OpenAI 的 text-embedding-3-large 模型生成文档向量

模型在处理长文档和多语言任务时表现出色,适用于多种自然语言处理任务。通过指定维度参数,可以在性能和成本之间进行权衡,灵活应用于不同的场景。

2025-03-13 13:35:11 450

原创 使用 LangChain TextSplitter 的两种不同文本处理方式,直接切分文本和直接编码每个 JSON 的 item(包含完整的问答对)

数据类型直接切分文本:适用于长篇连续文本,如文章、报告等。直接编码 JSON item:适用于结构化的问答对数据,每个 JSON item 包含一个完整的问答对。处理逻辑直接切分文本:需要对文本进行分段,保持上下文连贯性。直接编码 JSON item:直接将问答对转换为 Document 对象,不需要分段。适用场景直接切分文本:适用于需要从长文本中提取信息的场景。直接编码 JSON item:适用于问答系统中直接使用结构化问答对的场景。根据你的具体需求和数据类型,可以选择合适的实现方式。

2025-03-13 13:24:28 291

原创 使用 LangChain 的 TextSplitter 进行重叠分段以保持上下文连贯性

使用 LangChain 的递归字符文本分割器。

2025-03-13 13:09:08 380

原创 实现去除特殊字符和统一格式的数据清洗步骤。

通过上述步骤,可以有效地去除金融数据中的特殊字符并统一数据格式。这些清洗操作有助于提高数据的质量,使其更适合于后续的分析和建模。在实际应用中,可以根据具体的数据特点和需求,灵活调整清洗策略和参数。

2025-03-13 12:53:39 185

原创 import argparse

是导入 Python 的argparse模块的语句。argparse是一个用于解析命令行参数的标准库模块,它允许开发者定义和处理命令行参数,使脚本可以接受用户输入的参数来控制程序的行为。

2025-03-12 15:41:14 286

原创 from matplotlib.transforms import Affine2D

是导入 Matplotlib 库中Affine2D类的语句。Affine2D用于表示二维仿射变换,可以对图形元素进行平移、旋转、缩放和剪切等操作。仿射变换是一种线性变换,能够将图形从一个坐标系变换到另一个坐标系,同时保持平行性和比例关系。

2025-03-12 15:37:43 315

原创 from matplotlib.spines import Spine

创建一个图形和坐标轴# 获取边框# 设置边框样式left_spine.set_color('blue') # 设置左边框颜色为蓝色left_spine.set_linewidth(2) # 设置左边框线宽为2bottom_spine.set_color('green') # 设置底边框颜色为绿色bottom_spine.set_linewidth(2) # 设置底边框线宽为2right_spine.set_color('red') # 设置右边框颜色为红色。

2025-03-12 15:33:09 242

原创 from matplotlib.projections import register_projection

需要定义一个继承自的类,并实现投影所需的方法和属性。在创建子图时,通过projection参数指定自定义投影的名称。

2025-03-12 15:29:23 137

原创 from matplotlib.path import Path

是导入 Matplotlib 库中Path类的语句。Path类用于定义任意形状的路径,可以用于创建复杂的图形元素,如多边形、贝塞尔曲线等。它在 Matplotlib 中主要用于路径操作和图形绘制。

2025-03-12 15:26:40 395

原创 from matplotlib.patches import Circle, RegularPolygon

是导入 Matplotlib 库中patches模块的Circle和类的语句。patches模块提供了多种图形元素,可以用于在 Matplotlib 图形中添加形状,如圆形、多边形等。

2025-03-12 15:23:37 168

原创 import matplotlib.gridspec as gridspec

是导入 Matplotlib 库中的 模块的语句。 模块用于创建复杂的网格布局,以便在单个图形中排列多个子图。它提供了更灵活的布局控制,相比直接使用 ,可以更方便地创建不规则的子图布局。2. 调整子图大小3. 合并单元格实际应用 在需要创建复杂布局的图形时非常有用,例如:通过使用 ,可以灵活地定义子图的布局和大小,使图形更加美观和实用。

2025-03-12 15:21:45 205

原创 import seaborn as sns

是导入 Seaborn 库的 Python 语句。Seaborn 是一个基于 Matplotlib 的高级数据可视化库,主要用于绘制统计图表。它提供了更简洁的接口和更美观的默认样式,适合进行数据分析和可视化。

2025-03-12 15:17:37 136

原创 Numpy类型转换为JSON的方法

定义一个自定义的 JSON 编码器,处理 NumPy 类型的转换。"""处理numpy类型的JSON编码器"""# 示例数据,包含 NumPy 类型data = {# 使用自定义编码器进行序列化# 输出:{"integer": 42, "float": 3.14, "array": [1, 2, 3]}直接序列化:NumPy 类型不能直接序列化为 JSON。解决方法:使用自定义的 JSON 编码器或递归转换函数,将 NumPy 类型转换为标准 Python 类型后再进行序列化。适用场景。

2025-03-12 09:25:00 247

原创 用 Python 实现的、具有指数退避(exponential backoff)策略的重试装饰器

str.2f。

2025-03-11 23:00:11 290

原创 from langchain.chat_models import ChatOpenAI

以下是使用langchain中的ChatOpenAI。

2025-03-11 21:45:31 699

原创 Python tenacity 库的重试机制

tenacity是一个功能强大且灵活的 Python 库,用于实现重试逻辑。

2025-03-11 21:37:04 268

原创 import functools

functools模块提供了许多实用的工具,可以简化代码、提高性能和可读性。常见的用法包括缓存函数结果、创建装饰器、绑定函数参数和简化排序等。通过合理使用这些工具,可以编写更高效、更优雅的 Python 代码。

2025-03-10 18:08:12 299

原创 import warnings

是 Python 中用于处理警告信息的模块。在编写代码时,有时会遇到一些情况,虽然不会导致程序直接报错,但可能会引发潜在的问题,比如使用了过时的函数、可能的类型错误等。warnings模块允许开发者捕获和过滤这些警告信息,以便更好地控制程序的行为。

2025-03-10 16:13:17 184

原创 import jieba

jieba支持自定义词典,可以添加特定领域的词汇以提高分词的准确性。# 添加自定义词汇jieba.add_word("自然语言处理")text = "我爱自然语言处理"print(words) # 输出: ['我', '爱', '自然语言处理']jieba是一个功能强大的中文分词库,支持多种分词模式和高级功能,如自定义词典、词性标注和关键词提取。通过使用jieba,可以高效地处理中文文本,为自然语言处理任务提供基础支持。

2025-03-10 15:59:38 246

原创 import sacrebleu

sacrebleu是一个用于计算 BLEU(Bilingual Evaluation Understudy)分数的 Python 库。BLEU 是一种常用的机器翻译评估指标,用于衡量生成的翻译文本与参考翻译文本之间的相似度。sacrebleu提供了简单易用的接口,可以方便地计算 BLEU 分数。

2025-03-10 15:39:54 166

原创 ROUGE的主要类型与计算方式

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一种用于评估生成文本与参考文本相似度的指标,常用于文本摘要、机器翻译等自然语言处理任务中。它通过计算生成文本和参考文本中重叠的 n-gram(如单字词、双字词等)来衡量相似度。

2025-03-10 15:35:30 229

原创 from rouge_score import rouge_scorer

是库中的一个模块,用于计算文本生成任务中的 ROUGE 分数。ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一种用于评估生成文本与参考文本相似度的指标,常用于文本摘要、机器翻译等自然语言处理任务中。

2025-03-10 14:44:58 262

原创 from sklearn.metrics.pairwise import cosine_similarity

是库中模块提供的一个函数,用于计算两个向量之间的余弦相似度。余弦相似度是通过测量两个向量在多维空间中的夹角来评估它们的相似性,值范围在 [-1, 1] 之间,其中 1 表示完全相同,-1 表示完全相反,0 表示不相关。以下是。

2025-03-10 14:26:05 323

原创 all-MiniLM-L6-v2

all-MiniLM-L6-v2 是一个高效、轻量且多功能的句子嵌入模型,特别适合在资源受限的环境中使用。它在多种 NLP 任务中表现出色,是一个值得考虑的模型选择。

2025-03-10 14:22:08 444

原创 sentence_transformers的作用

可以使用 Hugging Face 的 Transformers 库来加载自定义模型,并将其转换为格式。# 加载 Hugging Face 模型# 添加池化层# 创建 SentenceTransformer 模型是一个功能强大的库,可以轻松地将文本转换为嵌入向量,并应用于各种NLP任务。通过选择合适的预训练模型和调整参数,可以满足不同场景下的需求。

2025-03-10 13:20:36 284

原创 from concurrent.futures import ThreadPoolExecutor, as_completed

和是 Python 标准库模块中的两个重要组件,用于实现多线程并发编程。

2025-03-10 13:11:09 412

原创 热力图笔记

热力图是一种数据可视化技术,通过色彩映射展示数据的密度或值大小,常用于显示区域内数据的相对密集程度或分布情况。

2025-03-09 16:06:48 402

原创 柱状图笔记

借助Echarts等库实现柱状图动态交互,如悬停显示详细数据、点击筛选等,提升用户体验。:在实际项目中,柱状图可用于展示用户行为数据,如不同页面的访问量,为产品优化提供依据。:合理选择颜色区分不同类别或数据系列,增强可读性。:除基本柱状图和堆叠柱状图外,还可探索分组柱状图等,满足多维度数据分析需求。:绘制柱状图前,确保数据准确完整,进行清洗处理缺失值和异常值。:确保柱状图在不同设备和屏幕尺寸上良好显示,进行响应式设计。:添加图例,解释各颜色或图案代表的数据系列。:清晰标注坐标轴,说明数据含义和单位。

2025-03-09 15:48:29 899

原创 雷达图笔记

雷达图(Radar Chart):也被称为蛛网图(Spider Chart)或极坐标图,是一种用于展示多个维度的数据分布的图表。特点:在一个圆形的坐标系上,通过多个半径相连的数据点来表示不同的数据维度,形成类似蜘蛛网的图形。每个维度对应一个角度,半径的长度表示该维度的数值。

2025-03-09 14:56:18 396

原创 FAISS与普通数据库的区别与优势

FAISS的优势高性能检索:在处理高维向量的相似性检索时,FAISS能够提供极高的检索速度,尤其在GPU环境下表现更优。灵活性强:支持多种索引类型和配置,用户可以根据具体需求选择合适的索引结构和参数。社区支持丰富:作为开源项目,拥有活跃的社区和丰富的文档资源,用户可以获得及时的技术支持和更新。普通数据库的优势数据持久化与事务管理:具备强大的数据持久化功能,支持事务的ACID特性,确保数据的完整性和可靠性。广泛的应用支持:适用于各种传统的数据管理和查询场景,具有成熟的生态系统和工具链。**

2025-03-09 12:01:16 404

原创 pands的功能

以上是一些 pandas 的基本使用方法,你可以根据具体的数据分析需求进行更深入的学习和应用。如果你有具体的数据处理任务,可以告诉我,我可以为你提供更详细的代码示例!

2025-03-09 10:35:12 210

原创 from langchain.schema import Document

Document是 LangChain 中的一个核心数据结构,用于表示文本内容以及相关的元数据。它通常用于文档加载、处理和检索等场景。以下是Document。

2025-03-08 22:16:23 204

原创 from langchain.prompts import PromptTemplate

你可以使用定义一个包含变量占位符的提示模板。这些占位符将在运行时被实际值替换。from langchain . prompts import PromptTemplate # 定义提示模板 template = """你是一个聪明的助手,现在需要回答用户的问题。用户的问题是:{question}。请根据以下上下文回答问题:{context}回答:""" prompt = PromptTemplate . from_template(template)

2025-03-08 22:02:25 203

原创 LangChain 中的 BM25Retriever 和 EnsembleRetriever

是 LangChain 中基于传统信息检索算法 BM25 的检索器。BM25 算法利用文档中的关键词、词频和逆文档频率(IDF)等统计信息,来衡量查询和文档之间的匹配程度。它在捕捉精确词汇匹配方面表现很好,适合那些查询中包含明确关键词的场景。是 LangChain 中用于结合多个检索器结果的集成检索器。它通过使用权重和运行时配置来定制性能,通常用于结合稀疏检索器(如 BM25)和密集检索器(如嵌入相似度)的结果。可以利用传统关键词匹配和语义匹配的优势,互补不足,从而得到更全面、更准确的检索结果。

2025-03-08 21:57:36 680

原创 from langchain.chains import RetrievalQA的作用

{context}Answer:"""# 使用自定义提示模板初始化链llm=llm,

2025-03-08 21:35:02 174

原创 Python中的进度条功能使用

这些库都可以在Python控制台应用程序中实现进度条功能,提升用户体验。

2025-03-08 20:56:27 252

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除