- 博客(47)
- 收藏
- 关注
原创 n-gram学习
定义:n-gram 将文本切分为连续的 n 个词或字符的序列,n 可以是任意正整数。例如,当 n=2 时,称为 bigram,表示两个连续的词或字符;当 n=3 时,称为 trigram,依此类推。计算方式:对于给定的文本,n-gram 模型通过统计 n-gram 序列的出现频率来估计概率。
2025-03-17 14:34:23
433
原创 多模态文档检索
多模态文档检索是一种先进的检索技术,它整合了文本、图像、音频、视频等多种模态的数据,通过不同模态数据的互补性,为用户提供全面且精确的检索结果。
2025-03-13 13:44:18
236
原创 构建 FAISS 向量数据库
通过以上步骤,你可以使用 OpenAI 的模型和 FAISS 库构建一个高效的向量数据库。这个数据库可以用于多种自然语言处理任务,如语义搜索、文档检索等。你可以根据具体需求调整代码中的参数和功能。
2025-03-13 13:41:50
177
原创 什么是 Token
Token是计算机科学和自然语言处理中一个非常重要的概念,它表示文本的基本单位或编程语言中的一个标识符。在不同的上下文中,Token 的含义和用途有所不同,但它们都具有一个共同点:将复杂的信息分解为更小、更易处理的单元。Token 是一种将复杂信息分解为更小、更易处理单元的方式,在自然语言处理、编程语言、数据传输、区块链和 OpenAI API 等多个领域都有广泛的应用。理解 Token 的概念对于深入学习和使用这些技术至关重要。
2025-03-13 13:36:58
427
原创 使用 OpenAI 的 text-embedding-3-large 模型生成文档向量
模型在处理长文档和多语言任务时表现出色,适用于多种自然语言处理任务。通过指定维度参数,可以在性能和成本之间进行权衡,灵活应用于不同的场景。
2025-03-13 13:35:11
450
原创 使用 LangChain TextSplitter 的两种不同文本处理方式,直接切分文本和直接编码每个 JSON 的 item(包含完整的问答对)
数据类型直接切分文本:适用于长篇连续文本,如文章、报告等。直接编码 JSON item:适用于结构化的问答对数据,每个 JSON item 包含一个完整的问答对。处理逻辑直接切分文本:需要对文本进行分段,保持上下文连贯性。直接编码 JSON item:直接将问答对转换为 Document 对象,不需要分段。适用场景直接切分文本:适用于需要从长文本中提取信息的场景。直接编码 JSON item:适用于问答系统中直接使用结构化问答对的场景。根据你的具体需求和数据类型,可以选择合适的实现方式。
2025-03-13 13:24:28
291
原创 实现去除特殊字符和统一格式的数据清洗步骤。
通过上述步骤,可以有效地去除金融数据中的特殊字符并统一数据格式。这些清洗操作有助于提高数据的质量,使其更适合于后续的分析和建模。在实际应用中,可以根据具体的数据特点和需求,灵活调整清洗策略和参数。
2025-03-13 12:53:39
185
原创 import argparse
是导入 Python 的argparse模块的语句。argparse是一个用于解析命令行参数的标准库模块,它允许开发者定义和处理命令行参数,使脚本可以接受用户输入的参数来控制程序的行为。
2025-03-12 15:41:14
286
原创 from matplotlib.transforms import Affine2D
是导入 Matplotlib 库中Affine2D类的语句。Affine2D用于表示二维仿射变换,可以对图形元素进行平移、旋转、缩放和剪切等操作。仿射变换是一种线性变换,能够将图形从一个坐标系变换到另一个坐标系,同时保持平行性和比例关系。
2025-03-12 15:37:43
315
原创 from matplotlib.spines import Spine
创建一个图形和坐标轴# 获取边框# 设置边框样式left_spine.set_color('blue') # 设置左边框颜色为蓝色left_spine.set_linewidth(2) # 设置左边框线宽为2bottom_spine.set_color('green') # 设置底边框颜色为绿色bottom_spine.set_linewidth(2) # 设置底边框线宽为2right_spine.set_color('red') # 设置右边框颜色为红色。
2025-03-12 15:33:09
242
原创 from matplotlib.projections import register_projection
需要定义一个继承自的类,并实现投影所需的方法和属性。在创建子图时,通过projection参数指定自定义投影的名称。
2025-03-12 15:29:23
137
原创 from matplotlib.path import Path
是导入 Matplotlib 库中Path类的语句。Path类用于定义任意形状的路径,可以用于创建复杂的图形元素,如多边形、贝塞尔曲线等。它在 Matplotlib 中主要用于路径操作和图形绘制。
2025-03-12 15:26:40
395
原创 from matplotlib.patches import Circle, RegularPolygon
是导入 Matplotlib 库中patches模块的Circle和类的语句。patches模块提供了多种图形元素,可以用于在 Matplotlib 图形中添加形状,如圆形、多边形等。
2025-03-12 15:23:37
168
原创 import matplotlib.gridspec as gridspec
是导入 Matplotlib 库中的 模块的语句。 模块用于创建复杂的网格布局,以便在单个图形中排列多个子图。它提供了更灵活的布局控制,相比直接使用 ,可以更方便地创建不规则的子图布局。2. 调整子图大小3. 合并单元格实际应用 在需要创建复杂布局的图形时非常有用,例如:通过使用 ,可以灵活地定义子图的布局和大小,使图形更加美观和实用。
2025-03-12 15:21:45
205
原创 import seaborn as sns
是导入 Seaborn 库的 Python 语句。Seaborn 是一个基于 Matplotlib 的高级数据可视化库,主要用于绘制统计图表。它提供了更简洁的接口和更美观的默认样式,适合进行数据分析和可视化。
2025-03-12 15:17:37
136
原创 Numpy类型转换为JSON的方法
定义一个自定义的 JSON 编码器,处理 NumPy 类型的转换。"""处理numpy类型的JSON编码器"""# 示例数据,包含 NumPy 类型data = {# 使用自定义编码器进行序列化# 输出:{"integer": 42, "float": 3.14, "array": [1, 2, 3]}直接序列化:NumPy 类型不能直接序列化为 JSON。解决方法:使用自定义的 JSON 编码器或递归转换函数,将 NumPy 类型转换为标准 Python 类型后再进行序列化。适用场景。
2025-03-12 09:25:00
247
原创 import functools
functools模块提供了许多实用的工具,可以简化代码、提高性能和可读性。常见的用法包括缓存函数结果、创建装饰器、绑定函数参数和简化排序等。通过合理使用这些工具,可以编写更高效、更优雅的 Python 代码。
2025-03-10 18:08:12
299
原创 import warnings
是 Python 中用于处理警告信息的模块。在编写代码时,有时会遇到一些情况,虽然不会导致程序直接报错,但可能会引发潜在的问题,比如使用了过时的函数、可能的类型错误等。warnings模块允许开发者捕获和过滤这些警告信息,以便更好地控制程序的行为。
2025-03-10 16:13:17
184
原创 import jieba
jieba支持自定义词典,可以添加特定领域的词汇以提高分词的准确性。# 添加自定义词汇jieba.add_word("自然语言处理")text = "我爱自然语言处理"print(words) # 输出: ['我', '爱', '自然语言处理']jieba是一个功能强大的中文分词库,支持多种分词模式和高级功能,如自定义词典、词性标注和关键词提取。通过使用jieba,可以高效地处理中文文本,为自然语言处理任务提供基础支持。
2025-03-10 15:59:38
246
原创 import sacrebleu
sacrebleu是一个用于计算 BLEU(Bilingual Evaluation Understudy)分数的 Python 库。BLEU 是一种常用的机器翻译评估指标,用于衡量生成的翻译文本与参考翻译文本之间的相似度。sacrebleu提供了简单易用的接口,可以方便地计算 BLEU 分数。
2025-03-10 15:39:54
166
原创 ROUGE的主要类型与计算方式
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一种用于评估生成文本与参考文本相似度的指标,常用于文本摘要、机器翻译等自然语言处理任务中。它通过计算生成文本和参考文本中重叠的 n-gram(如单字词、双字词等)来衡量相似度。
2025-03-10 15:35:30
229
原创 from rouge_score import rouge_scorer
是库中的一个模块,用于计算文本生成任务中的 ROUGE 分数。ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一种用于评估生成文本与参考文本相似度的指标,常用于文本摘要、机器翻译等自然语言处理任务中。
2025-03-10 14:44:58
262
原创 from sklearn.metrics.pairwise import cosine_similarity
是库中模块提供的一个函数,用于计算两个向量之间的余弦相似度。余弦相似度是通过测量两个向量在多维空间中的夹角来评估它们的相似性,值范围在 [-1, 1] 之间,其中 1 表示完全相同,-1 表示完全相反,0 表示不相关。以下是。
2025-03-10 14:26:05
323
原创 all-MiniLM-L6-v2
all-MiniLM-L6-v2 是一个高效、轻量且多功能的句子嵌入模型,特别适合在资源受限的环境中使用。它在多种 NLP 任务中表现出色,是一个值得考虑的模型选择。
2025-03-10 14:22:08
444
原创 sentence_transformers的作用
可以使用 Hugging Face 的 Transformers 库来加载自定义模型,并将其转换为格式。# 加载 Hugging Face 模型# 添加池化层# 创建 SentenceTransformer 模型是一个功能强大的库,可以轻松地将文本转换为嵌入向量,并应用于各种NLP任务。通过选择合适的预训练模型和调整参数,可以满足不同场景下的需求。
2025-03-10 13:20:36
284
原创 from concurrent.futures import ThreadPoolExecutor, as_completed
和是 Python 标准库模块中的两个重要组件,用于实现多线程并发编程。
2025-03-10 13:11:09
412
原创 柱状图笔记
借助Echarts等库实现柱状图动态交互,如悬停显示详细数据、点击筛选等,提升用户体验。:在实际项目中,柱状图可用于展示用户行为数据,如不同页面的访问量,为产品优化提供依据。:合理选择颜色区分不同类别或数据系列,增强可读性。:除基本柱状图和堆叠柱状图外,还可探索分组柱状图等,满足多维度数据分析需求。:绘制柱状图前,确保数据准确完整,进行清洗处理缺失值和异常值。:确保柱状图在不同设备和屏幕尺寸上良好显示,进行响应式设计。:添加图例,解释各颜色或图案代表的数据系列。:清晰标注坐标轴,说明数据含义和单位。
2025-03-09 15:48:29
899
原创 雷达图笔记
雷达图(Radar Chart):也被称为蛛网图(Spider Chart)或极坐标图,是一种用于展示多个维度的数据分布的图表。特点:在一个圆形的坐标系上,通过多个半径相连的数据点来表示不同的数据维度,形成类似蜘蛛网的图形。每个维度对应一个角度,半径的长度表示该维度的数值。
2025-03-09 14:56:18
396
原创 FAISS与普通数据库的区别与优势
FAISS的优势高性能检索:在处理高维向量的相似性检索时,FAISS能够提供极高的检索速度,尤其在GPU环境下表现更优。灵活性强:支持多种索引类型和配置,用户可以根据具体需求选择合适的索引结构和参数。社区支持丰富:作为开源项目,拥有活跃的社区和丰富的文档资源,用户可以获得及时的技术支持和更新。普通数据库的优势数据持久化与事务管理:具备强大的数据持久化功能,支持事务的ACID特性,确保数据的完整性和可靠性。广泛的应用支持:适用于各种传统的数据管理和查询场景,具有成熟的生态系统和工具链。**
2025-03-09 12:01:16
404
原创 pands的功能
以上是一些 pandas 的基本使用方法,你可以根据具体的数据分析需求进行更深入的学习和应用。如果你有具体的数据处理任务,可以告诉我,我可以为你提供更详细的代码示例!
2025-03-09 10:35:12
210
原创 from langchain.schema import Document
Document是 LangChain 中的一个核心数据结构,用于表示文本内容以及相关的元数据。它通常用于文档加载、处理和检索等场景。以下是Document。
2025-03-08 22:16:23
204
原创 from langchain.prompts import PromptTemplate
你可以使用定义一个包含变量占位符的提示模板。这些占位符将在运行时被实际值替换。from langchain . prompts import PromptTemplate # 定义提示模板 template = """你是一个聪明的助手,现在需要回答用户的问题。用户的问题是:{question}。请根据以下上下文回答问题:{context}回答:""" prompt = PromptTemplate . from_template(template)
2025-03-08 22:02:25
203
原创 LangChain 中的 BM25Retriever 和 EnsembleRetriever
是 LangChain 中基于传统信息检索算法 BM25 的检索器。BM25 算法利用文档中的关键词、词频和逆文档频率(IDF)等统计信息,来衡量查询和文档之间的匹配程度。它在捕捉精确词汇匹配方面表现很好,适合那些查询中包含明确关键词的场景。是 LangChain 中用于结合多个检索器结果的集成检索器。它通过使用权重和运行时配置来定制性能,通常用于结合稀疏检索器(如 BM25)和密集检索器(如嵌入相似度)的结果。可以利用传统关键词匹配和语义匹配的优势,互补不足,从而得到更全面、更准确的检索结果。
2025-03-08 21:57:36
680
原创 from langchain.chains import RetrievalQA的作用
{context}Answer:"""# 使用自定义提示模板初始化链llm=llm,
2025-03-08 21:35:02
174
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人