SeeYa-J-优快云博客

原创 Langchain+chain+数据库操作

chain或agents实现。Agents可以多次循环查询。思路：用户问题—转换—SQL查询——执行SQL——回答问题。

2025-04-18 15:34:18 847

原创 Langchain构建RAG对话应用

本文：关注检索器与上下文的子链、父链；即检索器也需要上下文内容。RAG是一种增强LLM知识的方法，通过引入额外的数据来实现。加载—》分割—》存储—》检索—》生成。

2025-04-18 14:41:39 348

原创 Langchain构建Agent

语言模型只能输出文本，无法执行操作。Agent是使用LLM作为推理引擎来确定要执行的操作以及这些操作的输入应该是什么。然后根据结果，Agent进行执行。创建Agent的API。

2025-04-17 22:26:13 460

原创 Langchain-构建向量数据库和检索器

向量数据库安装文档》向量存储》向量数据库。和相同。

2025-04-17 21:56:57 320

原创 Langchain-简单Demo

下面就简单调用gpt-4."""# 输出示例AIMessage(', # 翻译后的意大利语文本'token_usage': {#API 调用消耗的token统计},'model_name': 'gpt-4-turbo',#模型版本'system_fingerprint': 'fp_xxxxxx' #模型部署指纹，用于追踪模型版本。},id='run-xxxxxx' #本次调用唯一ID"""

2025-04-17 19:58:03 420

原创 0417 Langchain

Langchain就是，帮助大模型和外部计算、数据结合起来。登录并获取LangSmish（监控）的API key：根据。

2025-04-17 19:17:54 242

原创 0416 提示词工程实践

：大语言模型（LLM）的“幻觉现象”是指模型生成的内容看似合理，但实际上包含。

2025-04-17 09:53:23 820

LangChain对所有LLM进行了API抽象，统一了大模型访问API，同时提供了Prompt提示模板管理机制LangChain对常见的场景封装了一些现成的模块，例如：基于上下文信息的问答系统，自然语言生成SQL查询等等，因为实现这些任务的过程，就像链式调用。LangChain新版本的核心特性，用于解决工作流编排问题，通过LCEL表达式，可以灵活定义AI任务处理流程链。数据增强生成（RAG）rua各。

2025-04-16 20:14:24 582

原创 0415 检索式对话机器人

Q：Question；A：AnswerFaiss（）是由Meta（原Facebook）AI团队开发的一个开源库，专门用于高效相似性搜索和稠密向量聚类。它针对高维向量数据进行了高度优化，能够快速在大规模数据集中找到与目标向量最相似的Top-K结果，广泛应用于推荐系统、自然语言处理、图像检索等领域。## 此处用CPU版本就够。还有gpu版本。

2025-04-15 10:55:01 630

原创 0414 生成式对话机器人

因果语言模型、自回归模型：仅包含Decoder 解码器，单向注意力，根据上文预测下文。##回顾，BERT（文本分类）是自编码模型，仅包含Encoder，拥有双向注意力机制，即计算每个词的特征都能看到完整上下文（token）

2025-04-14 22:21:25 818

原创 0415 命名实体识别

B 表示实体开始，E表示实体结束，m/I表示实体中间Sen 输入文本；Gold 标签；Predict 预测标记下面 b- ~~ e- 算一个实体；计算准确度时，统计实体个数安装seqeval，及需要Microsoft Visual C++编译的解决加载tokenizer，并分词处理——》## 记住修改 num_labels

2025-04-14 21:23:58 350

原创 0414 基于Transformers的NLP

# BS=BatchSize 、 GA=梯度累加。## BS=1,GA=32 同等 BS=32。

2025-04-14 14:50:16 141

原创 0414 Trainer

Trainer库是transformer库中提供训练的函数，内部封装了完整的训练、评估逻辑；并集成了多种的后端，如DeepSpeed、pytorch FSDP等。搭配TrainingArguments对训练过程中的各项参数进行配置，可以非常方便快捷地启动模型单机/分布式训练。注意：Trainer进行模型训练对模型的输入输出有限制，要求模型返回元组或ModelOutput的子类；如果输入中提供了labels，模型要能返回loss结果，如果是元组，要求loss为元组中第一个值。

2025-04-14 14:08:11 245

原创 0413 Evaluate

机器学习模型评估函数库函数库地址：https://huggingface.co/evaluate-metric文档地址：https://huggingface.co/docs/evaluate/index。

2025-04-13 22:27:08 228

原创 0413 DataCollator模型微调

用的和0412BERT文本分类实例是同一个。0412用的是Pandas读取；本处用Datasets。0412的Dataload的collate_fn是自定义的；本处使用DataCollatorWithPadding这里主要是，对Datasets一个使用，及DataCollatorWithPadding。这里就是官方提供了个Collator，并不适用与复杂数据！要求输入的Dataset字段=【input_ids , token_type_ids , attention_mask , labels】

2025-04-13 22:02:33 211

原创 0412 Datasets

遇到复杂格式数据，可以通过自定义脚本加载。下文中的json的paragraphs就包含多个字段（如左）；直接load无法获取其子字段（如右）。## 通过自定义脚本加载## field指定数据在 data字段里datasetOUTPUT加载脚本load_script.py首先 _info 定义数据集的特征，dataset.Features。其次 _split_generators_generate_examples 即读取文件、并按格式和需求拆解字段；并返回和_info定义的相同格式数据。

2025-04-13 21:17:42 489

原创 0412Model BERT文本分类实例

#注意，这里Dataset还有用的文本数据；Dataloader需要Tokenizer处理成。导入分词器、文本分类Model Head。数据：第一列标签、第二列文本。#直接调用rbt3预训练模型。

2025-04-12 20:07:23 266

原创 0411 Model

由Encoder、Decoder组成；编解码器均由多个TransformerBlock组成Encoder部分接受输入并构建完整特征表示Decoder使用Encoder的编码结果以及其他的输入生成目标序列TransformerBlock由注意力机制和FFN组成。

2025-04-12 15:38:07 608

原创 0410 Tokenizer

S1 分词；S2 构建词典：根据数据分词结果，构建词典映射（这一步并不绝对，如果用预训练次向量，词典映射要根据词向量文件进行处理）；S3 数据转换：根据构建好的词典，将分词处理后的数据做映射，文本序列——》数字序列S4 数据填充与截断：对过短的数据填充，过长的截断，保证数据长度符合模型接受范围，同时Batch内的数据维度大小一致。

2025-04-10 22:05:24 519

原创 0410Pipeline

zero-shot-image-classification ：零样本图像分类。zero-shot-audio-classification ：零样本音频分类。zero-shot-object-detection ：零样本物体检测。document-question-answering ：文档问答。visual-question-answering ：视觉问答。zero-shot-classification ：零样本分类。table-question-answering ：表格问答。

2025-04-10 20:46:10 196

原创 0410基础知识及环境安装

【代码】0410基础知识及环境安装。

2025-04-10 14:42:23 130

原创 0410大模型入门

从一篇长文中生成摘要。

2025-04-10 11:32:21 288

原创 CMOD5.N

【代码】CMOD5.N。

2025-01-27 18:05:57 135

原创 VM-UNet && VM-UNet-V2

CNN在长距离建模方面存在局限性。基于CNN的模型受限于其局部感受野，这大大阻碍了它们捕获长距离信息的能力。这通常导致提取的特征不足，从而导致分割结果不理想。由于其二项式计算复杂度而受到限制。尽管基于Transformer的模型在全局建模方面表现出色，但自注意力机制对图像大小的计算复杂度要求是二次的，导致计算负担高，状态空间模型（SSMs），如Mamba，已经成为一种有前景的方法。它们不仅擅长建模长距离交互，而且保持了线性计算复杂度。

2024-09-26 20:47:45 1043

原创 LeViT-UNet: Make Faster Encoders with Transformer for Medical Image Segmentation

Transformer 最初被用于 (NLP) 任务中的序列到序列建模，例如机器翻译、情感分析和信息提取。最近，基于 Transformed 的架构（称为 ViT [9]）已应用于视觉相关任务，并通过大规模预训练在图像分类任务中取得了最先进（SOTA）的结果数据集[10][11]。它们也被研究用于语义分割，例如。然而，这些基于 Transformer 的方法的主要局限性在于对计算能力的高要求，这阻碍了它们在实时应用中的使用，例如放射治疗。LeViT [11]

2024-08-07 21:18:03 1560

原创 python AutoDL字体问题 SimHei

下载字体：https://github.com/flyskywhy/react-native-font-sim/tree/master/fonts查看字体配置文件并把字体放进。。。/matplotlib/mpl-data/fonts/ttf

2024-08-07 14:25:26 548

原创绘制气象风速对比散点图，热力条是散点密度

【代码】绘制气象风速对比散点图，热力条是散点密度。

2024-08-05 21:44:50 149

原创 SNAP与SAR

在SNAP图形界面，有个Export pix***可以转换经纬度与像素点。SNAP 9.0 ，snappy可安装在py3.6.8。

2024-03-25 20:04:27 522

qq_52241167的博客