- 博客(29)
- 收藏
- 关注
原创 Langchain+chain+数据库操作
chain或agents实现。Agents可以多次循环查询。思路:用户问题—转换—SQL查询——执行SQL——回答问题。
2025-04-18 15:34:18
847
原创 Langchain构建RAG对话应用
本文:关注 检索器与上下文的子链、父链;即检索器也需要上下文内容。RAG是一种增强LLM知识的方法,通过引入额外的数据来实现。加载—》分割—》存储—》检索—》生成。
2025-04-18 14:41:39
348
原创 Langchain构建Agent
语言模型只能输出文本,无法执行 操作。Agent是使用LLM作为推理引擎来确定要执行的操作以及这些操作的输入应该是什么。然后根据结果,Agent进行执行。创建Agent的API。
2025-04-17 22:26:13
460
原创 Langchain-简单Demo
下面就简单调用gpt-4."""# 输出示例AIMessage(', # 翻译后的意大利语文本'token_usage': {#API 调用消耗的token统计},'model_name': 'gpt-4-turbo',#模型版本'system_fingerprint': 'fp_xxxxxx' #模型部署指纹,用于追踪模型版本。},id='run-xxxxxx' #本次调用唯一ID"""
2025-04-17 19:58:03
420
原创 0417 Langchain
Langchain就是,帮助大模型和外部计算、数据结合起来。登录并获取LangSmish(监控)的API key:根据。
2025-04-17 19:17:54
242
原创 0416 LangChain
LangChain对所有LLM进行了API抽象,统一了大模型访问API,同时提供了Prompt提示模板管理机制LangChain对常见的场景封装了一些现成的模块,例如:基于上下文信息的问答系统,自然语言生成SQL查询等等,因为实现这些任务的过程,就像链式调用。LangChain新版本的核心特性,用于解决工作流编排问题,通过LCEL表达式,可以灵活定义AI任务处理流程链。数据增强生成(RAG)rua各。
2025-04-16 20:14:24
582
原创 0415 检索式对话机器人
Q:Question;A:AnswerFaiss()是由Meta(原Facebook)AI团队开发的一个开源库,专门用于高效相似性搜索和稠密向量聚类。它针对高维向量数据进行了高度优化,能够快速在大规模数据集中找到与目标向量最相似的Top-K结果,广泛应用于推荐系统、自然语言处理、图像检索等领域。## 此处用CPU版本就够。还有gpu版本。
2025-04-15 10:55:01
630
原创 0414 生成式对话机器人
因果语言模型、自回归模型:仅包含Decoder 解码器,单向注意力,根据上文预测下文。##回顾,BERT(文本分类)是自编码模型,仅包含Encoder,拥有双向注意力机制,即计算每个词的特征都能看到完整上下文(token)
2025-04-14 22:21:25
818
原创 0415 命名实体识别
B 表示实体开始,E表示实体结束,m/I表示实体中间Sen 输入文本;Gold 标签;Predict 预测标记下面 b- ~~ e- 算一个实体;计算准确度时,统计实体个数安装seqeval,及需要Microsoft Visual C++编译的解决加载tokenizer,并分词处理——》## 记住修改 num_labels
2025-04-14 21:23:58
350
原创 0414 Trainer
Trainer库是transformer库中提供训练的函数,内部封装了完整的训练、评估逻辑;并集成了多种的后端,如DeepSpeed、pytorch FSDP等。搭配TrainingArguments对训练过程中的各项参数进行配置,可以非常方便快捷地启动模型单机/分布式训练。注意:Trainer进行模型训练对模型的输入输出有限制,要求模型返回元组或ModelOutput的子类;如果输入中提供了labels,模型要能返回loss结果,如果是元组,要求loss为元组中第一个值。
2025-04-14 14:08:11
245
原创 0413 Evaluate
机器学习模型评估函数库函数库地址:https://huggingface.co/evaluate-metric文档地址:https://huggingface.co/docs/evaluate/index。
2025-04-13 22:27:08
228
原创 0413 DataCollator模型微调
用的和0412BERT文本分类实例是同一个。0412用的是Pandas读取;本处用Datasets。0412的Dataload的collate_fn是自定义的;本处使用DataCollatorWithPadding这里主要是,对Datasets一个使用,及DataCollatorWithPadding。这里就是官方提供了个Collator,并不适用与复杂数据!要求输入的Dataset字段=【input_ids , token_type_ids , attention_mask , labels】
2025-04-13 22:02:33
211
原创 0412 Datasets
遇到复杂格式数据,可以通过自定义脚本加载。下文中的json的paragraphs就包含多个字段(如左);直接load无法获取其子字段(如右)。## 通过自定义脚本加载## field指定数据在 data字段里datasetOUTPUT加载脚本load_script.py首先 _info 定义数据集的特征,dataset.Features。其次 _split_generators_generate_examples 即 读取文件、并按格式和需求拆解字段;并返回和_info定义的相同格式数据。
2025-04-13 21:17:42
489
原创 0412Model BERT文本分类实例
#注意,这里Dataset还有用的文本数据;Dataloader需要Tokenizer处理成。导入分词器、文本分类Model Head。数据:第一列标签、第二列文本。#直接调用rbt3预训练模型。
2025-04-12 20:07:23
266
原创 0411 Model
由Encoder、Decoder组成;编解码器均由多个TransformerBlock组成Encoder部分接受输入并构建完整特征表示Decoder使用Encoder的编码结果 以及 其他的输入生成目标序列TransformerBlock由注意力机制和FFN组成。
2025-04-12 15:38:07
608
原创 0410 Tokenizer
S1 分词;S2 构建词典:根据数据分词结果,构建词典映射(这一步并不绝对,如果用预训练次向量,词典映射要根据词向量文件进行处理);S3 数据转换:根据构建好的词典,将分词处理后的数据做映射,文本序列——》数字序列S4 数据填充与截断:对过短的数据填充,过长的截断,保证数据长度符合模型接受范围,同时Batch内的数据维度大小一致。
2025-04-10 22:05:24
519
原创 0410Pipeline
zero-shot-image-classification :零样本图像分类。zero-shot-audio-classification :零样本音频分类。zero-shot-object-detection :零样本物体检测。document-question-answering :文档问答。visual-question-answering :视觉问答。zero-shot-classification :零样本分类。table-question-answering :表格问答。
2025-04-10 20:46:10
196
原创 VM-UNet && VM-UNet-V2
CNN在长距离建模方面存在局限性。基于CNN的模型受限于其局部感受野,这大大阻碍了它们捕获长距离信息的能力。这通常导致提取的特征不足,从而导致分割结果不理想。由于其二项式计算复杂度而受到限制。尽管基于Transformer的模型在全局建模方面表现出色,但自注意力机制对图像大小的计算复杂度要求是二次的,导致计算负担高,状态空间模型(SSMs),如Mamba,已经成为一种有前景的方法。它们不仅擅长建模长距离交互,而且保持了线性计算复杂度。
2024-09-26 20:47:45
1043
原创 LeViT-UNet: Make Faster Encoders with Transformer for Medical Image Segmentation
Transformer 最初被用于 (NLP) 任务中的序列到序列建模,例如机器翻译、情感分析和信息提取。最近,基于 Transformed 的架构(称为 ViT [9])已应用于视觉相关任务,并通过大规模预训练在图像分类任务中取得了最先进(SOTA)的结果数据集[10][11]。它们也被研究用于语义分割,例如。然而,这些基于 Transformer 的方法的主要局限性在于对计算能力的高要求,这阻碍了它们在实时应用中的使用,例如放射治疗。LeViT [11]
2024-08-07 21:18:03
1560
原创 python AutoDL字体问题 SimHei
下载字体:https://github.com/flyskywhy/react-native-font-sim/tree/master/fonts查看字体配置文件并把字体放进 。。。/matplotlib/mpl-data/fonts/ttf
2024-08-07 14:25:26
548
原创 SNAP与SAR
在SNAP图形界面,有个Export pix***可以转换经纬度与像素点。SNAP 9.0 ,snappy可安装在py3.6.8。
2024-03-25 20:04:27
522
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人