
nlp
文章平均质量分 89
loveitlovelife
跨专业小研一枚,大数据挖掘与机器学习方向,目前狂补基础课程,还望大佬们多多指教
##2022.1.27-->CODER 一枚
##2024.2.27-->换领域,网络安全相关
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RAG-检索增强
本文介绍了检索增强生成(RAG)技术,用于解决大模型的幻觉、时效性和数据安全三大问题。RAG通过数据提取、向量化、索引构建、检索和重排序等步骤,将相关信息作为上下文输入大模型生成答案。文中详细阐述了数据索引、检索环节和生成三个阶段的技术细节,包括分块方法、向量化技术、查询转换策略以及多路检索等优化手段。最后推荐了LangChain和LlamaIndex等实现工具。RAG技术能有效提升大模型在专业领域的回答准确性,同时保障数据安全。原创 2025-08-07 01:32:35 · 665 阅读 · 0 评论 -
MCP实验
摘要 实验使用Python构建了三个基于FastMCP框架的微服务:时间地点服务(local_time_server.py)、数据库服务(database_server.py)和天气预报服务(weather_server.py)。每个服务都遵循相同的开发模式:1)导入依赖库;2)初始化FastMCP实例并设置端口;3)定义装饰器函数;4)启动服务并选择通信协议(stdio或streamable-http)。客户端通过异步方式调用这些服务,获取时间、位置、数据库查询结果和天气信息等结构化数据。实验展示了如何利原创 2025-07-12 18:18:36 · 412 阅读 · 0 评论 -
MCP调研及实践
MCP协议是由Anthropic提出的标准化接口,用于连接大模型与外部工具和数据源。其核心采用客户端-服务器架构,基于JSON-RPC/gRPC实现双向通信,具备工具调用、资源访问和权限管控等功能。相比传统API,MCP具有动态灵活的显著优势,能够自动适应接口变更而无需客户端修改。与RAG和Agent技术相比,MCP专注于标准化连接,而RAG增强知识检索能力,Agent则处理复杂决策流程。MCP适用于实时数据集成、跨系统操作和企业工具链标准化等场景,显著降低开发成本。该协议可视为AI领域的"USB原创 2025-07-12 18:15:19 · 770 阅读 · 0 评论 -
大模型词表注入
大模型词表注入(Vocabulary Injection)是指在预训练语言模型(如GPT、LLAMA等)的基础上,动态扩展其词表(Vocabulary)的技术,以适应特定任务或领域的需求。使用sentencepiece==4.1.0 训练词表。有两种方法:1.词表注入;2.词表训练–>添加词表。原创 2025-03-26 19:15:22 · 696 阅读 · 0 评论 -
SFT实验报告
大模型微调实验报告。原创 2025-03-26 15:44:12 · 788 阅读 · 0 评论 -
文本匹配-bimpm
文章目录论文链接地址github前言信息检索中的匹配问题表征式模型(representation focused model)交互式模型(interaction focused model)语义匹配和相关性匹配语义匹配相关性匹配DRMM模型结构局部交互(local interaction)匹配直方图映射(Matching Histogram Mapping)前馈神经网络门结构得分聚合损失函数欢迎指正论文链接地址Bilateral Multi-Perspective Matching for Natura原创 2021-07-09 01:26:43 · 419 阅读 · 1 评论 -
文本匹配-HIM(ESIM)
文章目录论文链接地址github前言整体模型结构输入编码层(Input Encoding)局部推理层(Local Inference Modeling)损失函数欢迎指正论文链接地址Enhanced LSTM for Natural Language Inferencegithubto be continued前言\quad本文主要介绍了一种复杂网络建立自然语言推理模型,创新点在于:基于链式的LSTM网络,进一步通过在局部推理建模和推理组合中明确考虑递归架构,同时合并了语法解析信息。整体模型结构原创 2021-07-19 23:11:59 · 352 阅读 · 1 评论 -
文本匹配-duet
文章目录论文链接地址提出假设模型结构local modeldistributed modeloutput layeroptimizationgithub:最近上传to be continued论文链接地址Learning to Match using Local and Distributed Representations of Text for Web Search提出假设分布式表示的匹配与传统局部表示的匹配是互补的,并且两者的结合是有利的模型结构\quad模型由两大部分组成,一部分使用lo原创 2021-06-22 01:45:22 · 477 阅读 · 1 评论 -
文本匹配-siamese-bilstm
文章目录论文链接地址github前言模型结构输入层siamese-BiLSTM层输出层损失函数欢迎指正论文链接地址Learning Text Similarity with Siamese Recurrent Networksgithubhttps://github.com/KATEhuang920909/deep_text_match前言本文提出了一种文本匹配的深度神经网络结构。为有监督任务,该模型将字符级双向LSTM的堆栈与Siamese体系结构相结合。输入两个文本字符级特征,输出两段文本的原创 2021-06-29 01:35:58 · 1025 阅读 · 1 评论 -
文本匹配-drmm
文章目录论文链接地址github前言信息检索中的匹配问题表征式模型(representation focused model)交互式模型(interaction focused model)语义匹配和相关性匹配模型结构输入层siamese-BiLSTM层输出层损失函数欢迎指正论文链接地址A Deep Relevance Matching Model for Ad-hoc Retrievalgithubhttps://github.com/KATEhuang920909/deep_text_match原创 2021-07-02 01:32:47 · 814 阅读 · 1 评论 -
文本匹配-dssm
文章目录前言DSSM深度语义匹配模型输入层表示层匹配层训练阶段优缺点模型改进Learning Deep Structured Semantic Models for Web Search using Clickthrough Data前言传统文本相似性如BM25、tf-idf等,无法发现语义的query-doc相似对,因此DSSM为计算语义相似度提供了一种方法。DSSM深度语义匹配模型DSSM模型结构如下:输入层在输入层用到了word hashing操作,这里用了n-grams方式进行has原创 2021-07-19 23:17:08 · 465 阅读 · 0 评论 -
文本匹配-bert_siamese_finetuning
文章目录github输入层bert层lstm层输出层loss &optimizerrun总结之前写了一个tensorflow1的版本,见https://github.com/KATEhuang920909/bert-siamese-matching最近摸索了一番写了一个bert-siamese的微调版本,主要是基于keras,另外借鉴了苏神的bert4keras框架,整体结构看起来比t1舒服多了。。githubhttps://github.com/KATEhuang920909/fine原创 2022-01-10 00:09:23 · 1221 阅读 · 2 评论 -
文本匹配相关论文
文章目录前言传统方法深度文本匹配DSSM :CDSSM:ARC II:CNTN:LSTM-RNN:MV-LSTMMatchPyramidMatch-SRNNKNRMConv-KNRMDRMMSiamese-LSTMDAMESIMDUETBiMPMDIINDRCNRE2DUABERT前言\quad 文本匹配在信息检索、自动问答、对话系统当中有广泛的应用,这些任务都可以抽象成query和候选doc之间的匹配问题。工作期间我零零碎碎的去熟悉和掌握相关模型和方法,不过我还是觉得很有必要将这些东西系统的整理一遍原创 2021-01-18 00:27:04 · 866 阅读 · 0 评论 -
NER解决方案——biaffine
双仿射注意力:引入双仿射注意力矩阵,分别与ffn输出层做矩阵计算;编码: 经过bert编码,分别送入到两个ffn层,输出:获取输出评分矩阵,loss为交叉熵损失函数。引入双仿射注意力矩阵,可以解决实体嵌套问题。原创 2023-04-08 19:34:57 · 988 阅读 · 0 评论 -
NER解决方案——NN-CRF
对于BIO标注,I-PER 不可能接在B-LOC之后,同样I-PER和I-LOC也不可能出现在相邻序列当中。因此需要一种方法去约束这种条件,CRF通过构造转移矩阵,学习各个标签之间的转移概率,通过这种方式可以大大减少无效标签序列的产生。目标:给每一个可能的标注序列算一个分数,通过训练,使得那个唯一的真实的标签序列得分最高。优点:1、去掉池化层;step2: 获取最后一步的最大概率值,然后反向查找当前概率下的路径。由以上公式,可以递归求出所有路径的分数,的发射概率,由NN网络提供;的转移概率,由CRF提供;原创 2023-03-26 00:04:36 · 1183 阅读 · 0 评论 -
NER解决方案——词典匹配
NER全称是命名实体识别(Named Entity Recognition, NER),旨在识别文本中专有名词,如位置、组织和时间。输入:小明在北京大学的燕园看了中国男篮的一场比赛输出:B-PER,E-PER,O, B-ORG,I-ORG,I-ORG,E-ORG,O,B-LOC,E-LOC,O,O,B-ORG,I-ORG,I-ORG,E-ORG,O,O,O,O其中,“小明 ”以PER,“北京大学”以ORG,“燕园”以LOC,“中国男篮”以ORG为实体类别分别挑了出来。原创 2023-03-12 18:22:09 · 1127 阅读 · 0 评论 -
NER常见的解决方案汇总(deep learning)
NER (Named Entity Recognition)即命名实体识别。顾名思义就是识别文本当中的实体信息。举个例子,输入:张三现在在武汉市江夏区金融港输出:B-PER,E-PER,O, O,O,B-CITY,I-CITY,E-CITY,B-DISTRICT,I-DISTRICT,E-DISTRICT,B-LOCATION,I-LOCATION,-E-LOCATION其中,“张三”以PER,“武汉市”以CITY,“江夏区”以DISTRICT,“金融港”以LOCATION为实体类别分别挑了出来。原创 2023-03-12 18:03:40 · 805 阅读 · 0 评论 -
Elatstic search 8.0 在nlp任务中的实践
文章目录NLP模块介绍支持的任务实践模型加载模型部署NLP任务创建pipline总结Elastic search 8.0 在今年2月份更新,涉及nlp方面的有两个大的功能点,分别为:向量检索提高搜索相关性NLP组件支持NLP任务向量检索已在博客Elatstic search 8.0 在knn检索中的实践 中介绍这里讨论NLP相关任务模块。NLP模块介绍elastic search8.0在NLP任务上的基本框架有了如下变化:es内置工具eland 在8.0之前支持数据统计和数据挖掘功原创 2022-04-16 16:08:57 · 2463 阅读 · 1 评论 -
Elatstic search 8.0 在knn检索中的实践
Elastic search 8.0 在今年2月份更新,涉及nlp方面的有两个大的功能点,分别为:向量检索提高搜索相关性NLP组件支持NLP任务向量检索这一部分可以参考我之前写的博客:https://blog.youkuaiyun.com/loveitlovelife/article/details/122567795其结构为HNSW索引,该类型索引在ANN索引模型当中表现最优,其他索引类型如树模型、矢量模型相关介绍和其实从7.0开始就已经对向量这一块做了一些处理和计算...原创 2022-04-16 13:50:58 · 3322 阅读 · 0 评论 -
向量检索的索引构建算法综述
这里写自定义目录标题VectorRetrievalgithub落地场景背景框架检索模型——暴力搜索、倒排索引检索模型——kd-Tree、AnnoyKD-Tree:Annoy:检索模型——LSH检索模型——PQ检索模型——NSW、HNSWNSW:HNSW:result:检索框架Elastic SearchFaissMilvus业界的落地情况MilvusFaissMilvusFaissVectorRetrievalgithub仿真代码:https://github.com/KATEhuang920909/原创 2022-01-18 20:28:51 · 3651 阅读 · 1 评论 -
信息熵概念&公式总结
信息量:特征的不确定性I(x)=−logP(x)I(x) =-log P(x)I(x)=−logP(x)信息熵: 特征不确定性均值H(x)=−∑xP(x)logp(x)H(x) =-\sum_x P(x)log p(x)H(x)=−∑xP(x)logp(x)联合熵: 训练即总体的不确定性H(x,y)=−∑xP(x,y)logP(x,y)H(x,y) =-\sum_x P(x...原创 2019-11-14 01:35:49 · 3435 阅读 · 1 评论 -
linux 安装tensorflow-gpu 出现no space left on device
在公司服务器上装tensorflow-gpu 出现如下问题:大概是tmp没有足够的空间来安装,因此可以定义临时位置,设置临时环境变量TMPDIR:可以正常安装了:...原创 2019-10-21 16:49:32 · 926 阅读 · 0 评论 -
词干提取和词形还原
词干提取:作用:去除后缀并输出词的词干。porterStremmer/LancasterStremmer:from nltk import PorterStemmer ,LancasterStemmer,word_tokenizeraw="My name is Maximus Decimus Meridius,commander of the armies of the North,...原创 2019-10-18 18:42:31 · 800 阅读 · 1 评论 -
编辑距离python
编辑距离,又称又称Levenshtein距离,指从一个字符串转换为另一个字符串的最小操作步骤,编辑操作包括插入、删除、替换三种操作。编辑距离越小,两个字符串的相似度越大。python代码实现如下:def edit_distance(str1,str2): dp=[[0]*len(str1)]*len(str2) #dp[i][j]表示表示A串从第0个字符开始到第i...原创 2019-10-16 19:32:55 · 677 阅读 · 0 评论 -
词义消歧(基于词向量)
from gensim.models import Word2Vecmodel = Word2Vec.load('word2.model')content=['用','苹果','性能','好','分辨率','高']des1=['美国','一家','高科技','公司','经典','产品','有','iphone','手机']des2=['水果','一种','产自']def w2v_m...原创 2019-10-16 16:18:54 · 2615 阅读 · 4 评论 -
WordNet介绍及相似度计算
WordNet 是一种英语词典,可以根据单词的语义信息构建语义网络。其将词汇分为五大类:名词、动词、形容词、副词和虚词。语义关系包括上下位关系,同义关系,反义关系。通过各种关系,可以丰富语料信息,可应用于词义消歧、相似度计算等问题。导入nltk相关包,下载语料集。获取单词的所有含义。固定词性下的词集相关词语含义下的定义,举例等。固定词语含义下的同义词集上位词...原创 2019-10-16 12:54:00 · 4337 阅读 · 2 评论