- 博客(15)
- 收藏
- 关注
原创 RGA检索大全入门
维度Faiss类别稀疏检索引擎稠密向量检索库擅长关键词匹配语义相似度索引结构倒排索引向量索引(如 HNSW)是否开源✅✅是否可组合✅ 支持 Hybrid 检索✅检索方法核心思想代表算法 / 工具常用的1稀疏检索(Sparse / 关键词)用倒排索引 + 词项权重(TF‑IDF、BM25)做词面匹配。BM25、BM25L;
2025-07-16 18:50:46
1050
原创 RAG原理到实战以及向量检索的三种方式
RAG,即Retrieval-Augmented Generation,是一种结合检索和生成的先进机器学习技术。它通过检索大量知识库中的相关信息,并将其与用户查询相结合,生成更准确、更丰富的回答。RAG 技术在处理复杂查询和提供详细回答方面表现出色,特别是在需要广泛背景知识和上下文理解的场景中。可以通过⼤模型回答查询,并将搜索算法所找到的信息作为⼤模型的上下⽂。查询和检索到的上下⽂都会被注⼊到发送到 LLM 的提示语中定义:将离散的文本(词、句子、文档)转换为稠密的、可计算相似度的向量(多维数组)。
2025-07-03 01:28:39
1204
原创 YOLO-V7模型解读之模型损失和训练(三)
根据前两篇的文章,讲述了每个组件和网络结果的组成以及楼层作用,并且针对数据集的操作进行了详细的讲解,模型主要需要的学习率,优化器 ,EMA ,梯度进行了概述,本次主要涉及到损失函数包含了模型中需要处理的:标签分配策略,侯选框偏移,GT匹配正样本,IOU与置信度分配正样本,损失函数的计算方法;以及损失函数的调整方法和训练我将会逐步整理说明,要是没有看过之前文章内容的可以点击我的主页作品,能找到完成的全部内容本次项目只是物体识别的梳理,训练和测试以及使用我放在了GitHub。
2025-06-23 19:36:15
1029
原创 YOLO-V7模型解读基本模块(一)
通常指的是CONV和BN的组合,同样是上述提到的优化的一部分,需要通过卷积,得到特征向量,最后使用激活函数。
2025-05-11 23:58:25
1465
原创 MYSQL pymysql.err.DataError: (1406, “Data too long for column ‘字段‘ at row 1“)
插入的时候莫一个字段过长插入失败,追加字段长度依旧失败,处理方式。
2024-11-19 09:46:18
464
原创 Transformer从0-1模型详解通俗易懂(附代码)
位置编码一方面通过正弦和余弦函数来编码位置信息,能够使得不同位置的编码在空间上有良好的分布。另一方面分别使用正弦和余弦函数来编码偶数和奇数的位置,以确保位置编码可以捕捉到位置之间的关系代表遮掩,码是张量中的数值,尺寸不一定,一般里面只有1和0,代表位置是否被遮掩,0代表遮掩,1可以自定义,因此他的作用就是让另一个张量中的一些树值被遮掩观察事物的时候,之所以可以快速判断一种事物,是因为我们大脑可以很快的把注意力把事物具有辨别度的部分区分开,而不是从头到尾的观察,基于这样的理论,产生了注意力机制;
2024-09-26 16:53:16
1457
1
原创 用Text_cnn做NLP文本分类实践
本次项目是文本分类任务,在做这个任务之前犹豫过是不是先写有个文本生成类的,前段时间也做了个对中文的词预测(只有数据处理和用到的模型不一样),但是考虑到文本分类在NLP也是最普遍的,很多项目的开始都会出现,以下将整理我的知识点,必要的时候会放一些代码。
2024-09-07 08:10:22
512
原创 朴素贝叶斯邮件过滤(赋代码)
在主观条件的基础上,不了解客观的事实情况下可以先估计一个数值,然后根据结果不断进行修正,基于条件概率这个概念发展而来,因此要理解朴素贝叶斯的思想首先需要知道什么是条件概率。
2024-04-27 12:49:32
1124
4
原创 LSTM时间序列+NLP写诗-实践
本次需要tensorflow第三方库,同时需要的是1.X版本其次通过我的上一偏的文章,对LSTM的基础理论做了一个简单的处理,在这通过实战加深对这个模型的印象,同时,这篇是对文本操作做处理,用到了自然语言处理(NLP)的一些理论。本次主要是实践为主,关于一些自然语言的内容也会简单的概述。
2024-04-18 20:06:45
1024
1
原创 循环神经网络LSTM做预测
梯度和导数是密切相关的概念,实际上是导数对多元函数的推广,是多远函数对各个自变量求偏导形成的向量,指的是函数在一个点的导数方向最大值,就是函数在这个点的方向最大,最快长短期记忆网络(LST)是一种特殊的循环神经网络(RNN),适合处理和预测时间序列的数据,主要由四个基本组件组成(遗忘门,输入门,细胞状态更新,输出门),和RNN的区别在于处理数据的时候要是时间序列边长RNN会出现梯度消失或者梯度爆照的问题,但是LSTM确解决了这个问题xt:输入ct-1:上一层的隐藏层(也可以叫单元状态)
2024-03-01 17:07:18
1606
2
原创 爬虫数据存储到数据库/增量爬虫+多级页面获取=====安居客信息爬取
文章目录前言 一、增量爬虫是什么? 二、python数据存储到数据库 三、多级页面的跳转获取 四:遇到的问题以及解决 五:代码 总结前言:这次的爬取内容是安居客网页里面的信息,首先是我爬取的页面是属于需要动态加载,获取到的数据是加载获得到的数据,这次做的主要是将数据存储到数据库的操作,使用跳转页面获取具体的详细数据一、增量爬虫是什么?增量爬虫是将需要爬取的数据保存,在已经存在的数据上面每天都有更新的数据,然而下次获取的数据就是已经跟新的数据,已有的数据变保持不变,...
2021-09-06 13:44:09
10603
原创 多线程+多几页面抓取+手动输入招聘岗位==腾讯招聘爬虫
爬虫小白,最近跟着b站的一个up主学习到的技能,在这里如遇大佬请多多指教运行结果:一:多线程:cpu密集的程序适合使用多线程,可以充分利用计算机的多核,平时爬取网络数据的时候都是使用单线程获取数据的速度较慢,多线程就是多条线路执行一个任务返回进程threading模块==============================》》》》线程模块使用流程:T=thread(target=事件函数名)T.start()T.join()#阻塞等待线程,避免堵塞线程的产生...
2021-08-31 22:55:44
2134
原创 python爬虫手动输入淘宝名称获取淘宝信息
使用主要爬取手段urllib.request模块python爬虫小白,欢迎来点赞成果图运行结果制作过程#淘宝import urllib.requestimport urllib.parseimport time,random,csvclass TaoBao(): #获取请求头和网页链接作为以下使用 def __init__(self): self.url='https://s.taobao.com/search?q={}&bc...
2021-08-02 15:21:13
2781
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅