
深度学习
文章平均质量分 62
Dominiczz
I have a big heart.
展开
-
一个简单的医疗问答RAG
这里虽然写的是vectorizer ,但是实际上是文本召回,也就是bm25。构建bm25需要的处理函数,jieba分词即可。RRF实现融合排序,公式很简单,出现次数 +下面格式是ipynb,具体参考原链接吧。加载知识库,按照换行符切分。根据query得到检索结果。得到融合后的检索结果。原创 2024-08-23 12:20:52 · 259 阅读 · 0 评论 -
tokenizer一些理解
计算机要处理语言,首先需要将文本转换成数字形式。这个过程由一个称为标记化 Tokenization。标记化分为2个过程1、将输入文本划分为token标记器首先获取文本并将其分成更小的部分,可以是单词、单词的部分或单个字符。这些较小的文本片段被称为标记。Stanford NLP Group[2]将标记更严格地定义为:在某些特定的文档中,作为一个有用的语义处理单元组合在一起的字符序列实例。2、为每个标记分配一个ID标记器将文本划分为标记后,可以为每个标记分配一个称为标记ID的整数。原创 2024-08-20 23:48:07 · 1011 阅读 · 0 评论 -
Tiny-Universe的一些解读
datawhale这块程序写的有一点问题,就总结一下大概思路吧。,顶多再微调一下,而后者着重向量的构建,检索速度的优化?首先对输入文本加一个"question"前缀,然后送入。具体操作细节可以看官网文档的readme.md。就是事先人为构造好的prompt格式。就调用插件(tool)将结果拼接到。这两部分,前者貌似一般都有开源的。最后再送入model拿到结果。原创 2024-08-13 20:27:37 · 306 阅读 · 0 评论 -
minbpe解读
内部会调用bpe函数,bpe的目的就是将每个合并后的字节序列,进行复原。,它对基础的256个词汇进行了shuffle,因为mergeable_ranks就是一个字典,我打印了前300个,可以和正常的vocab对比一下输出。通俗点说,就是mergeable_ranks给出了合并以后的字节序列,而这两个函数做的就是复原,让你看清楚是哪两个字节序列合并的。这部分的代码没啥好说的,都是继承自base.py里面的Tokenizer基类,自己调试一下就很清晰了。但是这里为什么要乱序,不是很理解,给的注释是,原创 2024-08-13 10:22:20 · 599 阅读 · 0 评论 -
自动驾驶的一些大白话讲解
当前的所谓自动驾驶系统,本质上就是一个规则执行器,它的基本工作原理是拿路上遇到的实际情况与人工提前写好的规则去比对,匹配上就按规则执行,匹配不上的话系统就提示接管自动退出。自动驾驶的端到端系统也是一样的,从摄像头收集到的海量数据中,去学习人在面对各种路况时候的行为和决策,找到其中的规律并以此来决策。对于很多极端场景来说,只要我们的训练数据足够,是可以更好的应对的。打个比方,有的车企起步早,在感知和决策规则的代码数量都要远远多于后面加入的车企,后面的要赶上必须加大人力、财力、时间的投入才有机会。原创 2024-08-09 15:18:31 · 1488 阅读 · 0 评论 -
transformer初探
这里有一个很关键的点是,在encoder中只有self-attention,因为是一次性输入所有的token,计算每个token之间的关联性,得到一个编码后的输出。但是decoder是一个一个输入,每输入一个产生一个输出,虽然说这一步也可以用矩阵并行计算,其原理就是masked-attention。值得注意的是,在decoder中mask-attention后的输出,还会和encoder的输出再作一次attention,这被称为cross-attention。,这三个矩阵就是需要训练的参数。原创 2024-07-06 11:17:28 · 974 阅读 · 0 评论 -
python处理图片重命名
import osclass BatchRename(): ''' 批量重命名文件夹中的图片文件 ''' def __init__(self): self.path = r'C:\Users\98k\Desktop\image' #表示需要命名处理的文件夹 def rename(self): filelist = os.listdir(self.path) #获取文件路径 total_num = len(.原创 2021-07-27 08:44:30 · 2279 阅读 · 2 评论 -
anaconda使用
安装本地包Conda install --use- local (包名)dir()和help()conda list:查看安装了哪些包。conda install package_name(包名):安装包conda env list 或 conda info -e:查看当前存在哪些虚拟环境conda update conda:检查更新当前conda创建虚拟环境:使用 conda create -n your_env_name python=X.X(2.7、3.6等..原创 2021-07-17 00:04:24 · 177 阅读 · 0 评论 -
MNIST softmax
导包import torchimport torch.nn as nnimport torchvisionimport torchvision.transforms as transformsfrom torchvision.datasets import MNIST #Hyper-parameters input_size = 784 #输入层神经元大小num_classes = 10 #种类类别,数字0-9num_epochs = 5#迭代次数batch_size_train原创 2021-05-25 18:12:26 · 200 阅读 · 0 评论