- 博客(27)
- 收藏
- 关注
原创 centos7使用gpu加速的MinerU
由于官方只有ubantu的安装教程,并没有基于centos7的,故需要自己修改命令安装并使用。在运行此 Docker 容器之前,您可以使用以下命令检查您的设备是否支持 Docker 上的 CUDA 加速。注意cuda的版本需要和nvidia-smi中显示的一致验证结果:那就不用docker,
2025-03-13 16:11:26
464
原创 无网络entos7报错ImportError: /lib64/libm.so.6: version `GLIBC_2.27‘ not found更新glibc
最近在尝试使用sklearn的升级版cuml,因为是一台没有连接互联网的gpu机器,所以构建cuml环境过程很坎坷,需要各种将各种whl包在线下载后上传到服务器中。
2024-09-26 18:16:21
1270
原创 使用requests库发起post请求处理json的两种方式
今天在使用python的request库访问合作方的java接口时候遇到的问题。或者直接传递json格式,requests库会自动进行json.dumps。手动将字典转为json字符串。需要再次编码为utf-8。
2024-08-29 09:56:32
430
原创 Retrieval-Augmented Generation for Large Language Models: A Survey论文阅读
大语言模型常常制造虚假事实,在处理特定领域或高度专业化的查询时缺乏知识。例如,当所需信息超出模型训练数据的范围或需要最新数据时,LLM可能无法提供准确的答案。这一限制在将生成型人工智能部署到现实世界的生产环境中构成挑战,可能不够盲目使用黑盒LLM。神经网络通过微调模型以参数化知识来适应特定领域或专有信息。虽然这种技术取得了显著成果,但它需要大量的计算资源,成本高昂,并需要专业的技术专长,使其适应性较差。参数化知识和非参数化知识发挥着不同的作用。
2024-06-11 11:47:18
804
1
原创 LLMs Know What They Need: Leveraging a Missing Information Guided Framework to Empower RAG 论文笔记
它将从检索到的上下文中提取与查询有用的信息作为输入,以确定是否可以回答问题。它将返回带有解释或缺失信息的最终答案,具体取决于其确定。,由查询生成器、检索器和知识过滤器组成。给定原始查询、先前询问的查询、提取的有用信息以及 Main 模块输出的缺失信息,查询生成器将首先生成更简单、更多样化的新查询,以方便后续检索。然后,检索器获取相关的外部知识以响应这些查询,这些查询通过知识过滤器进行过滤,以消除段落和句子级别的噪音。,读取检索到的外部知识,以提取有用的信息,并引用支持段落。
2024-04-30 15:49:32
1083
1
原创 Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs论文阅读笔记(未完待续)
CoT 的自然演变涉及用其他类型的中间组件(即中间链)替换思维推理。进一步将它们分为以下亚型。
2024-04-28 15:28:49
1169
1
原创 Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation 论文阅读笔记
说明:在本篇中,⊕ 表示文本拼接传统的RAG方法在生成阶段,一般prompt做法为:前文信息(包括身份,背景,要求等)拼接检索到的docs(doc1,doc2,.......docn)用户query如下图naive llm-rag所示:而本文的方法则是使用如图叠加提示的方式来做。rag查询到的文档数量为m,通过设置叠加因子 y ∈[1,m],则“每条路径的有效文档”为 m/y,当y=1时,已经简化为“经典”(Naive LLM-RAG)情况。
2024-04-22 11:15:13
1317
1
原创 解决‘BaichuanTokenizer‘ object has no attribute ‘sp_model‘,无需重装transformers和torch
如https://github.com/baichuan-inc/Baichuan2/issues/204。注意需要把模型文件download到本地后修改模型文件中的tokenization_baichuan.py。修改下 tokenization_baichuan.py ,把 super() 修改到最后执行。
2023-11-01 15:34:03
4965
2
原创 decapoda-research/llama-7b-hf 的踩坑记录
将tokenizer_config.json中LLaMATokenizer改为LlamaTokenizer。使用transformers加载decapoda-research/llama-7b-hf的踩坑记录。替换原本的tokenizer_config.json。
2023-10-23 20:31:33
2080
1
原创 解决报错RuntimeError: Failed to import transformers.trainer_seq2seq because of the following error
参考:https://github.com/huggingface/transformers/issues/23340。需要升级accelerate包。
2023-10-17 14:22:04
7260
原创 解决docker使用pandarallel报错OSError: [Errno 28] No space left on device
在使用pandarallel报错OSError: [Errno 28] No space left on device,根据上述issue发现确实默认使用的MEMORY_FS_ROOT为 /dev/shm,而在docker环境下这个目录大小只有64M,完全不够处理数据。一开始已经加了参数而而在pandarallel/core.py中依旧没有被覆盖改写,后来经过打印os.environ发现传入的参数没有覆盖成功,需要将上述代码。放在执行文件的最上面即可成功覆盖参数。
2023-10-14 17:51:31
1335
4
原创 【论文笔记】LLM-Augmenter
github:https://github.com/pengbaolin/LLM-Augmenter(暂无处readme外其他文件)指的是通过自监督学习在大量未标记数据上训练的大规模AI模型,能够在各种各样的任务中表现出色。在基础模型的背景下,幻觉(Hallucination)是指模型生成的内容不是基于事实或准确信息的情况。当模型生成的文本包括虚构的、误导性的、或完全捏造的细节、事实或主张,而不是提供可靠和真实的信息时,就会发生幻觉。之所以会出现这个问题,是因为模型能够根据它从训练数据中学习到的模式生成听起来可信的文本,即使生成的内容与现实不符。
2023-10-07 19:56:28
205
原创 大模型面试基础+八股文【持续更新中】
来源:https://redian.news/wxnews/488452一些参考:https://zhuanlan.zhihu.com/p/643560888https://zhuanlan.zhihu.com/p/643829565https://zhuanlan.zhihu.com/p/558286175https://zhuanlan.zhihu.com/p/632102048https://github.com/5663015/LLMs_train论文《Finetuned Language
2023-08-14 10:23:44
5500
原创 解决from conda.cli import main Module NotFoundError: No module named ‘conda‘问题,无需重装
这里写自定义目录标题最近遇到问题from conda.cli import main Module NotFoundError: No module named 'conda'查了一圈资料,发现是在安装包的时候也更新了python版本,导致conda中python版本与实际python版本不一致,一个可行的解决办法是可以只重装anaconda不重装环境https://blog.youkuaiyun.com/u011331731/article/details/89407914但由于我并不知道自己的ana
2022-03-06 20:25:15
4808
原创 On the Calibration and Uncertainty of Neural Learning to Rank Models 论文笔记
摘要:根据概率排名原则(PRP),按照文档的相关概率递减的顺序对文档进行排名,可以为临时检索提供最佳的文档排序。当满足两个条件时,PRP成立:[C1]模型已经很好地校准,并且[C2]报告了有把握的相关概率。但是,我们知道,深度神经网络(DNN)通常没有得到很好的校准,并且具有多种不确定性来源,因此神经排序器可能无法满足[C1]和[C2]。鉴于L2R方法的成功-尤其是基于BERT的方法-我们首先分析确定性的情况,即输出点估计,神经排序器被校准。然后,根据我们的发现,我们使用两种技术来建模神经排序器的不确定性,
2021-09-22 00:21:59
177
原创 First Order Motion Model for Image Animation 阅读笔记
定义图像动画是指通过将从源图像提取的外观与从驱动视频导出的运动模式相结合来自动合成视频的任务。研究现状传统的图像动画和视频重定位方法是针对特定领域设计的,如人脸、人体轮廓或手势,并且需要对动画对象有很强的先验知识。例如,在人脸动画中,Zollhofer等人的方法产生了逼真的结果,但在许多应用中,这样的模型是不可用的。目前,生成性对抗网络(GANs)和可变自动编码器(VAE)已被用于在视频中转换人类对象之间的面部表情或运动模式。然而,这些方法通常依赖于预训练模型来提取特定于对象的表示,例如关键点位置。而
2021-09-22 00:21:14
947
原创 Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to Corpus Exploration论文阅读笔记
问题:因为bert是在长文本(512token长度)预训练的,因此,如果没有特定于任务的微调,BERT在短语和句子上的表现通常比简单基线(如GLoVe的平均池化)更差。且字节2020在EMNLP上的On the Sentence Embeddings from Pre-trained Language Models一文证明了BERT 更加依赖词汇重叠来确定短语和句子的相似性。先前提出的解决方法:在预训练阶段预测跨度而不是单词(Joshi 等人,2019 年),在较短文本上微调 BERT(Reime
2021-09-22 00:16:48
467
转载 解决AttributeError: module ‘tensorflow_core.activations‘ has no attribute ‘swish‘
今天使用transformers遇到这个错误,查了很多都是说pytorch、tensorflow以及keras版本不对应问题。更改torch版本和transformers版本均不行,按照别人经验将tensorflow升级为最新2.3.1版也不行。看报错发现是下面这句点进去,将该激活方法注释掉即可。(前提是我没有使用到)解决!...
2021-05-08 14:52:31
1235
2
转载 Learning to Rank(L2R)学习记录
一、什么是排序学习?Wikipedia的对排序学习的定义如下:“Learning to rank is the application of machine learning, typically supervised, semi-supervised or reinforcement learning, in the construction of ranking models for information retrieval systems. Training data consists of l
2021-01-19 16:51:10
547
原创 常用命令list
虚拟环境相关:1.新建虚拟环境conda create -n env_name python=X.X(2.7、3.6等)命令创建python版本为X.X、名字为env_name的虚拟环境。2. 查看环境conda env list 或 conda info -e(-env) 查看当前存在哪些虚拟环境。3. 激活你的虚拟环境(即切换环境)Linux: source activate env_name(虚拟环境名称)Windows: (conda) activate env_name(虚拟环境名
2020-07-27 17:15:54
442
原创 cv学习中遇到的问题及解决方法
1.解决ASSERT: “false” in file qasciikey.cpp, line 501报错方法。MobaXterm中的一种解决方法是取消选中X11设置中的“ Unix兼容键盘”。使用cv2.putText()只能显示英文字符,中文会出现乱码问题,因此使用PIL在图片上绘制添加中文,可以指定字体文件。如下: img = Image.fromarray(cv2.cvtColor(img, cv2.COLOR_BGR2RGB)) draw = ImageDraw.Draw(img)
2020-07-21 09:01:38
1274
原创 paddlehub使用总结
因为目前使用paddlepaddle的人数还太少,查找一些信息不方便,记录一下自己遇到的坑方便别人查找。不定时更新中...... 1. padlehub多卡训练,指定GPU编号 只需要在run_confing中设置use_cuda=True,use_data_parallel=True,然后训练时候指定gpu即可。如CUDA_VISIBLE_DEVICES=0,1,2,3 python classifier.py --module_name ernie_tiny --ckpt_di...
2020-07-19 10:26:03
3272
原创 DETR(DEtection TRansformer)的初步摸索
DETR是FIR提出的基于Transformers的端到端目标检测,没有NMS后处理步骤、没有anchor,结果在coco数据集上效果与Faster RCNN相当,且可以很容易地将DETR迁移到其他任务例如全景分割。引用知乎大佬的画来说,这种做目标检测的方法更合理。优点:1、提出了一种目标检测新思路,真正的end-to-end,更少的先验(没有anchor、nms等);2、在coco上,准确率、运行效率与高度优化的faster R-CNN基本持平。在大目标上效果比faster R-CNN好。3
2020-06-11 09:21:13
28603
7
转载 调用预训练好的XLnet词向量
调用XLnet模型训练好的词向量做W2V的方法如下:1.pip install pytorch_transformers2.下载预训练模型3.如下Getw2v()代码块获取词向量4. 使用词向量进行其他后续操作,如进行句子相似性判断,做命名实体识别等。以下代码是进行句子相似性判断的示例。from pytorch_transformers import XLNetModel,XLNetCo...
2020-04-02 16:25:05
1845
13
原创 NLP词向量介绍
全文均为笔者的理解,不权威也不一定准确,如有错误欢迎指正。NLP的核心问题,就是学习不同语境下的语义表示,所谓的语义表示呢,就是以量化的方式来表示一个单词,即我们今天要说的——词向量。词向量作为一种预训练模型在NLP领域应用非常广泛,词向量可以看作是用来表达词的语义。在这个领域,一个重要的挑战为一个单词在不同的上下文里有可能表示不一样的语义,该如何解决这个问题呢?那就是加入了上下文信息来区分同一...
2020-02-20 17:22:08
1090
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人