夏离-优快云博客

原创 vLLM V1源码学习（基于0.8.2）

GitHub:本文基于官方说明和v0.8.2源码学习v1架构和说明。

2025-04-15 15:20:37 1524 1

原创 centos7使用gpu加速的MinerU

由于官方只有ubantu的安装教程，并没有基于centos7的，故需要自己修改命令安装并使用。在运行此 Docker 容器之前，您可以使用以下命令检查您的设备是否支持 Docker 上的 CUDA 加速。注意cuda的版本需要和nvidia-smi中显示的一致验证结果：那就不用docker，

2025-03-13 16:11:26 959

原创无网络entos7报错ImportError: /lib64/libm.so.6: version `GLIBC_2.27‘ not found更新glibc

最近在尝试使用sklearn的升级版cuml，因为是一台没有连接互联网的gpu机器，所以构建cuml环境过程很坎坷，需要各种将各种whl包在线下载后上传到服务器中。

2024-09-26 18:16:21 1924

原创 Retrieval-Augmented Generation for Large Language Models: A Survey论文阅读

大语言模型常常制造虚假事实，在处理特定领域或高度专业化的查询时缺乏知识。例如，当所需信息超出模型训练数据的范围或需要最新数据时，LLM可能无法提供准确的答案。这一限制在将生成型人工智能部署到现实世界的生产环境中构成挑战，可能不够盲目使用黑盒LLM。神经网络通过微调模型以参数化知识来适应特定领域或专有信息。虽然这种技术取得了显著成果，但它需要大量的计算资源，成本高昂，并需要专业的技术专长，使其适应性较差。参数化知识和非参数化知识发挥着不同的作用。

2024-06-11 11:47:18 936 1

原创 LLMs Know What They Need: Leveraging a Missing Information Guided Framework to Empower RAG 论文笔记

它将从检索到的上下文中提取与查询有用的信息作为输入，以确定是否可以回答问题。它将返回带有解释或缺失信息的最终答案，具体取决于其确定。，由查询生成器、检索器和知识过滤器组成。给定原始查询、先前询问的查询、提取的有用信息以及 Main 模块输出的缺失信息，查询生成器将首先生成更简单、更多样化的新查询，以方便后续检索。然后，检索器获取相关的外部知识以响应这些查询，这些查询通过知识过滤器进行过滤，以消除段落和句子级别的噪音。，读取检索到的外部知识，以提取有用的信息，并引用支持段落。

2024-04-30 15:49:32 1251 1

原创 Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs论文阅读笔记（未完待续）

CoT 的自然演变涉及用其他类型的中间组件（即中间链）替换思维推理。进一步将它们分为以下亚型。

2024-04-28 15:28:49 1270 1

原创 Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation 论文阅读笔记

说明：在本篇中，⊕ 表示文本拼接传统的RAG方法在生成阶段，一般prompt做法为：前文信息（包括身份，背景，要求等）拼接检索到的docs（doc1，doc2，.......docn）用户query如下图naive llm-rag所示：而本文的方法则是使用如图叠加提示的方式来做。rag查询到的文档数量为m，通过设置叠加因子 y ∈[1，m]，则“每条路径的有效文档”为 m/y，当y=1时，已经简化为“经典”（Naive LLM-RAG）情况。

2024-04-22 11:15:13 1438 1

原创解决‘BaichuanTokenizer‘ object has no attribute ‘sp_model‘，无需重装transformers和torch

如https://github.com/baichuan-inc/Baichuan2/issues/204。注意需要把模型文件download到本地后修改模型文件中的tokenization_baichuan.py。修改下 tokenization_baichuan.py ，把 super() 修改到最后执行。

2023-11-01 15:34:03 5094 2

原创 decapoda-research/llama-7b-hf 的踩坑记录

将tokenizer_config.json中LLaMATokenizer改为LlamaTokenizer。使用transformers加载decapoda-research/llama-7b-hf的踩坑记录。替换原本的tokenizer_config.json。

2023-10-23 20:31:33 2306 1

原创解决报错RuntimeError: Failed to import transformers.trainer_seq2seq because of the following error

参考：https://github.com/huggingface/transformers/issues/23340。需要升级accelerate包。

2023-10-17 14:22:04 9161

原创解决docker使用pandarallel报错OSError: [Errno 28] No space left on device

在使用pandarallel报错OSError: [Errno 28] No space left on device，根据上述issue发现确实默认使用的MEMORY_FS_ROOT为 /dev/shm，而在docker环境下这个目录大小只有64M，完全不够处理数据。一开始已经加了参数而而在pandarallel/core.py中依旧没有被覆盖改写，后来经过打印os.environ发现传入的参数没有覆盖成功，需要将上述代码。放在执行文件的最上面即可成功覆盖参数。

2023-10-14 17:51:31 1541 4

原创【论文笔记】LLM-Augmenter

github：https://github.com/pengbaolin/LLM-Augmenter（暂无处readme外其他文件）![在这里插入图片描述](https://img-blog.csdnimg.cn/24cba6213c0f4c00a5646eb9007b3aa2.png#pic_center。

2023-10-13 17:53:02 866

原创【论文笔记】A Survey of Hallucination in “Large” Foundation Models

基础模型（Foundation Models）指的是通过自监督学习在大量未标记数据上训练的大规模AI模型，能够在各种各样的任务中表现出色。在基础模型的背景下,幻觉（Hallucination）是指模型生成的内容不是基于事实或准确信息的情况。当模型生成的文本包括虚构的、误导性的、或完全捏造的细节、事实或主张,而不是提供可靠和真实的信息时,就会发生幻觉。之所以会出现这个问题,是因为模型能够根据它从训练数据中学习到的模式生成听起来可信的文本,即使生成的内容与现实不符。

2023-10-07 19:56:28 387

原创大模型面试基础+八股文【持续更新中】

来源：https://redian.news/wxnews/488452一些参考：https://zhuanlan.zhihu.com/p/643560888https://zhuanlan.zhihu.com/p/643829565https://zhuanlan.zhihu.com/p/558286175https://zhuanlan.zhihu.com/p/632102048https://github.com/5663015/LLMs_train论文《Finetuned Language

2023-08-14 10:23:44 5972

原创解决from conda.cli import main Module NotFoundError: No module named ‘conda‘问题，无需重装

这里写自定义目录标题最近遇到问题from conda.cli import main Module NotFoundError: No module named 'conda'查了一圈资料，发现是在安装包的时候也更新了python版本，导致conda中python版本与实际python版本不一致，一个可行的解决办法是可以只重装anaconda不重装环境https://blog.youkuaiyun.com/u011331731/article/details/89407914但由于我并不知道自己的ana

2022-03-06 20:25:15 5000

原创 On the Calibration and Uncertainty of Neural Learning to Rank Models 论文笔记

摘要：根据概率排名原则（PRP），按照文档的相关概率递减的顺序对文档进行排名，可以为临时检索提供最佳的文档排序。当满足两个条件时，PRP成立：[C1]模型已经很好地校准，并且[C2]报告了有把握的相关概率。但是，我们知道，深度神经网络（DNN）通常没有得到很好的校准，并且具有多种不确定性来源，因此神经排序器可能无法满足[C1]和[C2]。鉴于L2R方法的成功-尤其是基于BERT的方法-我们首先分析确定性的情况，即输出点估计，神经排序器被校准。然后，根据我们的发现，我们使用两种技术来建模神经排序器的不确定性，

2021-09-22 00:21:59 229

原创 First Order Motion Model for Image Animation 阅读笔记

定义图像动画是指通过将从源图像提取的外观与从驱动视频导出的运动模式相结合来自动合成视频的任务。研究现状传统的图像动画和视频重定位方法是针对特定领域设计的，如人脸、人体轮廓或手势，并且需要对动画对象有很强的先验知识。例如，在人脸动画中，Zollhofer等人的方法产生了逼真的结果，但在许多应用中，这样的模型是不可用的。目前，生成性对抗网络（GANs）和可变自动编码器（VAE）已被用于在视频中转换人类对象之间的面部表情或运动模式。然而，这些方法通常依赖于预训练模型来提取特定于对象的表示，例如关键点位置。而

2021-09-22 00:21:14 1039

原创 Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to Corpus Exploration论文阅读笔记

问题：因为bert是在长文本（512token长度）预训练的，因此，如果没有特定于任务的微调，BERT在短语和句子上的表现通常比简单基线（如GLoVe的平均池化）更差。且字节2020在EMNLP上的On the Sentence Embeddings from Pre-trained Language Models一文证明了BERT 更加依赖词汇重叠来确定短语和句子的相似性。先前提出的解决方法：在预训练阶段预测跨度而不是单词（Joshi 等人，2019 年），在较短文本上微调 BERT（Reime

2021-09-22 00:16:48 523

转载解决AttributeError: module ‘tensorflow_core.activations‘ has no attribute ‘swish‘

今天使用transformers遇到这个错误，查了很多都是说pytorch、tensorflow以及keras版本不对应问题。更改torch版本和transformers版本均不行，按照别人经验将tensorflow升级为最新2.3.1版也不行。看报错发现是下面这句点进去，将该激活方法注释掉即可。（前提是我没有使用到）解决！...

2021-05-08 14:52:31 1318 2

转载 Learning to Rank(L2R)学习记录

一、什么是排序学习？Wikipedia的对排序学习的定义如下：“Learning to rank is the application of machine learning, typically supervised, semi-supervised or reinforcement learning, in the construction of ranking models for information retrieval systems. Training data consists of l

2021-01-19 16:51:10 668

qq_35166730的博客