- 博客(33)
- 收藏
- 关注
原创 MiniRAG检索流程详细图解
fill:#333;color:#333;color:#333;fill:none;important;important;important;important;important;important;important;important;important;important;important;important;important;important;important;important;important;important;important;important;important;
2025-03-28 17:10:47
1031
原创 大模型做导师之复杂设计
总体而言,这种设计在模块化和灵活性方面是有益的,但也需要注意复杂性和命名的清晰性。适当的文档和示例可以帮助开发者更好地理解这些组件的用途和相互关系。如果在实际使用中发现性能问题或复杂性过高,可以考虑简化设计或优化实现。
2025-02-21 10:59:49
324
原创 大模型做导致之技术盲点
从学习项目的角度来看,我建议你先了解 async/await 的基础知识,因为这是 LightRAG 项目的一个核心设计特性。
2025-02-21 10:58:34
747
原创 fun-transformer学习笔记-Task2——Attention机制和Transformer模型
编码器-解码器结构编码器:将输入序列映射为隐藏表示。解码器:基于编码器输出生成目标序列。核心组件自注意力机制:捕捉序列内部的依赖关系。前馈网络:对注意力输出进行非线性变换。位置编码:为模型提供序列位置信息。
2025-02-15 22:36:35
372
原创 fun-transformer学习笔记-Task1——Transformer、Seq2Seq、Encoder-Decoder、Attention之间的关系
这种发展脉络体现了从最初的序列映射(Seq2Seq、Encoder–Decoder),再到利用 Attention 改进信息传递,最终到用 Transformer 架构构建大规模、并行高效的模型的过程。“Seq2Seq”(sequence‐to‐sequence)是一类用于将一个变长序列映射为另一个变长序列的任务(例如机器翻译、对话生成等)。传统的 Encoder–Decoder 模型将整个输入序列压缩成一个固定的向量,这在处理长序列时往往会丢失关键信息(即所谓的信息瓶颈问题)。
2025-02-12 23:02:41
399
原创 大模型做导师之方案版本比较
在阅读lightRAG项目时,利用LLM辅助进行理解,当询问LLM如何自定义一个符合项目要求的大模型调用函数时,LLM给出了两个不同的版本。借此想提升一下自己的编程质量,于是让LLM对两个版本进行点评比较。
2025-02-07 18:20:11
414
原创 neo4j备份2-恢复数据
个人推断此错误是由于当前apoc.import.json方法没有正确处理label中存在空白的情况,直接修复此错误并不容易,因此选择了另外一个方法进行导入。即使用apoc.load.json,该方法仅仅是读取json文件,需要结合Cypher语句创建节点和关系。
2024-09-28 19:18:11
529
原创 Langchain 使用LCEL实现时,如何保留中间数据
对于很多常见的任务,它可以极大地简化链条配置。看一个具体的例子,这个例子对用户输入的问题进行实体识别,然后对识别的结果进行实体链接,同时完成schema的获取;最后,利用这些中间结果,将用户问题改写为针对neo4j数据库的查询语句。例如,我们可以利用LCEL语法轻松的将不同组件连接起来(类似于管道),形成一个完整的链条,让程序顺着链条一步一步执行下去。执行这样一个简单的链条可以直接获得最终的结果,但是如果想保留中间每一步计算的结果,应该如何修改呢?查看官方文档,可以找到这两段描述。
2024-09-20 17:22:16
493
1
原创 LangChain学习:如何评估模型
如何构建中提到了真实用户数据(real users)和合成数据(synthetically)对于问答系统来说,通常不期待应用输出精确的gold答案,而是输出similar答案。可以手动获取10-20数据项就开始评估,然后living constructs。仅10-50个数据也可以提供大量的价值,随时向数据集添加。验证大模型应用的第一步就是定义用于评估的数据集。无法准确定义Input对应的Ouput没有关系。所以评估时候可以使用LLM as judge。
2024-08-20 22:59:35
331
原创 安装pygraphvis
但是虽然安装了graphvis,也加入了系统变量,也重启了电脑,再次执行pip install pygraphvis 依然报错。找到了安装的正确姿势,使用下面的命令进行安装。如果你的Graphviz没有安装在默认位置,记得调整命令行中的路径。网上有的方案是去下载.wheel文件进行安装,但是能找到的.wheel文件都太久没有更新了。这个库依赖于graphvis, 所以首先需要做的就是去下载并安装graphvis。
2024-08-02 23:11:35
807
1
原创 测试llama3-8b的信息抽取能力 2
通过简单的主观测试发现,即使是相对简单的NER任务,原始的llama3-8b量化模型也不能满足信息抽取的需求。我们找到了面向信息抽取的微调好的LoRA,加载该模型测试效果。
2024-06-13 16:04:22
325
原创 Debug记录:TypeError: TextEncodeInput must be Union[TextInputSequence, Tuple[InputSequence, InputSequen
如何批量编码数据。encode方法仅针对单条数据虽然存在decode方法对应的batch_decode方法,但是,并不存在与encode对应的batch_decode方法
2024-06-11 18:32:43
1285
原创 测试llama3-8b的信息抽取能力 1
目前开源大模型在信息抽取任务上做的怎么样了。测试llama3-8b模型,通过huggingface transformers库加载模型并进行推理。
2024-06-05 16:55:55
513
原创 面试问题记录(LLM)
一个良好Prompt的结构是怎么样的,说一下关于如何调整Prompt的经验针对一次生成,如何自动的判断生成的质量是否符合要求? 是通过规则还是利用LLM反馈? 具体如何实现??微调一个信息抽取LORA模型,如何构造设置微调数据?如何进行多轮对话? 多轮对话时如何管理session?有没有比较过量化前后的差别?BF16 和 FP16 有什么差别?有没有用过GPT Store这类开发平台?说一下你对Agent的理解?
2024-05-24 07:07:37
167
1
原创 DEBUG记录 RuntimeError: cuDNN version incompatibility
解决pytorch报错 RuntimeError: cuDNN version incompatibility
2024-05-08 10:02:53
1162
1
原创 GPT是否解决了信息抽取问题?
在信息抽取任务上,GPT还落后于专用的有监督模型; 对于困难的任务,落后的更多;提出使用软匹配更准确的评估效果;对鲁棒性和错例进行了分析
2024-03-28 18:07:29
1090
2
转载 使jieba用户词典支持空格
将原始jieba字典中的空格更改为 @@ 1.原来:雅不可攀 3 nr 2.现在:雅不可攀@@3@@nr将自定义用户词典加入的词与词性中间的空格更改为@@ 1.原来:牵连关系 50 n 2.现在:牵连关系@@50@@n 更改jieba根目录下的__init__.py文件下代码: 1.原来:re_userdict = re.compile('^(.+?)( [0-9]+)?( [a-z]+)?$', re.U) 2.现在:re_userdict = re.compile('
2022-05-31 14:59:16
397
原创 常用公式latex记录
余弦相似度:cos(θ)=∑i=1n(xi×yi)∑i=1n(xi)2×∑i=1n(yi)2cos(\theta) = {\sum_{i=1}^{n}{(x_i \times y_i)} \over {\sum_{i=1}^{n}{(x_i)^2} \times \sum_{i=1}^{n}{(y_i)^2}}}cos(θ)=∑i=1n(xi)2×∑i=1n(yi)2∑i=1n(xi×yi)cos(\theta) = {\sum_{i=1}^{n}{(x_i \times y_i)} \
2022-01-13 10:09:10
1329
原创 安装Stanza(处理Stanza无法下载语言模型的错误:ConnectionError)
安装Stanza处理Stanza无法下载语言模型的错误:ConnectionError
2021-12-11 09:58:54
8372
8
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人