
项目实训-易学大模型
文章平均质量分 97
SDU 2024 项目实训
lyh20021209
山大软院在读 纯小白
展开
-
创新实训2024.06.17日志:大模型微调总结
前段时间其实我们已经部署了大模型,并开放了对外的web接口。不过由于之前某几轮微调实验的大模型在对话时会有(例如响应难以被理解),因此我在项目上线后,监控了数据库里存储的对话记录。确定了最近一段时间部署的大模型回复一切正常后,着手写这篇有关大模型微调记录的博客。原创 2024-06-17 19:34:52 · 1200 阅读 · 0 评论 -
创新实训2024.06.06日志:部署web服务
首先我们要先在服务器上运行客户端以及服务端的应用程序。随后再考虑如何通过公网/局域网访问的问题。如何启动服务在仓库对应分支下的Readme文件中已经有详细描述了。原创 2024-06-06 20:11:22 · 740 阅读 · 0 评论 -
创新实训2024.06.03日志:完善Baseline Test框架、加入对Qwen-14B的测试
在之前的一篇博客中(),我介绍了我们对于大模型进行基线测试的一些基本想法和实现,包括一些基线测试的初步结果。后来的一段时间,我一直在试图让这个框架变得更加可用、可扩展、可移植,因为我们想加入更多的大模型(无论在线离线、无论哪个组织开源的、无论多少超参数)进行基线测试,以此更好地衡量我们自己微调并利用RAG技术接入知识库的大模型的性能。在6.2号,我完成了。在6.3号,我完成了微调1000轮以及未微调的大模型接入知识库之后的基线测试。并且利用数据可视化脚本,绘制出了一份。原创 2024-06-04 00:18:28 · 889 阅读 · 0 评论 -
创新实训2024.06.02日志:SSE、流式输出以及基于MTPE技术的MT-SSE技术
之所以要做SSE,是因为在开发、调试以及使用我们开发的软件时,我发现消息的响应时间会很长。之所以会这样最主要的原因是,MTPE这项基于CoT的技术,本质上是多对大模型生成回答的能力进行增强。多步提示工程就延长了大模型思考、整理、融合检索到的知识的时间(也就是说我们。原创 2024-06-02 19:18:53 · 1088 阅读 · 0 评论 -
2024山软创新实训:软件系统架构
本文着重介绍本应用:基于开源LLM的易学大模型软件系统的架构。在经过2个月的探索、选型、实验、开发后,我们团队终于把整个系统的各块拼图搭建了起来,现在剩下的是集成、评测、优化和部署的工作。原创 2024-05-30 13:25:48 · 1189 阅读 · 2 评论 -
创新实训2024.05.29日志:评测数据集与baseline测试
(后续,我们会加入经过结构化文本构成的数据集微调的大模型,并有带/不带知识库两种类型,另外还可以加入国内外已有通用大模型,例如文心一言、ChatGPT等)。原创 2024-05-29 23:26:38 · 1168 阅读 · 0 评论 -
创新实训2024.05.28日志:记忆化机制、基于MTPE与CoT技术的混合LLM对话机制
在利用大模型自身能力进行对话与解答时,最好对用户当前会话的历史记录进行还原,大模型能够更好地联系上下文进行解答。在langchain chat chat的chat函数中,通过实现langchain框架提供的ChatMemory。就可以建立一个对话记录的缓冲区,随后读取历史会话记录到缓冲区,在对话时作为memory参数传入。原创 2024-05-28 01:52:19 · 1201 阅读 · 0 评论 -
创新实训2024.05.26日志:服务端接口实现——用户开启多个会话
类似于Kimi,文心一言,chatGPT等市面上主流的大模型,我们的大模型也支持同一个用户的多个会话,并且提供支持联系上下文给出解答的能力。原创 2024-05-26 19:47:57 · 881 阅读 · 0 评论 -
创新实训2024.05.26日志:落地基于硬盘的数据库服务
以下描述易学大模型软件的web应用的功能。原创 2024-05-26 19:26:25 · 942 阅读 · 0 评论 -
创新实训2024.05.25日志:Web应用技术选型
Uvicorn 是一个轻量级的 ASGI(Asynchronous Server Gateway Interface)服务器,用于运行 Python 的 ASGI 应用。ASGI 是一个标准接口,用于异步Web应用程序和服务器之间的通信,它允许你编写异步代码,从而提高应用程序的性能和可伸缩性。原创 2024-05-26 19:22:06 · 713 阅读 · 0 评论 -
创新实训2024.05.12日志:建立易学知识库
生产机上的环境还没有配好,这里我记录下需要配置的环境。原创 2024-05-16 09:06:49 · 755 阅读 · 0 评论 -
创新实训2024.05.01日志:document-loaders
在建立易学知识库的过程中,仅仅有向量数据库以及词嵌入模型、分词器是不够的,因为我们有大量的非结构化文本(如doc,pdf)或者是图片需要上传(例如pdf里面有图片),此时词嵌入无法直接向向量数据库中嵌入图片,需要对图片内文字进行识别,转换为文本后才能继续嵌入。原创 2024-06-21 14:13:11 · 860 阅读 · 0 评论 -
创新实训2024.04.24日志:RAG技术初探
现在我们知道了如何获取一个向量数据库的服务。但在哪里使用它,如何使用它呢?正如先前RAG的Working Pipeline中所说,用户在请求大模型进行任务时,先通过检索向量数据库获取相似知识优化Prompt,再进行提问。那么这样一套流程,是如何映射到代码中的,我们是如何使用向量数据库提供的检索功能的?原创 2024-04-25 18:56:28 · 1220 阅读 · 0 评论 -
项目实训2024.04.12日志:Self-QA生成问答对
Self-QA(Self Question Answering)技术是一种自然语言处理(NLP)技术,它旨在通过生成问题并自行回答来增强机器对文本的理解。这种技术通常用于提升机器学习模型,尤其是深度学习模型在问答、文本理解和生成等领域的性能。Self-QA技术的核心思想是通过模型自身生成的问题来测试和提高其对文本的理解能力。在这个过程中,模型需要对给定的文本内容进行深入分析,生成相关的问题,然后使用文本内容来回答这些问题。通过这种方式,模型可以在没有额外标注数据的情况下进行自我训练和优化。原创 2024-04-12 23:25:27 · 3309 阅读 · 0 评论 -
创新实训2024.04.11日志:self-instruct生成指令
例如,”写一篇有关校园安全的短文“可以是一个合法的、我们期望LM直接回答的问题,但当他变成”写一篇有关下述主题的短文“,就成了一个指令,随后”校园安全“可以作为一个实例的输入(也即问题)。之后,根据step1:Instruction Generation,从种子指令中挑选5条,迭代生成的指令中挑选5条(可能会重复,但不用担心,最后我们会去重的)。一开始的初始语料还是需要我们自己搜集的。简单来说,传统的NLP技术需要涉及两大不可或缺的步骤:大型的预训练好的大语言模型以及人工搜集的语料(指令数据)。原创 2024-04-11 19:40:04 · 1340 阅读 · 0 评论 -
创新实训2024.04.07日志:提取QA对
创新实训2024.04.07日志:提取QA对原创 2024-04-08 00:09:56 · 1573 阅读 · 2 评论