- 博客(20)
- 收藏
- 关注
原创 解决WordPress初建站时无法上传图片问题
利用默认的古登堡编辑器上传图片时,显示PHP Warning: File upload error - unable to create a temporary file in Unknown on line 0,或“服务器无法处理xxx”本问题在我这里是由于PHP在user权限下没有对Windows目录下Temp文件夹的修改权限导致。Solution:在任意目录下新建一个Temp文件夹,随便命名。在php.ini中如图配置upload_tmp_dir即可解决。可以顺便改改最大上传文件大小。
2024-08-05 00:50:28
289
原创 详细解读(三):文本嵌入表示和语义检索
向量数据库Faiss是Facebook AI研究院开发的一种高效的。它能够快速处理大规模数据,并且支持在。索引是Faiss进行高效搜索的关键。
2024-06-24 10:47:05
289
原创 后端实现(五):资源整合格式并POST到指定url
分别实现了根据用户query使用自己设计的滑动窗口方法切分并在知识图谱中匹配实体。返回关键实体列表,可以使用实体查询知识图谱并返回关键子图,返回formatted过后的模型回复等一系列用到的所有后端接口。实现了所有后端接口,以抛出指定url下post方法的形式与Vue前端相连接,前端只需要带参(如用户此次query内容)使用requests库请求指定url即可得到后端回复。前端只需要使用request库请求即可得到响应结果。
2024-06-24 08:55:19
140
原创 后端实现(四):API方式实时抛出增强后的模型回复
每次调用模型后在user_query后主动增强一条system的输入,含有系统检索到的相关实体知识。
2024-06-24 08:54:48
153
原创 后端实现(三):接口实现-对接具体数据库操作
每次调用模型后在user_query后主动增强一条system的输入,含有系统检索到的相关实体知识举例:user_query:每次对话后都进行实体识别和基于知识图谱的知识检索实现基于Flask的后端接口供前端请求前端只需要使用request库请求即可得到响应结果实现了所有后端接口,以抛出指定url下post方法的形式与Vue前端相连接,前端只需要带参(如用户此次query内容)使用requests库请求指定url即可得到后端回复。分别实现了根据用户query使用自己设计的滑动窗口
2024-06-24 08:53:52
359
原创 后端实现(二):接口抛出指定格式数据对象
基于bert-base-chinese模型和词表对文本进行初步语义压缩。根据自己设计的滑动窗口法对问句进行划分,进行子实体识别及匹配。根据实体识别窗口确定句子在向量空间中最邻近的k个子实体。确定实体在向量空间中最邻近的k个实体。列表及字典的统一去重方法。
2024-06-24 08:37:42
162
原创 语义理解(四):语义地图的生长
采用配置api_key的方式从后端请求LLM回复已经是非常成熟的方式了,恰逢阿里通义千问Qwen2系列模型全面免费试用,本篇博客将以Qwen2为base model进行讲解。阿里百炼注册目前还可以免费领100万Tokens。
2024-06-24 08:27:02
137
原创 语义理解(三):在知识图谱中的语义拓展检索
RAG(Retrieval-Augmented Generation)是一种将检索和生成结合起来的方法。具体来说,RAG首先从一个大型数据库中检索与查询相关的文档,然后使用这些检索到的文档作为上下文,生成回答或文本。这样的方式可以显著提高生成文本的相关性和信息丰富性。
2024-05-31 15:19:19
366
原创 语义理解(二):实体Embedding及向量相似度匹配
在处理数据分析或文档处理时,PDF文档中的内容往往需要转换为纯文字形式以便于后续操作。为了实现这一目标,可以使用OCR技术。OCR技术能够自动识别PDF文档中的文字,并将其转换为可编辑的纯文字内容。在处理PDF文档时,获取纯文字信息只是第一步。为了进一步分析和处理文本数据,需要对其进行文本划分和向量化。我们考虑直接使用大参数模型(如Qwen-72B)对文本进行清洗,详见其他成员博客。使用RapidOCR提供的方法对PDF文件进行识别,得到初始数据。文本划分计划通过Jieba/HanLP等实现.
2024-05-31 14:43:36
387
原创 语义理解(一):滑动窗口切分用户Query中的实体
考虑到本项目面向的人群主要是山东大学软件学院的学生/老师, 我们需要采集高质量的课程知识资料. 校内维护的高质量课程复习资料可以从山软智库公开平台进行采集, 公开平台也可以获取到课程参考书目和百科资料. 对于获取到的多种资料, 需要进行数据预处理才可以转化为可使用的纯文本.课程参考教材和书目中包含大量结构化的知识,这些知识以清晰、系统的方式呈现,便于学习者查阅和理解。这种知识关联的方式,有助于构建一个完整的知识网络,使学习者在理解某一特定概念时,可以同时了解到与之相关的其他概念,从而形成系统的知识体系。
2024-05-31 14:43:03
358
原创 知识图谱操作(四)Neo4j-基于节点和节点集构建知识地图(关键子图)
Context:通过用户输入在向量库中检索到的相关文档。Answer:模型回复。Query:用户输入。
2024-05-31 14:30:43
344
原创 知识图谱操作(二)Neo4j -设计基础SQL(CYPHER查询)
向量化计划通过Faiss向量数据库实现.文本嵌入后,考虑对嵌入的向量归入Faiss库。
2024-05-31 14:27:47
311
原创 知识图谱操作(一)Neo4j储存基于实体和关系的知识图谱
可视化问答系统的向量化是非常重要的一环.可视化问答系统数据库的向量化主要考虑将数据预处理部分得到的纯txt文件通过faiss向量库标准化为向量以便后续进行RAG增强检索.
2024-05-31 14:27:09
511
原创 文本向量化(二)基于Faiss向量数据库语义向量检索
目标函数的值(在 k-means 情况下为总平方误差)随迭代次数的变化存储在变量中,并且更详细的统计信息存储在.kmeans.objkmeans.iteration_stats 中。通过PCA,我们可以将Embedding后得到的高维数据投影到一个较低维度的子空间中,这个子空间由数据方差最大的方向(即主成分)构成,从而简化数据结构并突出主要特征。k-means聚类能够通过迭代优化最小化簇内的总平方误差,从而找到数据的自然分组。k-means聚类是一种常用的无监督学习算法,用于将数据分为k个簇。
2024-05-31 14:24:43
686
原创 文本向量化(一)基于Bert-Base-Chinese的文本Embedding
向量数据库Faiss是Facebook AI研究院开发的一种高效的。它能够快速处理大规模数据,并且支持在。索引是Faiss进行高效搜索的关键。
2024-05-31 14:23:06
522
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人