吾生有涯知无涯-优快云博客

原创 NLP信息抽取大总结：两种范式&三大任务&三种方案（带Prompt模板）

1.NLP的信息抽取的本质？2.信息抽取三大任务？3.信息抽取三大范式？范式一：基于自定义规则抽取（2018年前）范式二：基于Bert+下游任务建模抽取（2018年后）范式三：基于大模型+Promt抽取（2022年后）附1：Prompt信息抽取模板（1）实体抽取（2）关系抽取（3）事件抽取（4）三元组抽取附2：中文大模型抽取哪家强？附3：专用于信息抽取的模型2024.11.27典型的，使用自定义词典+分词工具+词性标注完成实体抽取；基于依存句法分析+自定义关系创建规则完成关系抽取。

2024-11-28 08:30:00 4009 4

原创文本嵌入方案大总结：从词向量到句向量

2024.11.13阶段性总结方案挑选从简单到复杂，简单方案有简单方案的优点，有时候杀鸡不需要牛刀。面对一个场景，不知道怎么选方案或模型时，可以优先用Glove或者Fasttext完成词向量训练，使用词向量平均的方式来获得句向量，成本非常低，快速在应用中构建出一个基准模型，后期若发现应用中存在着多义词、或者或句子中词的顺序敏感的场景，则可以考虑换用bert类的方法进行微调或者直接使用专门的嵌入模型。

2024-11-14 08:30:00 1308

原创 LightRAG成功跑通：Ollama+Qwen2.5+bge-large-zh-v1.5

LightRAG发展和更新很快，还有很多地方需要完善，当前模型中很多参数都是基于其自带的模型参数进行配置的，若是用到其它模型，则需要修改参数的地方没有明确给出，所以跑起来就会出现这样那样的问题，本质上都是模型参数设置的问题。官方的ollama demo写的很不错，但是如果不用其默认的LLM和embeding模型，也还是跑不起来的，下面将给出一个适配自己模型的ollama跑通教程，供来者参考。复制网页的内容，保存为本地的一个book.txt，将其和下面的程序放在一个路径下。

2024-11-07 08:30:00 11288 26

原创 GraphRAG成功跑通：以《小王子》为例

python -m graphrag.query --root graphrag --method local “小王子和狐狸的关系是什么？python -m graphrag.query --root graphrag --method local “小王子和狐狸的关系是什么？python -m graphrag.query --root graphrag --method local “这本书的主题是什么？创建索引：python -m graphrag.index --root graphrag。

2024-11-02 08:30:00 2256 6

原创【小笔记】时序数据分类算法最新小结

2024.1.15。

2024-01-16 08:00:00 7294 9

原创【知识图谱】知识图谱的本质是什么？

知识图谱是一种结构化的语义知识库，能够描述物理世界的实体、概念及其相互关系，本质是用于表示知识，给机器提供先验知识。换句话说，还有其它用于知识表示的方法，知识图谱只是其中的一种。知识是经过剪裁、塑造、解释、选择和转换了的信息如：“奥巴马是美国的前总统”，对机器而言就是一句话，不知道在讲什么；处理一下，如变成三元组：（美国，前总统，奥巴马），这就是一条知识了。这个转换的过程，就是知识表示将人类知识形式化或者模型化的过程就是知识表示。知识表示是将信息抽取成知识，用于给机器提供先验知识。

2022-10-01 21:52:39 7528 1

原创【flask】适合生产环境的高并发部署方案（gunicorn + gevent + supervisor）

历时两天，构建了基于python的微服务环境，该方案可用于生产环境，再搭配一个Nginx进行反向代理和负债均衡，可满足高并发需求。技术方案为：python + Flask + gunicorn + gevent + supervisor + Docker。

2022-08-14 19:49:54 7482

原创 LLM系列笔记之大模型的参数计算

。

2025-03-19 09:24:42 123

原创 LLM系列笔记之微调数据集格式

参考：https://llamafactory.readthedocs.io/zh-cn/latest/getting_started/data_preparation.html。

2025-03-18 08:30:00 819

原创 Glove安装及问题解决：找不到指定的模块

这个就是glove库运行时读取不到corpus_cython模块，但corpus_cython模块在电脑中是可以搜索到的，pycharm中通过Ctrl+B也可以定位。正常情况下，glove-python-binary安装好就可以使用，最开始我也能用，后来环境变化了之后，就突然不能用了。前提是你的电脑中存在corpus_cython.py,而原始程序中找不到，此时可以指定路劲进行访问。这个问题解决方式非常有价值，因此将这个记录下来，免得以后忘记了。网上查了一堆解决办法，没有一个有效解决。

2025-01-11 08:30:00 426

原创知识图谱嵌入大总结：难点、方法、工具、和图嵌入的区别

1.概念结构信息语义信息演变趋势2.KGE VS GE(图嵌入)共同点和区别？(1) 共同点(2) 区别GE的方法可否用于KGE？（1）直接应用（2）针对KG的调整与增强3.难点4.方法5.工具（待补充）5.工具（待补充）2024.12.23本文回答以下问题：知识图谱嵌入是什么，和图嵌入的区别？什么是语义信息和结构信息，模型如何同时保留这两种信息？知识图谱嵌入有哪些难点、方法和工具。

2024-12-24 08:30:00 2132 7

原创【pandas】A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_indexe

报错：A value is trying to be set on a copy of a slice from a DataFrame.在添加新列前再转换一次dataFrame。问题出现在添加新列前。

2024-12-13 14:27:44 505

原创 Spacy小笔记：zh_core_web_trf、zh_core_web_lg、zh_core_web_md 和 zh_core_web_sm区别

最近频繁用到spacy，就小记一下。2024.11.29。

2024-11-29 17:59:25 1098

原创谈谈对知识图谱发展的感受

归根到底，知识图谱只是一种数据的组织和表示方式，本质上和关系表是一种角色，所以其无论是在推荐系统、问答系统、搜索引擎，甚至是大模型应用中，都是扮演一个辅助的角色（提供结构化的外部知识库），换句话说，没有知识图谱也是OK的，很残忍，但是事实。在大模型时代，我感觉知识图谱会逐渐淡化其本身的应用方向，大模型不需要的东西都会被弱化，大模型需要的都会被强化，因此，知识图谱的存储和检索功能会被强化，其会逐渐强化为大模型的外挂知识库之一。只要图这种数据结构有存在的价值，知识图谱就不会消亡（但可能会变成其它样子）。

2024-11-26 08:49:28 184

原创【失败经验】将算法模型封装为安卓应用

背景：不懂安卓开发，希望能使用大模型编码完成安卓应用生成，调用算法模型进行预测。

2024-11-25 14:13:55 362

原创知识图谱之实体抽取大总结：难点和方法

在知识图谱中，实体是表示现实世界中具体或抽象事物的基本单元。实体可以是具体的对象、概念、事件、地点、人物等。每个实体在知识图谱中通常都有一个唯一的标识符（ID），并且可以具有多个属性和与其他实体的关系。所有你关注的内容都可以定义为实体。比如我在新闻领域中，关注时间、地点、人物；在医疗领域中，我关注症状、药物、科室、疾病原因、医疗手段；在汽车故障领域中，我关注故障现象、故障原因、维修手段；

2024-11-21 08:30:00 2016

原创激活函数大总结：是什么？为什么？怎么选？

1.什么是函数非线性？2. 为什么要用非线性激活函数？3.非线性激活函数常用有哪些？4.大模型中的非线性激活函数2024.11.15当我们谈神经网络的激活函数的时候，通常是指非线性激活函数，因为谈线性的没有什么意义。非线性是指函数不能表示为输入变量的简单线性组合（即多个变量通过加权求和的方式得到一个新变量）。eg：矩阵乘法，加权求和、多项式组合都是属于线性组合。

2024-11-16 08:30:00 1270

原创深度理解AI领域的嵌入

在数据处理和机器学习中，结构信息和语义信息是指数据中包含的两种不同类型的信息。了解这两者对于设计有效的数据表示和模型非常重要。结构信息 (Structural Information)结构信息指的是数据内部的组织方式和关系模式。它通常涉及数据元素之间的连接、排列和布局。结构信息对于理解数据的整体框架和组成至关重要。不同类型的数据有不同的结构信息表现形式：结构信息可以包括句子的语法结构（主谓宾结构）、段落的组织（如主题句和支持句的排列）、文档的章节划分等。

2024-11-16 08:30:00 1297

原创记录使用大模型过程中遇到的幻觉示例

我怀疑是这个应为这个模型比较新或者相关资料比较少，导致LLM并不认识它，所以再用一个知名度和流传度比较广的模型来试一下，它可以准确的回答。单开一篇，用来持续记录在使用通义千问过程中发现的幻觉问题，用来感知一个模型的能力边界，非常好！这个说明大模型对于这种“小众”的知识点很容易出现幻觉问题，本质是它在训练时缺少这方面的语料。正确答案：智源研究院。请欣赏大模型的胡诌😂。

2024-11-14 08:30:00 503

原创千问千问，什么是业务、服务、产品、功能？

进行问答生成，感觉回答的挺好的，帮助理清了很多我的很多概念困惑点，特别适合专注于技术而不懂业务的同学，供来者参考。

2024-11-12 08:30:00 951

原创常见混淆概念理清：从搜索引擎和检索引擎的区别说起

框架（Framework）、系统（System）、引擎（Engine）、平台（Platform）和架构（Architecture）是信息技术和软件工程中常用的概念，每个术语都有其特定的含义和应用场景。下面是对这些概念的总结及其主要区别：### 1. 框架（Framework）- **定义**：框架是一组预定义的类、库和工具，它们提供了一种结构化的方式来开发软件应用。框架通常包括一套标准的代码模板和最佳实践，简化了开发过程。

2024-11-12 08:30:00 901

原创 Python常用库版本匹配

langchain-chatchat0.3.1运行环境。可运行bert、glove等。langchain运行环境。

2024-11-01 09:00:00 1088

原创 Langchain基础例子

官方文档：langchain的更新非常快，变化也非常大。0.1：2024.10.2：2024.50.3：2024.9，不再支持python3.8下面代码是基于 0.2.16的。

2024-10-24 08:30:00 1181

原创 2024了，Neo4j能显示节点图片吗？

经过一番调研，答案是官方的是不能的.但有一个中文版可以显示网络图片作为节点背景。这个版本可以显示网络图片，不能显示本地图片。

2024-08-27 11:08:23 1193 2

原创【jieba】加载自定义词典注意事项

A：举例说明。jieba.add_word("数据采集")result = jieba.lcut("我正在做数据采集的工作")输出：[‘我’, ‘正在’, ‘做’, ‘数据采集’, ‘的’, ‘工作’]毫无疑问，其可以准确的对句子中的出现的“数据采集进行提取”。

2024-07-03 14:34:12 498

原创【scrapy】爬虫，从429状态码说起

（1）添加header信息，使其看起来更像浏览器访问。- 固定user-Agent：如下面是google浏览器的请求信息，当固定使用一个时，被识别为爬虫的风险很高Win64;轮换User-Agent：每次请求时就随机切换一个，模仿不同浏览器和设备访问（2）- 有些服务器会在返回的头部中添加"Retry-After"，告诉你多久之后重试。获取这个值，然后sleep就可以了。- 在setting.py中增加请求延长时间，可以固定或者随机选择一个时间进行动态延时。

2024-06-18 11:03:36 2263

原创【小笔记】如何在docker中更新或导入neo4j数据？

3.复制B的data/databases/neo4j，data/transactions/neo4j到A对应的路径下进行替换（替换前，可以先删除A挂载路径下的data/databases/neo4j，data/transactions/neo4j）。（2）大量数据（如十万、百万级），用neo4j-admin工具导入，百万级实体和关系导入，只需要秒级或几分钟级，缺点：必须基于空数据库，且neo4j处于未运行状态。上面给的是B的neo4j-admin导入方式，实际上其它方式，在容器外都是可用的哈。

2024-05-25 09:00:00 1368 1

原创【小笔记】streamlit使用笔记

一句话，这个东西是一个python的可视化库，当你想要给你的程序添加个web界面，而又不会或不想用前端技术时，你就可以考虑用它。

2024-05-10 11:29:59 2710 2

原创【小笔记】neo4j用load csv指令导入数据

很久没有用load CSV的方式导入过数据了因为它每次导入有数量限制（印象中是1K还是1W），在企业中构建的图谱往往都是大规模的，此时通常采用的是Neo4j-admin import方式。最近遇到了一些小样本数据，此时用load CSV来导入还是比较方便的。记录下来，供以后参考。

2024-05-10 11:02:13 754

原创【小笔记】问答系统可视化实现的三种方式

优点：灵活自由，可创建各种复杂和定制的可视化，如带图谱显示。后端：flask，Django，tornado。优点：无需学习前端技术栈即可搭建一个web。前端：echarts，D3，neovis。

2024-05-09 09:45:44 619

原创【小笔记】算法训练基础超参数调优思路

【学而不思则罔，思维不学则怠】9.29本文总结一下常见的一些超参数调优思路。

2024-01-17 08:30:00 520

原创【小笔记】用tsai库实现Rocket家族算法

项目：https://github.com/timeseriesAI/tsai简介：用于处理时间序列的工具库，包含TCN、Rockert等众多时间序列处理算法。

2024-01-17 08:00:00 2622 8

原创 ChatGLM3-6B的本地api调用

content”: “从前，在一个遥远的国度里，有一个美丽的村庄。有一天，一位智者来到了村子的广场，他跟村民们分享了这样一个故事：\n\n从前，有一片荒芜的土地，上面长满了各种美丽的花草。有一天，一只小鸟飞过来，告诉村子里的居民们，这片土地是一个魔法之地，只要每个人都在广场上许下一个美好的愿望，魔法”,可以看到，ChatGLM3-6B的默认调用接口和传递参数，及返回结果的参数与chatGLM2-6B的API有非常大的区别，并不兼容，需要有较大的修改。注意是POST方法！

2024-01-10 08:30:00 7998 6

原创 20分钟本地部署ChatGLM3-6B

和chatglm2相比，输出的结果似乎没有明显的改变，当最大的一个区别在于，chatglm2-6B有专门的int4版本，而chatglm3-gb取消了这个版本，在代码中可以直接指定量化版本。访问改地址即可进行对话：http://localhost:8501/email的地方直接回车，后面就会加载模型了。注意：chatglm3-6B约11G大小。

2023-12-13 11:00:41 3816 2

原创【小笔记】为什么语义相似度要用余弦相似度而不用欧式距离？

它计算的是两个向量夹角的cos值，只关注向量的方向，不考虑向量的绝对大小（因为不管长短，都会除以模变成单位向量），这也是它的缺点。一个只关注距离，一个只关注方向，为什么NLP就选择了余弦相似度呢？它计算的是高维空间中两个点之间的绝对距离，不考虑向量的方向性。

2023-10-19 20:45:24 1370 1

原创【知识图谱】KBQA核心架构小结

KBQA是指基于知识图谱的问答系统，是知识图谱的重要应用形式，基于知识图谱的问答和基于LLM的问答殊途同归。KBQA是一个系统，由多种功能模块组成，其核心架构梳理如下：下面对各个模块简单小结。

2023-10-16 19:25:55 731

原创【小笔记】复杂模型小数据可能会造成过拟合还是欠拟合？

【学而不思则罔，思而不学则殆】10.8。

2023-10-08 09:03:05 1879

原创【小笔记】从算法训练现象分析可能的参数设置问题-loss分析篇

【学而不思则罔，思而不学则殆】9.30首先给出一个理想的训练loss收敛图片：loss平滑的下降，并逐渐收敛到0.平滑说明学习率设置较合适，收敛到0说明模型在参数空间中收敛到一个很理想的区域。

2023-09-30 13:25:00 453

原创【小笔记】fasttext文本分类问题分析

【学而不思则罔，思维不学则怠】2023.9.28关于fasttext的原理及实战文章很多，我也尝试在自己的任务中进行使用，是一个典型的短文本分类任务，对知识图谱抽取的实体进行校验，判断实体类别是否正确，我构建了27000个样本，3种类别（A，B，C），经过调参，最好的F1只有0.61，感觉这就是它的天花板了，在网上看到很多人在自己的场景中都能达到0.8、0.9之类的，我就在想，为什么我这个提不上去。

2023-09-28 21:14:32 585

原创【小笔记】面对一个没搞过的任务，如何选择合适的算法模型？

确定要解决的问题是一个什么类型，在算法中有没有一个专业的任务名定义它，确定了问题类型就明确了问题解决方向。有时候我们要解决的问题可能有多种解决问题的角度，此时可能就会对应多个任务类型。举例：实体抽取是知识图谱中的一个任务，可以将其视为序列标注任务，也可以将其视为一个阅读理解任务。有时候待解决的问题可以作为一个复杂的任务，也可以拆分为多个子任务举例：实体抽取即可以作为一个完整的任务，也可以拆分为实体边界识别和实体类别分类两个子任务；

2023-09-28 11:19:35 214

无人驾驶原理与实践源码_3.3.4_NDT算法实例.7z

非全部书源码，为小节3.3.4，NDT算法实例，个人修改后成功运行的源码，教程见：https://blog.youkuaiyun.com/xiangxiang613/article/details/110187725

2020-11-26

无人驾驶原理与实践源码_2.6.4_基于Husky机器人的小案例.7z

非全部书源码，为小节2.6.4，基于Husky机器人的小案例，个人实现的源码，教程见：https://blog.youkuaiyun.com/xiangxiang613/article/details/110045652

2020-11-24

ST-emwin进阶笔记

这是个人学习emwin5.24时总结的经验笔记，都是自己在学习过程中遇到的问题及解决办法。网上能够参考的东西很少，这篇笔记能够解决很多问题了。希望对于初学者有帮助。目录如下： Header添加了字体大小后，会改变原来高度： 3 【教程】emwin显示中文： 3 如何改变ListView的Header字体大小和添加图片？ 12 【教程】中文字符设为透明背景： 12 需要在窗口显示字符时没显示出来 13 ListView的滚动条添加及使用问题： 13 ListView初始化时不能显示创建好的数据： 14 【教程】Emwin如何转换和显示透明图片 14 Header显示中文时初始化时不显示，有更新时才显示？ 17 【教程】如何设计透明窗口 17 emWin制作滑动效果 19 触摸屏的使用【教程】 19 如何界面自动控制实现点击效果，代替人工触摸控制 19 警示：处理WM_PAINT 时，不得执行某些操作 22 什么是模态窗口？ 23 窗口特效汇集： 23 如何让按键透明？ 25 ICONVIEW和BUTTON和区别？ 25 如何给控件换肤？ 25 如何点击按键切换背景图片？ 26 如何能够同时点击点击父窗口和子窗口的控件？ 27 什么情况下，两个窗口的句柄会相同？ 27 经验汇集： 28

2018-03-30

CAN和Modbus RS485总线协议对比总结

CAN和RS485总线协议对比一览表及各协议的特点说明，注：RS485的协议为Modbus协议

2018-03-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人