- 博客(82)
- 资源 (4)
- 收藏
- 关注

原创 NLP信息抽取大总结:两种范式&三大任务&三种方案(带Prompt模板)
1.NLP的信息抽取的本质?2.信息抽取三大任务?3.信息抽取三大范式?范式一:基于自定义规则抽取(2018年前)范式二:基于Bert+下游任务建模抽取(2018年后)范式三:基于大模型+Promt抽取(2022年后)附1:Prompt信息抽取模板(1)实体抽取(2)关系抽取(3)事件抽取(4)三元组抽取附2:中文大模型抽取哪家强?附3:专用于信息抽取的模型2024.11.27典型的,使用自定义词典+分词工具+词性标注完成实体抽取;基于依存句法分析+自定义关系创建规则完成关系抽取。
2024-11-28 08:30:00
4009
4

原创 文本嵌入方案大总结:从词向量到句向量
2024.11.13阶段性总结方案挑选从简单到复杂,简单方案有简单方案的优点,有时候杀鸡不需要牛刀。面对一个场景,不知道怎么选方案或模型时,可以优先用Glove或者Fasttext完成词向量训练,使用词向量平均的方式来获得句向量,成本非常低,快速在应用中构建出一个基准模型,后期若发现应用中存在着多义词、或者或句子中词的顺序敏感的场景,则可以考虑换用bert类的方法进行微调或者直接使用专门的嵌入模型。
2024-11-14 08:30:00
1308

原创 LightRAG成功跑通:Ollama+Qwen2.5+bge-large-zh-v1.5
LightRAG发展和更新很快,还有很多地方需要完善,当前模型中很多参数都是基于其自带的模型参数进行配置的,若是用到其它模型,则需要修改参数的地方没有明确给出,所以跑起来就会出现这样那样的问题,本质上都是模型参数设置的问题。官方的ollama demo写的很不错,但是如果不用其默认的LLM和embeding模型,也还是跑不起来的,下面将给出一个适配自己模型的ollama跑通教程,供来者参考。复制网页的内容,保存为本地的一个book.txt,将其和下面的程序放在一个路径下。
2024-11-07 08:30:00
11288
26

原创 GraphRAG成功跑通:以《小王子》为例
python -m graphrag.query --root graphrag --method local “小王子和狐狸的关系是什么?python -m graphrag.query --root graphrag --method local “小王子和狐狸的关系是什么?python -m graphrag.query --root graphrag --method local “这本书的主题是什么?创建索引:python -m graphrag.index --root graphrag。
2024-11-02 08:30:00
2256
6

原创 【知识图谱】知识图谱的本质是什么?
知识图谱是一种结构化的语义知识库,能够描述物理世界的实体、概念及其相互关系,本质是用于表示知识,给机器提供先验知识。换句话说,还有其它用于知识表示的方法,知识图谱只是其中的一种。知识是经过剪裁、塑造、解释、选择和转换了的信息如:“奥巴马是美国的前总统”,对机器而言就是一句话,不知道在讲什么;处理一下,如变成三元组:(美国,前总统,奥巴马),这就是一条知识了。这个转换的过程,就是知识表示将人类知识形式化或者模型化的过程就是知识表示。知识表示是将信息抽取成知识,用于给机器提供先验知识。
2022-10-01 21:52:39
7528
1

原创 【flask】适合生产环境的高并发部署方案(gunicorn + gevent + supervisor)
历时两天,构建了基于python的微服务环境,该方案可用于生产环境,再搭配一个Nginx进行反向代理和负债均衡,可满足高并发需求。技术方案为:python + Flask + gunicorn + gevent + supervisor + Docker。
2022-08-14 19:49:54
7482
原创 LLM系列笔记之微调数据集格式
参考:https://llamafactory.readthedocs.io/zh-cn/latest/getting_started/data_preparation.html。
2025-03-18 08:30:00
819
原创 Glove安装及问题解决:找不到指定的模块
这个就是glove库运行时读取不到corpus_cython模块,但corpus_cython模块在电脑中是可以搜索到的,pycharm中通过Ctrl+B也可以定位。正常情况下,glove-python-binary安装好就可以使用,最开始我也能用,后来环境变化了之后,就突然不能用了。前提是你的电脑中存在corpus_cython.py,而原始程序中找不到,此时可以指定路劲进行访问。这个问题解决方式非常有价值,因此将这个记录下来,免得以后忘记了。网上查了一堆解决办法,没有一个有效解决。
2025-01-11 08:30:00
426
原创 知识图谱嵌入大总结:难点、方法、工具、和图嵌入的区别
1.概念结构信息语义信息演变趋势2.KGE VS GE(图嵌入)共同点和区别?(1) 共同点(2) 区别GE的方法可否用于KGE?(1)直接应用(2)针对KG的调整与增强3.难点4.方法5.工具(待补充)5.工具(待补充)2024.12.23本文回答以下问题:知识图谱嵌入是什么,和图嵌入的区别?什么是语义信息和结构信息,模型如何同时保留这两种信息?知识图谱嵌入有哪些难点、方法和工具。
2024-12-24 08:30:00
2132
7
原创 【pandas】A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_indexe
报错:A value is trying to be set on a copy of a slice from a DataFrame.在添加新列前再转换一次dataFrame。问题出现在添加新列前。
2024-12-13 14:27:44
505
原创 Spacy小笔记:zh_core_web_trf、zh_core_web_lg、zh_core_web_md 和 zh_core_web_sm区别
最近频繁用到spacy,就小记一下。2024.11.29。
2024-11-29 17:59:25
1098
原创 谈谈对知识图谱发展的感受
归根到底,知识图谱只是一种数据的组织和表示方式,本质上和关系表是一种角色,所以其无论是在推荐系统、问答系统、搜索引擎,甚至是大模型应用中,都是扮演一个辅助的角色(提供结构化的外部知识库),换句话说,没有知识图谱也是OK的,很残忍,但是事实。在大模型时代,我感觉知识图谱会逐渐淡化其本身的应用方向,大模型不需要的东西都会被弱化,大模型需要的都会被强化,因此,知识图谱的存储和检索功能会被强化,其会逐渐强化为大模型的外挂知识库之一。只要图这种数据结构有存在的价值,知识图谱就不会消亡(但可能会变成其它样子)。
2024-11-26 08:49:28
184
原创 知识图谱之实体抽取大总结:难点和方法
在知识图谱中,实体是表示现实世界中具体或抽象事物的基本单元。实体可以是具体的对象、概念、事件、地点、人物等。每个实体在知识图谱中通常都有一个唯一的标识符(ID),并且可以具有多个属性和与其他实体的关系。所有你关注的内容都可以定义为实体。比如我在新闻领域中,关注时间、地点、人物;在医疗领域中,我关注症状、药物、科室、疾病原因、医疗手段;在汽车故障领域中,我关注故障现象、故障原因、维修手段;
2024-11-21 08:30:00
2016
原创 激活函数大总结:是什么?为什么?怎么选?
1.什么是函数非线性?2. 为什么要用非线性激活函数?3.非线性激活函数常用有哪些?4.大模型中的非线性激活函数2024.11.15当我们谈神经网络的激活函数的时候,通常是指非线性激活函数,因为谈线性的没有什么意义。非线性是指函数不能表示为输入变量的简单线性组合(即多个变量通过加权求和的方式得到一个新变量)。eg:矩阵乘法,加权求和、多项式组合都是属于线性组合。
2024-11-16 08:30:00
1270
原创 深度理解AI领域的嵌入
在数据处理和机器学习中,结构信息和语义信息是指数据中包含的两种不同类型的信息。了解这两者对于设计有效的数据表示和模型非常重要。结构信息 (Structural Information)结构信息指的是数据内部的组织方式和关系模式。它通常涉及数据元素之间的连接、排列和布局。结构信息对于理解数据的整体框架和组成至关重要。不同类型的数据有不同的结构信息表现形式:结构信息可以包括句子的语法结构(主谓宾结构)、段落的组织(如主题句和支持句的排列)、文档的章节划分等。
2024-11-16 08:30:00
1297
原创 记录使用大模型过程中遇到的幻觉示例
我怀疑是这个应为这个模型比较新或者相关资料比较少,导致LLM并不认识它,所以再用一个知名度和流传度比较广的模型来试一下,它可以准确的回答。单开一篇,用来持续记录在使用通义千问过程中发现的幻觉问题,用来感知一个模型的能力边界,非常好!这个说明大模型对于这种“小众”的知识点很容易出现幻觉问题,本质是它在训练时缺少这方面的语料。正确答案:智源研究院。请欣赏大模型的胡诌😂。
2024-11-14 08:30:00
503
原创 千问千问,什么是业务、服务、产品、功能?
进行问答生成,感觉回答的挺好的,帮助理清了很多我的很多概念困惑点,特别适合专注于技术而不懂业务的同学,供来者参考。
2024-11-12 08:30:00
951
原创 常见混淆概念理清:从搜索引擎和检索引擎的区别说起
框架(Framework)、系统(System)、引擎(Engine)、平台(Platform)和架构(Architecture)是信息技术和软件工程中常用的概念,每个术语都有其特定的含义和应用场景。下面是对这些概念的总结及其主要区别:### 1. 框架(Framework)- **定义**:框架是一组预定义的类、库和工具,它们提供了一种结构化的方式来开发软件应用。框架通常包括一套标准的代码模板和最佳实践,简化了开发过程。
2024-11-12 08:30:00
901
原创 Langchain基础例子
官方文档:langchain的更新非常快,变化也非常大。0.1:2024.10.2:2024.50.3:2024.9,不再支持python3.8下面代码是基于 0.2.16的。
2024-10-24 08:30:00
1181
原创 2024了,Neo4j能显示节点图片吗?
经过一番调研,答案是官方的是不能的.但有一个中文版可以显示网络图片作为节点背景。这个版本可以显示网络图片,不能显示本地图片。
2024-08-27 11:08:23
1193
2
原创 【jieba】加载自定义词典注意事项
A:举例说明。jieba.add_word("数据采集")result = jieba.lcut("我正在做数据采集的工作")输出:[‘我’, ‘正在’, ‘做’, ‘数据采集’, ‘的’, ‘工作’]毫无疑问,其可以准确的对句子中的出现的“数据采集进行提取”。
2024-07-03 14:34:12
498
原创 【scrapy】爬虫,从429状态码说起
(1)添加header信息,使其看起来更像浏览器访问。- 固定user-Agent:如下面是google浏览器的请求信息,当固定使用一个时,被识别为爬虫的风险很高Win64;轮换User-Agent:每次请求时就随机切换一个,模仿不同浏览器和设备访问(2)- 有些服务器会在返回的头部中添加"Retry-After",告诉你多久之后重试。获取这个值,然后sleep就可以了。- 在setting.py中增加请求延长时间,可以固定或者随机选择一个时间进行动态延时。
2024-06-18 11:03:36
2263
原创 【小笔记】如何在docker中更新或导入neo4j数据?
3.复制B的data/databases/neo4j,data/transactions/neo4j到A对应的路径下进行替换(替换前,可以先删除A挂载路径下的data/databases/neo4j,data/transactions/neo4j)。(2)大量数据(如十万、百万级),用neo4j-admin工具导入,百万级实体和关系导入,只需要秒级或几分钟级,缺点:必须基于空数据库,且neo4j处于未运行状态。上面给的是B的neo4j-admin导入方式,实际上其它方式,在容器外都是可用的哈。
2024-05-25 09:00:00
1368
1
原创 【小笔记】streamlit使用笔记
一句话,这个东西是一个python的可视化库,当你想要给你的程序添加个web界面,而又不会或不想用前端技术时,你就可以考虑用它。
2024-05-10 11:29:59
2710
2
原创 【小笔记】neo4j用load csv指令导入数据
很久没有用load CSV的方式导入过数据了因为它每次导入有数量限制(印象中是1K还是1W),在企业中构建的图谱往往都是大规模的,此时通常采用的是Neo4j-admin import方式。最近遇到了一些小样本数据,此时用load CSV来导入还是比较方便的。记录下来,供以后参考。
2024-05-10 11:02:13
754
原创 【小笔记】问答系统可视化实现的三种方式
优点:灵活自由,可创建各种复杂和定制的可视化,如带图谱显示。后端:flask,Django,tornado。优点:无需学习前端技术栈即可搭建一个web。前端:echarts,D3,neovis。
2024-05-09 09:45:44
619
原创 【小笔记】用tsai库实现Rocket家族算法
项目:https://github.com/timeseriesAI/tsai简介:用于处理时间序列的工具库,包含TCN、Rockert等众多时间序列处理算法。
2024-01-17 08:00:00
2622
8
原创 ChatGLM3-6B的本地api调用
content”: “从前,在一个遥远的国度里,有一个美丽的村庄。有一天,一位智者来到了村子的广场,他跟村民们分享了这样一个故事:\n\n从前,有一片荒芜的土地,上面长满了各种美丽的花草。有一天,一只小鸟飞过来,告诉村子里的居民们,这片土地是一个魔法之地,只要每个人都在广场上许下一个美好的愿望,魔法”,可以看到,ChatGLM3-6B的默认调用接口和传递参数,及返回结果的参数与chatGLM2-6B的API有非常大的区别,并不兼容,需要有较大的修改。注意是POST方法!
2024-01-10 08:30:00
7998
6
原创 20分钟本地部署ChatGLM3-6B
和chatglm2相比,输出的结果似乎没有明显的改变,当最大的一个区别在于,chatglm2-6B有专门的int4版本,而chatglm3-gb取消了这个版本,在代码中可以直接指定量化版本。访问改地址即可进行对话:http://localhost:8501/email的地方直接回车,后面就会加载模型了。注意:chatglm3-6B约11G大小。
2023-12-13 11:00:41
3816
2
原创 【小笔记】为什么语义相似度要用余弦相似度而不用欧式距离?
它计算的是两个向量夹角的cos值,只关注向量的方向,不考虑向量的绝对大小(因为不管长短,都会除以模变成单位向量),这也是它的缺点。一个只关注距离,一个只关注方向,为什么NLP就选择了余弦相似度呢?它计算的是高维空间中两个点之间的绝对距离,不考虑向量的方向性。
2023-10-19 20:45:24
1370
1
原创 【知识图谱】KBQA核心架构小结
KBQA是指基于知识图谱的问答系统,是知识图谱的重要应用形式,基于知识图谱的问答和基于LLM的问答殊途同归。KBQA是一个系统,由多种功能模块组成,其核心架构梳理如下:下面对各个模块简单小结。
2023-10-16 19:25:55
731
原创 【小笔记】从算法训练现象分析可能的参数设置问题-loss分析篇
【学而不思则罔,思而不学则殆】9.30首先给出一个理想的训练loss收敛图片:loss平滑的下降,并逐渐收敛到0.平滑说明学习率设置较合适,收敛到0说明模型在参数空间中收敛到一个很理想的区域。
2023-09-30 13:25:00
453
原创 【小笔记】fasttext文本分类问题分析
【学而不思则罔,思维不学则怠】2023.9.28关于fasttext的原理及实战文章很多,我也尝试在自己的任务中进行使用,是一个典型的短文本分类任务,对知识图谱抽取的实体进行校验,判断实体类别是否正确,我构建了27000个样本,3种类别(A,B,C),经过调参,最好的F1只有0.61,感觉这就是它的天花板了,在网上看到很多人在自己的场景中都能达到0.8、0.9之类的,我就在想,为什么我这个提不上去。
2023-09-28 21:14:32
585
原创 【小笔记】面对一个没搞过的任务,如何选择合适的算法模型?
确定要解决的问题是一个什么类型,在算法中有没有一个专业的任务名定义它,确定了问题类型就明确了问题解决方向。有时候我们要解决的问题可能有多种解决问题的角度,此时可能就会对应多个任务类型。举例:实体抽取是知识图谱中的一个任务,可以将其视为序列标注任务,也可以将其视为一个阅读理解任务。有时候待解决的问题可以作为一个复杂的任务,也可以拆分为多个子任务举例:实体抽取即可以作为一个完整的任务,也可以拆分为实体边界识别和实体类别分类两个子任务;
2023-09-28 11:19:35
214
无人驾驶原理与实践 源码_3.3.4_NDT算法实例.7z
2020-11-26
无人驾驶原理与实践 源码_2.6.4_基于Husky机器人的小案例.7z
2020-11-24
ST-emwin进阶笔记
2018-03-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人