自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(82)
  • 资源 (4)
  • 收藏
  • 关注

原创 NLP信息抽取大总结:两种范式&三大任务&三种方案(带Prompt模板)

1.NLP的信息抽取的本质?2.信息抽取三大任务?3.信息抽取三大范式?范式一:基于自定义规则抽取(2018年前)范式二:基于Bert+下游任务建模抽取(2018年后)范式三:基于大模型+Promt抽取(2022年后)附1:Prompt信息抽取模板(1)实体抽取(2)关系抽取(3)事件抽取(4)三元组抽取附2:中文大模型抽取哪家强?附3:专用于信息抽取的模型2024.11.27典型的,使用自定义词典+分词工具+词性标注完成实体抽取;基于依存句法分析+自定义关系创建规则完成关系抽取。

2024-11-28 08:30:00 4009 4

原创 文本嵌入方案大总结:从词向量到句向量

2024.11.13阶段性总结方案挑选从简单到复杂,简单方案有简单方案的优点,有时候杀鸡不需要牛刀。面对一个场景,不知道怎么选方案或模型时,可以优先用Glove或者Fasttext完成词向量训练,使用词向量平均的方式来获得句向量,成本非常低,快速在应用中构建出一个基准模型,后期若发现应用中存在着多义词、或者或句子中词的顺序敏感的场景,则可以考虑换用bert类的方法进行微调或者直接使用专门的嵌入模型。

2024-11-14 08:30:00 1308

原创 LightRAG成功跑通:Ollama+Qwen2.5+bge-large-zh-v1.5

LightRAG发展和更新很快,还有很多地方需要完善,当前模型中很多参数都是基于其自带的模型参数进行配置的,若是用到其它模型,则需要修改参数的地方没有明确给出,所以跑起来就会出现这样那样的问题,本质上都是模型参数设置的问题。官方的ollama demo写的很不错,但是如果不用其默认的LLM和embeding模型,也还是跑不起来的,下面将给出一个适配自己模型的ollama跑通教程,供来者参考。复制网页的内容,保存为本地的一个book.txt,将其和下面的程序放在一个路径下。

2024-11-07 08:30:00 11288 26

原创 GraphRAG成功跑通:以《小王子》为例

python -m graphrag.query --root graphrag --method local “小王子和狐狸的关系是什么?python -m graphrag.query --root graphrag --method local “小王子和狐狸的关系是什么?python -m graphrag.query --root graphrag --method local “这本书的主题是什么?创建索引:python -m graphrag.index --root graphrag。

2024-11-02 08:30:00 2256 6

原创 【小笔记】时序数据分类算法最新小结

2024.1.15。

2024-01-16 08:00:00 7294 9

原创 【知识图谱】知识图谱的本质是什么?

知识图谱是一种结构化的语义知识库,能够描述物理世界的实体、概念及其相互关系,本质是用于表示知识,给机器提供先验知识。换句话说,还有其它用于知识表示的方法,知识图谱只是其中的一种。知识是经过剪裁、塑造、解释、选择和转换了的信息如:“奥巴马是美国的前总统”,对机器而言就是一句话,不知道在讲什么;处理一下,如变成三元组:(美国,前总统,奥巴马),这就是一条知识了。这个转换的过程,就是知识表示将人类知识形式化或者模型化的过程就是知识表示。知识表示是将信息抽取成知识,用于给机器提供先验知识。

2022-10-01 21:52:39 7528 1

原创 【flask】适合生产环境的高并发部署方案(gunicorn + gevent + supervisor)

历时两天,构建了基于python的微服务环境,该方案可用于生产环境,再搭配一个Nginx进行反向代理和负债均衡,可满足高并发需求。技术方案为:python + Flask + gunicorn + gevent + supervisor + Docker。

2022-08-14 19:49:54 7482

原创 LLM系列笔记之大模型的参数计算

2025-03-19 09:24:42 123

原创 LLM系列笔记之微调数据集格式

参考:https://llamafactory.readthedocs.io/zh-cn/latest/getting_started/data_preparation.html。

2025-03-18 08:30:00 819

原创 Glove安装及问题解决:找不到指定的模块

这个就是glove库运行时读取不到corpus_cython模块,但corpus_cython模块在电脑中是可以搜索到的,pycharm中通过Ctrl+B也可以定位。正常情况下,glove-python-binary安装好就可以使用,最开始我也能用,后来环境变化了之后,就突然不能用了。前提是你的电脑中存在corpus_cython.py,而原始程序中找不到,此时可以指定路劲进行访问。这个问题解决方式非常有价值,因此将这个记录下来,免得以后忘记了。网上查了一堆解决办法,没有一个有效解决。

2025-01-11 08:30:00 426

原创 知识图谱嵌入大总结:难点、方法、工具、和图嵌入的区别

1.概念结构信息语义信息演变趋势2.KGE VS GE(图嵌入)共同点和区别?(1) 共同点(2) 区别GE的方法可否用于KGE?(1)直接应用(2)针对KG的调整与增强3.难点4.方法5.工具(待补充)5.工具(待补充)2024.12.23本文回答以下问题:知识图谱嵌入是什么,和图嵌入的区别?什么是语义信息和结构信息,模型如何同时保留这两种信息?知识图谱嵌入有哪些难点、方法和工具。

2024-12-24 08:30:00 2132 7

原创 【pandas】A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_indexe

报错:A value is trying to be set on a copy of a slice from a DataFrame.在添加新列前再转换一次dataFrame。问题出现在添加新列前。

2024-12-13 14:27:44 505

原创 Spacy小笔记:zh_core_web_trf、zh_core_web_lg、zh_core_web_md 和 zh_core_web_sm区别

最近频繁用到spacy,就小记一下。2024.11.29。

2024-11-29 17:59:25 1098

原创 谈谈对知识图谱发展的感受

归根到底,知识图谱只是一种数据的组织和表示方式,本质上和关系表是一种角色,所以其无论是在推荐系统、问答系统、搜索引擎,甚至是大模型应用中,都是扮演一个辅助的角色(提供结构化的外部知识库),换句话说,没有知识图谱也是OK的,很残忍,但是事实。在大模型时代,我感觉知识图谱会逐渐淡化其本身的应用方向,大模型不需要的东西都会被弱化,大模型需要的都会被强化,因此,知识图谱的存储和检索功能会被强化,其会逐渐强化为大模型的外挂知识库之一。只要图这种数据结构有存在的价值,知识图谱就不会消亡(但可能会变成其它样子)。

2024-11-26 08:49:28 184

原创 【失败经验】将算法模型封装为安卓应用

背景:不懂安卓开发,希望能使用大模型编码完成安卓应用生成,调用算法模型进行预测。

2024-11-25 14:13:55 362

原创 知识图谱之实体抽取大总结:难点和方法

在知识图谱中,实体是表示现实世界中具体或抽象事物的基本单元。实体可以是具体的对象、概念、事件、地点、人物等。每个实体在知识图谱中通常都有一个唯一的标识符(ID),并且可以具有多个属性和与其他实体的关系。所有你关注的内容都可以定义为实体。比如我在新闻领域中,关注时间、地点、人物;在医疗领域中,我关注症状、药物、科室、疾病原因、医疗手段;在汽车故障领域中,我关注故障现象、故障原因、维修手段;

2024-11-21 08:30:00 2016

原创 激活函数大总结:是什么?为什么?怎么选?

1.什么是函数非线性?2. 为什么要用非线性激活函数?3.非线性激活函数常用有哪些?4.大模型中的非线性激活函数2024.11.15当我们谈神经网络的激活函数的时候,通常是指非线性激活函数,因为谈线性的没有什么意义。非线性是指函数不能表示为输入变量的简单线性组合(即多个变量通过加权求和的方式得到一个新变量)。eg:矩阵乘法,加权求和、多项式组合都是属于线性组合。

2024-11-16 08:30:00 1270

原创 深度理解AI领域的嵌入

在数据处理和机器学习中,结构信息和语义信息是指数据中包含的两种不同类型的信息。了解这两者对于设计有效的数据表示和模型非常重要。结构信息 (Structural Information)结构信息指的是数据内部的组织方式和关系模式。它通常涉及数据元素之间的连接、排列和布局。结构信息对于理解数据的整体框架和组成至关重要。不同类型的数据有不同的结构信息表现形式:结构信息可以包括句子的语法结构(主谓宾结构)、段落的组织(如主题句和支持句的排列)、文档的章节划分等。

2024-11-16 08:30:00 1297

原创 记录使用大模型过程中遇到的幻觉示例

我怀疑是这个应为这个模型比较新或者相关资料比较少,导致LLM并不认识它,所以再用一个知名度和流传度比较广的模型来试一下,它可以准确的回答。单开一篇,用来持续记录在使用通义千问过程中发现的幻觉问题,用来感知一个模型的能力边界,非常好!这个说明大模型对于这种“小众”的知识点很容易出现幻觉问题,本质是它在训练时缺少这方面的语料。正确答案:智源研究院。请欣赏大模型的胡诌😂。

2024-11-14 08:30:00 503

原创 千问千问,什么是业务、服务、产品、功能?

进行问答生成,感觉回答的挺好的,帮助理清了很多我的很多概念困惑点,特别适合专注于技术而不懂业务的同学,供来者参考。

2024-11-12 08:30:00 951

原创 常见混淆概念理清:从搜索引擎和检索引擎的区别说起

框架(Framework)、系统(System)、引擎(Engine)、平台(Platform)和架构(Architecture)是信息技术和软件工程中常用的概念,每个术语都有其特定的含义和应用场景。下面是对这些概念的总结及其主要区别:### 1. 框架(Framework)- **定义**:框架是一组预定义的类、库和工具,它们提供了一种结构化的方式来开发软件应用。框架通常包括一套标准的代码模板和最佳实践,简化了开发过程。

2024-11-12 08:30:00 901

原创 Python常用库版本匹配

langchain-chatchat0.3.1运行环境。可运行bert、glove等。langchain运行环境。

2024-11-01 09:00:00 1088

原创 Langchain基础例子

官方文档:langchain的更新非常快,变化也非常大。0.1:2024.10.2:2024.50.3:2024.9,不再支持python3.8下面代码是基于 0.2.16的。

2024-10-24 08:30:00 1181

原创 2024了,Neo4j能显示节点图片吗?

经过一番调研,答案是官方的是不能的.但有一个中文版可以显示网络图片作为节点背景。这个版本可以显示网络图片,不能显示本地图片。

2024-08-27 11:08:23 1193 2

原创 【jieba】加载自定义词典注意事项

A:举例说明。jieba.add_word("数据采集")result = jieba.lcut("我正在做数据采集的工作")输出:[‘我’, ‘正在’, ‘做’, ‘数据采集’, ‘的’, ‘工作’]毫无疑问,其可以准确的对句子中的出现的“数据采集进行提取”。

2024-07-03 14:34:12 498

原创 【scrapy】爬虫,从429状态码说起

(1)添加header信息,使其看起来更像浏览器访问。- 固定user-Agent:如下面是google浏览器的请求信息,当固定使用一个时,被识别为爬虫的风险很高Win64;轮换User-Agent:每次请求时就随机切换一个,模仿不同浏览器和设备访问(2)- 有些服务器会在返回的头部中添加"Retry-After",告诉你多久之后重试。获取这个值,然后sleep就可以了。- 在setting.py中增加请求延长时间,可以固定或者随机选择一个时间进行动态延时。

2024-06-18 11:03:36 2263

原创 【小笔记】如何在docker中更新或导入neo4j数据?

3.复制B的data/databases/neo4j,data/transactions/neo4j到A对应的路径下进行替换(替换前,可以先删除A挂载路径下的data/databases/neo4j,data/transactions/neo4j)。(2)大量数据(如十万、百万级),用neo4j-admin工具导入,百万级实体和关系导入,只需要秒级或几分钟级,缺点:必须基于空数据库,且neo4j处于未运行状态。上面给的是B的neo4j-admin导入方式,实际上其它方式,在容器外都是可用的哈。

2024-05-25 09:00:00 1368 1

原创 【小笔记】streamlit使用笔记

一句话,这个东西是一个python的可视化库,当你想要给你的程序添加个web界面,而又不会或不想用前端技术时,你就可以考虑用它。

2024-05-10 11:29:59 2710 2

原创 【小笔记】neo4j用load csv指令导入数据

很久没有用load CSV的方式导入过数据了因为它每次导入有数量限制(印象中是1K还是1W),在企业中构建的图谱往往都是大规模的,此时通常采用的是Neo4j-admin import方式。最近遇到了一些小样本数据,此时用load CSV来导入还是比较方便的。记录下来,供以后参考。

2024-05-10 11:02:13 754

原创 【小笔记】问答系统可视化实现的三种方式

优点:灵活自由,可创建各种复杂和定制的可视化,如带图谱显示。后端:flask,Django,tornado。优点:无需学习前端技术栈即可搭建一个web。前端:echarts,D3,neovis。

2024-05-09 09:45:44 619

原创 【小笔记】算法训练基础超参数调优思路

【学而不思则罔,思维不学则怠】9.29本文总结一下常见的一些超参数调优思路。

2024-01-17 08:30:00 520

原创 【小笔记】用tsai库实现Rocket家族算法

项目:https://github.com/timeseriesAI/tsai简介:用于处理时间序列的工具库,包含TCN、Rockert等众多时间序列处理算法。

2024-01-17 08:00:00 2622 8

原创 ChatGLM3-6B的本地api调用

content”: “从前,在一个遥远的国度里,有一个美丽的村庄。有一天,一位智者来到了村子的广场,他跟村民们分享了这样一个故事:\n\n从前,有一片荒芜的土地,上面长满了各种美丽的花草。有一天,一只小鸟飞过来,告诉村子里的居民们,这片土地是一个魔法之地,只要每个人都在广场上许下一个美好的愿望,魔法”,可以看到,ChatGLM3-6B的默认调用接口和传递参数,及返回结果的参数与chatGLM2-6B的API有非常大的区别,并不兼容,需要有较大的修改。注意是POST方法!

2024-01-10 08:30:00 7998 6

原创 20分钟本地部署ChatGLM3-6B

和chatglm2相比,输出的结果似乎没有明显的改变,当最大的一个区别在于,chatglm2-6B有专门的int4版本,而chatglm3-gb取消了这个版本,在代码中可以直接指定量化版本。访问改地址即可进行对话:http://localhost:8501/email的地方直接回车,后面就会加载模型了。注意:chatglm3-6B约11G大小。

2023-12-13 11:00:41 3816 2

原创 【小笔记】为什么语义相似度要用余弦相似度而不用欧式距离?

它计算的是两个向量夹角的cos值,只关注向量的方向,不考虑向量的绝对大小(因为不管长短,都会除以模变成单位向量),这也是它的缺点。一个只关注距离,一个只关注方向,为什么NLP就选择了余弦相似度呢?它计算的是高维空间中两个点之间的绝对距离,不考虑向量的方向性。

2023-10-19 20:45:24 1370 1

原创 【知识图谱】KBQA核心架构小结

KBQA是指基于知识图谱的问答系统,是知识图谱的重要应用形式,基于知识图谱的问答和基于LLM的问答殊途同归。KBQA是一个系统,由多种功能模块组成,其核心架构梳理如下:下面对各个模块简单小结。

2023-10-16 19:25:55 731

原创 【小笔记】复杂模型小数据可能会造成过拟合还是欠拟合?

【学而不思则罔,思而不学则殆】10.8。

2023-10-08 09:03:05 1879

原创 【小笔记】从算法训练现象分析可能的参数设置问题-loss分析篇

【学而不思则罔,思而不学则殆】9.30首先给出一个理想的训练loss收敛图片:loss平滑的下降,并逐渐收敛到0.平滑说明学习率设置较合适,收敛到0说明模型在参数空间中收敛到一个很理想的区域。

2023-09-30 13:25:00 453

原创 【小笔记】fasttext文本分类问题分析

【学而不思则罔,思维不学则怠】2023.9.28关于fasttext的原理及实战文章很多,我也尝试在自己的任务中进行使用,是一个典型的短文本分类任务,对知识图谱抽取的实体进行校验,判断实体类别是否正确,我构建了27000个样本,3种类别(A,B,C),经过调参,最好的F1只有0.61,感觉这就是它的天花板了,在网上看到很多人在自己的场景中都能达到0.8、0.9之类的,我就在想,为什么我这个提不上去。

2023-09-28 21:14:32 585

原创 【小笔记】面对一个没搞过的任务,如何选择合适的算法模型?

确定要解决的问题是一个什么类型,在算法中有没有一个专业的任务名定义它,确定了问题类型就明确了问题解决方向。有时候我们要解决的问题可能有多种解决问题的角度,此时可能就会对应多个任务类型。举例:实体抽取是知识图谱中的一个任务,可以将其视为序列标注任务,也可以将其视为一个阅读理解任务。有时候待解决的问题可以作为一个复杂的任务,也可以拆分为多个子任务举例:实体抽取即可以作为一个完整的任务,也可以拆分为实体边界识别和实体类别分类两个子任务;

2023-09-28 11:19:35 214

无人驾驶原理与实践 源码_3.3.4_NDT算法实例.7z

非全部书源码,为小节3.3.4,NDT算法实例,个人修改后成功运行的源码,教程见:https://blog.youkuaiyun.com/xiangxiang613/article/details/110187725

2020-11-26

无人驾驶原理与实践 源码_2.6.4_基于Husky机器人的小案例.7z

非全部书源码,为小节2.6.4,基于Husky机器人的小案例,个人实现的源码,教程见:https://blog.youkuaiyun.com/xiangxiang613/article/details/110045652

2020-11-24

ST-emwin进阶笔记

这是个人学习emwin5.24时总结的经验笔记,都是自己在学习过程中遇到的问题及解决办法。网上能够参考的东西很少,这篇笔记能够解决很多问题了。希望对于初学者有帮助。目录如下: Header添加了字体大小后,会改变原来高度: 3 【教程】emwin显示中文: 3 如何改变ListView的Header字体大小和添加图片? 12 【教程】中文字符设为透明背景: 12 需要在窗口显示字符时没显示出来 13 ListView的滚动条添加及使用问题: 13 ListView初始化时不能显示创建好的数据: 14 【教程】Emwin如何转换和显示透明图片 14 Header显示中文时初始化时不显示,有更新时才显示? 17 【教程】如何设计透明窗口 17 emWin制作滑动效果 19 触摸屏的使用【教程】 19 如何界面自动控制实现点击效果,代替人工触摸控制 19 警示:处理WM_PAINT 时,不得执行某些操作 22 什么是模态窗口? 23 窗口特效汇集: 23 如何让按键透明? 25 ICONVIEW和BUTTON和区别? 25 如何给控件换肤? 25 如何点击按键切换背景图片? 26 如何能够同时点击点击父窗口和子窗口的控件? 27 什么情况下,两个窗口的句柄会相同? 27 经验汇集: 28

2018-03-30

CAN和Modbus RS485总线协议对比总结

CAN和RS485总线协议对比一览表及各协议的特点说明,注:RS485的协议为Modbus协议

2018-03-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除