算法篇
文章平均质量分 77
推荐系统、NLP、知识图谱、ML、DL
吾生有涯知无涯
汽车行业算法工程师,聚焦知识图谱和大模型应用
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2025.8-12月 AI相关国内会议
以上会议涵盖学术研究(如EI/Scopus收录会议)、产业应用(如深圳AGIC博览会)、区域合作(如东盟大会)及垂直领域(如教育、艺术)。• 亮点:全球规模最大的AI展会之一,覆盖具身智能、大模型、AI芯片等,设八大行业场景展区,华为、腾讯等巨头参展。• 亮点:聚焦中国与东盟AI合作,涵盖智能制造、跨境电商等六大主题,设政企闭门对接和低空经济分论坛。• 亮点:学术导向,EI和Scopus收录,聚焦高性能计算与AI融合。• 亮点:聚焦AI赋能教育,设主论坛与四大平行论坛,推动产教融合。原创 2025-07-31 15:56:34 · 2776 阅读 · 0 评论 -
【多智能体】autogen 0.5.7 快速教程:安装+应用
本文基于注意:网上有很多的教程和示例是基于0.2版本,在0.4之后发生了非常大的变化,基本不兼容。原创 2025-05-29 08:30:00 · 1568 阅读 · 0 评论 -
LLM系列笔记之大模型的参数计算
。原创 2025-03-19 09:24:42 · 296 阅读 · 0 评论 -
LLM系列笔记之微调数据集格式
参考:https://llamafactory.readthedocs.io/zh-cn/latest/getting_started/data_preparation.html。原创 2025-03-18 08:30:00 · 1886 阅读 · 0 评论 -
Glove安装及问题解决:找不到指定的模块
这个就是glove库运行时读取不到corpus_cython模块,但corpus_cython模块在电脑中是可以搜索到的,pycharm中通过Ctrl+B也可以定位。正常情况下,glove-python-binary安装好就可以使用,最开始我也能用,后来环境变化了之后,就突然不能用了。前提是你的电脑中存在corpus_cython.py,而原始程序中找不到,此时可以指定路劲进行访问。这个问题解决方式非常有价值,因此将这个记录下来,免得以后忘记了。网上查了一堆解决办法,没有一个有效解决。原创 2025-01-11 08:30:00 · 821 阅读 · 0 评论 -
知识图谱嵌入大总结:难点、方法、工具、和图嵌入的区别
1.概念结构信息语义信息演变趋势2.KGE VS GE(图嵌入)共同点和区别?(1) 共同点(2) 区别GE的方法可否用于KGE?(1)直接应用(2)针对KG的调整与增强3.难点4.方法5.工具(待补充)5.工具(待补充)2024.12.23本文回答以下问题:知识图谱嵌入是什么,和图嵌入的区别?什么是语义信息和结构信息,模型如何同时保留这两种信息?知识图谱嵌入有哪些难点、方法和工具。原创 2024-12-24 08:30:00 · 4497 阅读 · 9 评论 -
Spacy小笔记:zh_core_web_trf、zh_core_web_lg、zh_core_web_md 和 zh_core_web_sm区别
最近频繁用到spacy,就小记一下。2024.11.29。原创 2024-11-29 17:59:25 · 2533 阅读 · 0 评论 -
NLP信息抽取大总结:两种范式&三大任务&三种方案(带Prompt模板)
1.NLP的信息抽取的本质?2.信息抽取三大任务?3.信息抽取三大范式?范式一:基于自定义规则抽取(2018年前)范式二:基于Bert+下游任务建模抽取(2018年后)范式三:基于大模型+Promt抽取(2022年后)附1:Prompt信息抽取模板(1)实体抽取(2)关系抽取(3)事件抽取(4)三元组抽取附2:中文大模型抽取哪家强?附3:专用于信息抽取的模型2024.11.27典型的,使用自定义词典+分词工具+词性标注完成实体抽取;基于依存句法分析+自定义关系创建规则完成关系抽取。原创 2024-11-28 08:30:00 · 8119 阅读 · 3 评论 -
谈谈对知识图谱发展的感受
归根到底,知识图谱只是一种数据的组织和表示方式,本质上和关系表是一种角色,所以其无论是在推荐系统、问答系统、搜索引擎,甚至是大模型应用中,都是扮演一个辅助的角色(提供结构化的外部知识库),换句话说,没有知识图谱也是OK的,很残忍,但是事实。在大模型时代,我感觉知识图谱会逐渐淡化其本身的应用方向,大模型不需要的东西都会被弱化,大模型需要的都会被强化,因此,知识图谱的存储和检索功能会被强化,其会逐渐强化为大模型的外挂知识库之一。只要图这种数据结构有存在的价值,知识图谱就不会消亡(但可能会变成其它样子)。原创 2024-11-26 08:49:28 · 274 阅读 · 0 评论 -
【失败经验】将算法模型封装为安卓应用
背景:不懂安卓开发,希望能使用大模型编码完成安卓应用生成,调用算法模型进行预测。原创 2024-11-25 14:13:55 · 518 阅读 · 0 评论 -
知识图谱之实体抽取大总结:难点和方法
在知识图谱中,实体是表示现实世界中具体或抽象事物的基本单元。实体可以是具体的对象、概念、事件、地点、人物等。每个实体在知识图谱中通常都有一个唯一的标识符(ID),并且可以具有多个属性和与其他实体的关系。所有你关注的内容都可以定义为实体。比如我在新闻领域中,关注时间、地点、人物;在医疗领域中,我关注症状、药物、科室、疾病原因、医疗手段;在汽车故障领域中,我关注故障现象、故障原因、维修手段;原创 2024-11-21 08:30:00 · 4666 阅读 · 0 评论 -
深度理解AI领域的嵌入
在数据处理和机器学习中,结构信息和语义信息是指数据中包含的两种不同类型的信息。了解这两者对于设计有效的数据表示和模型非常重要。结构信息 (Structural Information)结构信息指的是数据内部的组织方式和关系模式。它通常涉及数据元素之间的连接、排列和布局。结构信息对于理解数据的整体框架和组成至关重要。不同类型的数据有不同的结构信息表现形式:结构信息可以包括句子的语法结构(主谓宾结构)、段落的组织(如主题句和支持句的排列)、文档的章节划分等。原创 2024-11-16 08:30:00 · 1611 阅读 · 0 评论 -
激活函数大总结:是什么?为什么?怎么选?
1.什么是函数非线性?2. 为什么要用非线性激活函数?3.非线性激活函数常用有哪些?4.大模型中的非线性激活函数2024.11.15当我们谈神经网络的激活函数的时候,通常是指非线性激活函数,因为谈线性的没有什么意义。非线性是指函数不能表示为输入变量的简单线性组合(即多个变量通过加权求和的方式得到一个新变量)。eg:矩阵乘法,加权求和、多项式组合都是属于线性组合。原创 2024-11-16 08:30:00 · 1720 阅读 · 0 评论 -
记录使用大模型过程中遇到的幻觉示例
我怀疑是这个应为这个模型比较新或者相关资料比较少,导致LLM并不认识它,所以再用一个知名度和流传度比较广的模型来试一下,它可以准确的回答。单开一篇,用来持续记录在使用通义千问过程中发现的幻觉问题,用来感知一个模型的能力边界,非常好!这个说明大模型对于这种“小众”的知识点很容易出现幻觉问题,本质是它在训练时缺少这方面的语料。正确答案:智源研究院。请欣赏大模型的胡诌😂。原创 2024-11-14 08:30:00 · 1037 阅读 · 0 评论 -
文本嵌入方案大总结:从词向量到句向量
2024.11.13阶段性总结方案挑选从简单到复杂,简单方案有简单方案的优点,有时候杀鸡不需要牛刀。面对一个场景,不知道怎么选方案或模型时,可以优先用Glove或者Fasttext完成词向量训练,使用词向量平均的方式来获得句向量,成本非常低,快速在应用中构建出一个基准模型,后期若发现应用中存在着多义词、或者或句子中词的顺序敏感的场景,则可以考虑换用bert类的方法进行微调或者直接使用专门的嵌入模型。原创 2024-11-14 08:30:00 · 1784 阅读 · 0 评论 -
LightRAG成功跑通:Ollama+Qwen2.5+bge-large-zh-v1.5
LightRAG发展和更新很快,还有很多地方需要完善,当前模型中很多参数都是基于其自带的模型参数进行配置的,若是用到其它模型,则需要修改参数的地方没有明确给出,所以跑起来就会出现这样那样的问题,本质上都是模型参数设置的问题。官方的ollama demo写的很不错,但是如果不用其默认的LLM和embeding模型,也还是跑不起来的,下面将给出一个适配自己模型的ollama跑通教程,供来者参考。复制网页的内容,保存为本地的一个book.txt,将其和下面的程序放在一个路径下。原创 2024-11-07 08:30:00 · 16616 阅读 · 28 评论 -
GraphRAG成功跑通:以《小王子》为例
python -m graphrag.query --root graphrag --method local “小王子和狐狸的关系是什么?python -m graphrag.query --root graphrag --method local “小王子和狐狸的关系是什么?python -m graphrag.query --root graphrag --method local “这本书的主题是什么?创建索引:python -m graphrag.index --root graphrag。原创 2024-11-02 08:30:00 · 2959 阅读 · 5 评论 -
【小笔记】如何在docker中更新或导入neo4j数据?
3.复制B的data/databases/neo4j,data/transactions/neo4j到A对应的路径下进行替换(替换前,可以先删除A挂载路径下的data/databases/neo4j,data/transactions/neo4j)。(2)大量数据(如十万、百万级),用neo4j-admin工具导入,百万级实体和关系导入,只需要秒级或几分钟级,缺点:必须基于空数据库,且neo4j处于未运行状态。上面给的是B的neo4j-admin导入方式,实际上其它方式,在容器外都是可用的哈。原创 2024-05-25 09:00:00 · 1799 阅读 · 0 评论 -
【小笔记】streamlit使用笔记
一句话,这个东西是一个python的可视化库,当你想要给你的程序添加个web界面,而又不会或不想用前端技术时,你就可以考虑用它。原创 2024-05-10 11:29:59 · 4270 阅读 · 2 评论 -
【小笔记】neo4j用load csv指令导入数据
很久没有用load CSV的方式导入过数据了因为它每次导入有数量限制(印象中是1K还是1W),在企业中构建的图谱往往都是大规模的,此时通常采用的是Neo4j-admin import方式。最近遇到了一些小样本数据,此时用load CSV来导入还是比较方便的。记录下来,供以后参考。原创 2024-05-10 11:02:13 · 948 阅读 · 0 评论 -
【小笔记】问答系统可视化实现的三种方式
优点:灵活自由,可创建各种复杂和定制的可视化,如带图谱显示。后端:flask,Django,tornado。优点:无需学习前端技术栈即可搭建一个web。前端:echarts,D3,neovis。原创 2024-05-09 09:45:44 · 746 阅读 · 0 评论 -
【小笔记】算法训练基础超参数调优思路
【学而不思则罔,思维不学则怠】9.29本文总结一下常见的一些超参数调优思路。原创 2024-01-17 08:30:00 · 609 阅读 · 0 评论 -
【小笔记】用tsai库实现Rocket家族算法
项目:https://github.com/timeseriesAI/tsai简介:用于处理时间序列的工具库,包含TCN、Rockert等众多时间序列处理算法。原创 2024-01-17 08:00:00 · 3560 阅读 · 7 评论 -
【小笔记】时序数据分类算法最新小结
2024.1.15。原创 2024-01-16 08:00:00 · 10377 阅读 · 8 评论 -
20分钟本地部署ChatGLM3-6B
和chatglm2相比,输出的结果似乎没有明显的改变,当最大的一个区别在于,chatglm2-6B有专门的int4版本,而chatglm3-gb取消了这个版本,在代码中可以直接指定量化版本。访问改地址即可进行对话:http://localhost:8501/email的地方直接回车,后面就会加载模型了。注意:chatglm3-6B约11G大小。原创 2023-12-13 11:00:41 · 4117 阅读 · 2 评论 -
ChatGLM3-6B的本地api调用
content”: “从前,在一个遥远的国度里,有一个美丽的村庄。有一天,一位智者来到了村子的广场,他跟村民们分享了这样一个故事:\n\n从前,有一片荒芜的土地,上面长满了各种美丽的花草。有一天,一只小鸟飞过来,告诉村子里的居民们,这片土地是一个魔法之地,只要每个人都在广场上许下一个美好的愿望,魔法”,可以看到,ChatGLM3-6B的默认调用接口和传递参数,及返回结果的参数与chatGLM2-6B的API有非常大的区别,并不兼容,需要有较大的修改。注意是POST方法!原创 2024-01-10 08:30:00 · 8374 阅读 · 6 评论 -
【小笔记】为什么语义相似度要用余弦相似度而不用欧式距离?
它计算的是两个向量夹角的cos值,只关注向量的方向,不考虑向量的绝对大小(因为不管长短,都会除以模变成单位向量),这也是它的缺点。一个只关注距离,一个只关注方向,为什么NLP就选择了余弦相似度呢?它计算的是高维空间中两个点之间的绝对距离,不考虑向量的方向性。原创 2023-10-19 20:45:24 · 2027 阅读 · 0 评论 -
【小笔记】复杂模型小数据可能会造成过拟合还是欠拟合?
【学而不思则罔,思而不学则殆】10.8。原创 2023-10-08 09:03:05 · 2635 阅读 · 0 评论 -
【小笔记】从算法训练现象分析可能的参数设置问题-loss分析篇
【学而不思则罔,思而不学则殆】9.30首先给出一个理想的训练loss收敛图片:loss平滑的下降,并逐渐收敛到0.平滑说明学习率设置较合适,收敛到0说明模型在参数空间中收敛到一个很理想的区域。原创 2023-09-30 13:25:00 · 622 阅读 · 0 评论 -
【小笔记】fasttext文本分类问题分析
【学而不思则罔,思维不学则怠】2023.9.28关于fasttext的原理及实战文章很多,我也尝试在自己的任务中进行使用,是一个典型的短文本分类任务,对知识图谱抽取的实体进行校验,判断实体类别是否正确,我构建了27000个样本,3种类别(A,B,C),经过调参,最好的F1只有0.61,感觉这就是它的天花板了,在网上看到很多人在自己的场景中都能达到0.8、0.9之类的,我就在想,为什么我这个提不上去。原创 2023-09-28 21:14:32 · 706 阅读 · 0 评论 -
【小笔记】面对一个没搞过的任务,如何选择合适的算法模型?
确定要解决的问题是一个什么类型,在算法中有没有一个专业的任务名定义它,确定了问题类型就明确了问题解决方向。有时候我们要解决的问题可能有多种解决问题的角度,此时可能就会对应多个任务类型。举例:实体抽取是知识图谱中的一个任务,可以将其视为序列标注任务,也可以将其视为一个阅读理解任务。有时候待解决的问题可以作为一个复杂的任务,也可以拆分为多个子任务举例:实体抽取即可以作为一个完整的任务,也可以拆分为实体边界识别和实体类别分类两个子任务;原创 2023-09-28 11:19:35 · 355 阅读 · 0 评论 -
【小笔记】当一个算法性能不满意,可能是这几方面的原因
2023.9.9 算法小笔记。原创 2023-09-09 19:46:25 · 939 阅读 · 0 评论 -
【小笔记】NLP序列标注问题,样本不均衡怎么解决?
【学而不思则罔,思而不学则殆】原创 2023-08-17 08:40:11 · 1690 阅读 · 0 评论 -
【知识图谱】实体抽取及算法选择
1.英文通常以单词为单位,中文以字为单位;2.目前SOTA级别的模型:BERT+CRF3.基于实体词典和深度学习方法的区别?实体词典很好用,每在词典中增加一个词条都能立竿见影的增加可以识别的实体。但此方法最大的问题在于:一,词典的扩充是一个比较费时费力的事情;二,未登录词OOV无法识别;三,无法识别多义词,如苹果。深度学习方法,如BERT+CRF能处理多义词的问题,通过一个词的上下文来确定其语义。但OOV的问题仍无法解决。数据标注也是一件比较麻烦的事情。原创 2022-12-26 22:28:41 · 1657 阅读 · 0 评论 -
【知识图谱】知识图谱的本质是什么?
知识图谱是一种结构化的语义知识库,能够描述物理世界的实体、概念及其相互关系,本质是用于表示知识,给机器提供先验知识。换句话说,还有其它用于知识表示的方法,知识图谱只是其中的一种。知识是经过剪裁、塑造、解释、选择和转换了的信息如:“奥巴马是美国的前总统”,对机器而言就是一句话,不知道在讲什么;处理一下,如变成三元组:(美国,前总统,奥巴马),这就是一条知识了。这个转换的过程,就是知识表示将人类知识形式化或者模型化的过程就是知识表示。知识表示是将信息抽取成知识,用于给机器提供先验知识。原创 2022-10-01 21:52:39 · 8578 阅读 · 2 评论 -
【flask】算法部署:只加载一次模型,减少每次接口响应时间
模型部署每次调用模型进行预测时,都会加载一次模型,这个过程是比较占资源的,换言之,很耗时。每次访问时,都无需再加载模型,模型相当于一个全局变量原创 2022-09-17 20:54:45 · 4301 阅读 · 5 评论 -
【flask】根据接口名称和请求参数进行缓存
基于flask-cache的两种缓存方案原创 2022-09-16 22:45:22 · 1079 阅读 · 0 评论 -
【NLP】中文文本处理常用工具集[2024.10更新]
这个表随着对工具的认识增加,持续更新,✔表示某工具支持某任务工具中文分词词性标注句法分析分本分类文本纠错实体抽取关系抽取情感分类备注Jieba✔✔适合中文分词LAC✔✔✔Spacy✔综合性工具✔文本纠错工具xmnlp✔✔✔✔综合性工具。原创 2022-09-15 08:12:46 · 2312 阅读 · 2 评论 -
【flask】适合生产环境的高并发部署方案(gunicorn + gevent + supervisor)
历时两天,构建了基于python的微服务环境,该方案可用于生产环境,再搭配一个Nginx进行反向代理和负债均衡,可满足高并发需求。技术方案为:python + Flask + gunicorn + gevent + supervisor + Docker。原创 2022-08-14 19:49:54 · 7984 阅读 · 0 评论 -
【ML/DL】机器学习二三事
数据集构建和算法调参哪个更累?深度学习是不是银弹?什么时候不适合AI算法?原创 2022-05-11 09:26:45 · 682 阅读 · 0 评论
分享