NLP算法
文章平均质量分 93
故事挺秃然
攻城狮的故事挺秃然!!!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
BERTopic详解--主题建模利器
本文将系统拆解BERTopic的技术内核,从工作流程到子模块实现,从C-TF-IDF算法原理到LLM微调实践,辅以代码示例与可视化演示,助你快速掌握这一主题建模利器。原创 2025-08-14 14:09:27 · 1517 阅读 · 0 评论 -
中文分词:分词工具及使用实践总结
本文总结了13种主流中文分词工具,包括jieba、cutword、pkuseg、baidu lac、jiagu、HanLP等,涵盖通用工具与垂域能力。这些工具基于不同算法实现,如统计词典、机器学习、深度学习等,支持精确、全模式和搜索引擎模式等分词方式。部分工具还提供词性标注、专名识别等附加功能。文章详细介绍了各工具的简介、GitHub地址、开源协议、安装方法和测试案例,为开发者在项目中快速选型和应用提供参考。原创 2025-07-10 21:00:00 · 1121 阅读 · 0 评论 -
中文分词:机械分词算法详解与实践总结
本文系统梳理中文分词中的机械分词算法 ,涵盖以下核心内容:1. 经典算法解析 :正向/逆向最大匹配、双向匹配、全切分法、DAG动态规划、N-最短路径等主流方法原理与实现差异;2. 代码实战:基于自定义词典的Python代码示例,直观展示算法运行逻辑原创 2025-06-16 15:32:44 · 981 阅读 · 0 评论 -
中文分词总结:历程、问题、发展
想象一个孩子学习语言的过程:从牙牙学语到清晰表达,第一步总是从“字”到“词”的跨越。中文作为世界上使用人数最多的语言,其分词技术如同人工智能的“语言启蒙课”——没有精准的分词,机器便无法理解“北京”是地名还是“北+京”的组合,也无法区分“结婚”与“和尚”的边界。原创 2025-06-12 20:00:33 · 832 阅读 · 0 评论 -
TF-IDF算法的代码实践应用——关键词提取、文本分类、信息检索
**通过纯Python手写实现与调用`sklearn`工具包两种方式**,带你一步步完成TF-IDF在真实场景中的应用:关键词提取、文本分类、信息检索原创 2025-06-11 20:07:28 · 654 阅读 · 0 评论 -
TF-IDF算法详解与实践总结
本文主要介绍TF-IDF的算法内容以及面试中对于TF-IDF的相关问题,两种方式实现TF-IDF,一种是纯python实现一个TF-IDF,然后利用TF-IDF实现关键词提取,另一种是调用相关依赖实现关键词提取。原创 2025-06-10 19:36:56 · 915 阅读 · 0 评论 -
BM25算法详解与实践总结
BM25(Best Matching 25)是一种用于信息检索(Information Retrieval)和文本挖掘的算法,它被广泛应用于搜索引擎和相关领域。BM25 基于 TF-IDF(Term Frequency-Inverse Document Frequency)的思想,但对其进行了改进以考虑文档的长度等因素。原创 2025-06-09 19:00:00 · 850 阅读 · 0 评论 -
NLP--词频统计和TF-IDF总结【实践】
词频统计以及TF-IDF原理以及代码实现,在TF-IDF中常被问的问题:为什么TF要进行标准化操作?为什么要取对数?为什么IDF分母中要进行+1(IDF如何进行平滑处理的)?为什么要词频 * 逆文档频率(TF-IDF要用乘法)?原创 2023-05-05 16:45:55 · 2599 阅读 · 1 评论 -
NLP--BPE、WordPiece、ULM、SentencePiece子词分词器总结【原理】
子词解决了词汇量问题,并在很大程度上有助于减少模型参数的数量,子词有助于保持词汇更加平衡。原创 2023-04-14 19:16:42 · 2230 阅读 · 0 评论 -
NLP--社区检测算法(Community Detection)总结【原理】
社区检测(Community Detection)又被称为是社区发现,用于评估节点组如何聚类或分区,以及它们增强或分离的趋势。重点对图算法中的社区检测进行了整理总结。原创 2022-08-30 18:04:56 · 25238 阅读 · 0 评论 -
NLP--中心性算法(Centrality Algorithms)总结【原理】
中心性算法(Centrality Algorithms):度中心性(Degree centrality)、接近中心性(Closeness centrality)、中介中心性(Betweenness centrality)、特征向量中心性(Eigenvector centrality)等原创 2022-08-29 18:57:52 · 9617 阅读 · 2 评论
分享