
自然语言处理
文章平均质量分 69
小汣结
博客存放代码注解;
github存放代码;
blibli存放视频;
展开
-
faiss使用
水文: 待完善一、简介 faiss是用来做召回的, facebook出品, 内置HNSW{占用内存巨大}以及一些基于倒排索引和聚类的算法, 基于向量做的召回. 基于向量做召回的还有annoy. 更多参考: https://zhuanlan.zhihu.com/p/37381294二、推荐博客https://www.programmersought.com/article/68262337102/https://zhuanlan.zhihu.com/p/357414033这个文章原创 2021-08-01 20:42:36 · 889 阅读 · 0 评论 -
NLTK_词性标注
一、使用内置的{不用训练} 详见《自然语言处理Python进阶》6.2.2示例代码.二、使用Brill{基于规则且需要训练的} Brill是基于规则的标注器, 随后在训练过程中进行优化.1. 栗子:import nltkimport nltk.tag.brillfrom nltk.corpus import brownfrom nltk.corpus import treebank# 合并多个语料库的tagged_sents. treebank_tagged_sent原创 2021-08-01 20:16:21 · 387 阅读 · 0 评论 -
Conceptnet5
一、简介开源的常识性知识图谱,多语言二、数据特点2.1 Languages完整点这里用语言缩写表示某个语言所有的中文语言(繁体,简体,广东,等)都用zh表示。核心语言:这里有10个支持得比较好的核心语言,对这10个语言提供所有的API,包括word vectors。CodeLanguageVocab sizeenEnglish1803873zhChinese2427462.2 Edges完整点这里每个Edges是一个dict,包含多个ke原创 2021-04-15 19:34:16 · 1182 阅读 · 0 评论