
NLP
文章平均质量分 51
ExcaliburZZ
每篇博客都应该拥有精美的排版
展开
-
前向、后向、双向最大匹配分词
借鉴中文的前向、后向、双向最大匹配分词转载 2022-10-01 21:52:52 · 361 阅读 · 0 评论 -
python提取国家和地区信息
因实验需要,需要在文本中提取出地区信息,也算是 NER 中的一部分。在经过查阅后,基本上都是推荐 geotext 或者 geograpy3 工具包,或者使用数据库自己匹配。都有缺点吧,geotext 据说 USA 这样的缩写也识别不出来。在这里的话,我自己是推荐 flashgeotext ,经过实验,是可以识别出 USA, US 这种缩写的。缺点也有,识别不了中文,还好我处理的都是英文数据集。from flashgeotext.geotext import GeoTextimport jsong原创 2022-05-25 10:13:04 · 2880 阅读 · 0 评论 -
NER 的评价指标
常见的基本概念TP,FP,TN,FN,Accuracy 准确率,Precision 查准率(精确率) ,Recall 查全率(召回率),F1 score等。TP: true positive。实际为正,预测为正。FP: false positive。实际为负,预测为正。TN: true negative。实际为负,预测为负。FN: false negative。实际为正,预测为负。混淆矩阵 真实情况 预测结果 正例 反原创 2022-04-12 20:36:31 · 4831 阅读 · 0 评论 -
统计 NER 数据集标注种类及其个数
在拿到开源的已标注好的 NER 数据集后,往往需要了解一下数据集标注的类型有哪些,因为每个人研究的领域不同,标注类型也不同。比如说已经获得了三个文件,train.txt,test.txt,valid.txt。标注格式如下图:这里中间的分隔符会有不同,不用在意,我这份是'\t'。统计 tag 类型的 python 代码如下:下面展示一些 内联代码片。from codecs import openimport ospath = os.getcwd()def set_tag(split,原创 2022-04-11 21:24:05 · 807 阅读 · 0 评论 -
NER 实体标注转换
稍微修改了一下原文的写入,这样最后一行不会多个空格转载 2022-03-30 21:55:26 · 444 阅读 · 0 评论