
NER实战系列
Lyttonkeepgoing
这个作者很懒,什么都没留下…
展开
-
最详细NER实战讲解-bilstm+crf(6)数据增强
为什么要做数据增强?提高模型学习各种长短句子的能力import pandas as pdimport pickleimport numpy as npfrom tqdm import tqdmimport os# 先把所有的数据 拼接 融合在一起 将所有的字全部换成对应的下标def get_data_with_windows(name='train'): with open (f'data/prepare/dict.pkl', 'rb') as f: map原创 2022-03-28 17:45:39 · 1289 阅读 · 0 评论 -
最详细NER实战讲解-bilstm+crf(5)生成映射字典
我们要将每一个字 分词边界 词性 偏旁部首 拼音都要映射成向量现在要来统计里面有多少个不同的 字 标签 分词边界这些 然后做成idtolabel labeltoid这种原创 2022-03-22 20:07:44 · 681 阅读 · 0 评论 -
NER 常见问题(BIO BIOES BMES)标注之间的转换
实习收到的第一个任务人民日报数据集的训练集用的就是BIO格式然后我们转化为BIOES 和 BMES首先是BIO转BMESpath = r'./input/data_train.txt'res_path = r'./output/BMES.txt'f = open(path, encoding='utf-8')f1 = open(res_path, 'w+', encoding='utf_8')sentences = []sentence = []label_set = se原创 2022-03-19 16:36:09 · 4881 阅读 · 7 评论 -
最详细NER实战讲解-bilstm+crf(4)提取词边界和词性特征
造一个空的列表 用来保存最终的结果tags = []起始位 start = 0 end = 0 参照着前面文本的长度 一点点去截取原创 2022-03-13 22:12:01 · 2196 阅读 · 0 评论 -
最详细NER实战讲解-bilstm+crf(3)获取标签
import osimport pandas as pdfrom collections import Counterfrom data_process import split_textfrom tqdm import tqdmimport jieba.posseg as psg # 结巴的词性标注train_dir = '自己写'def process_text(idx, split_method=None): """ idx:文件的名字 不要扩展名 .原创 2022-03-11 17:50:54 · 652 阅读 · 2 评论 -
最详细NER实战讲解-bilstm+crf(2)数据预处理
目录1.找到分隔符的index2.过滤特殊字符串同时也是将文本分割为长短句3.处理长短句问题1.找到分隔符的index我们写个测试一下输出值为匹配到的:,有一个span 就是找到的标点符号的起始位置和结束位置为了展示的更清楚一些span所表示的东西 我们再写个测试可以看到在第一个输出中span[0]就是,的下标span[1]是后面的‘预’的下标后面就表示为m.span[0] (在循环中)2.过滤特殊字符串同时也是将文本分割为长短句...原创 2022-03-08 16:08:37 · 2113 阅读 · 0 评论 -
最详细NER实战讲解-bilstm+crf(1)数据准备
bilstm+crf也是现在实际应用上用的最多的模型!1.数据介绍一个txt文件对应一个ann文件文件内容展示.txt文件就是一些关于糖尿病的文档T1 T2标号 symptom症状 anatomy 结构test_value等等实体类型1845 1850就是指 实体出现的位置做这个模型的目的是什么??将来直接用算法 拿来一个文本 直接标注 不再需要人工标注1.先设计好标签 每个字都有一个标注标签要做成什么样子?隐马尔科夫模型里 这些字就是..原创 2022-03-07 17:10:48 · 3611 阅读 · 5 评论