python实现正则结果预标注，生成ann文件。

最新推荐文章于 2024-05-31 09:38:19 发布

原创

最新推荐文章于 2024-05-31 09:38:19 发布 · 3.7k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python

这段代码使用Python实现了通过正则表达式匹配医疗文本中的药物名称和剂量，并将结果整理成ann文件格式，用于后续的预标注任务。程序首先加载药物字典，然后定义正则表达式来匹配不同类型的药物，接着读取txt文件，按顺序找到匹配项，最后将结果写入ann文件。

# -*- coding: utf-8 -*-
"""
Created on Tue Mar 19 10:39:21 2019

@author: Jack Jin
"""
import time
import os
import numpy as np
import pandas as pd
import re
import sys
import xlrd
import datetime
import pandas as pd
import re
import math
from utility import split_serveral_dose,trial_stage,chemo_efficacy,trial_chemo,drug_name_class,extract_day,cycle_no,cycle_total,f_load_dict,get_unique_id,removekong,extract_name,extract_dose,precision,opaque,purpose,regimen
os.environ['NLS_LANG'] = 'simplified chinese_china.utf8'

#读取字典
dict_loc = os.getcwd() + '/药物字典/'
hualiao_medicine_ready = f_load_dict(dict_loc+'split_hualiao_medicine.xlsx')
baxiang_medicine_ready = f_load_dict(dict_loc+'split_baxiang_medicine_jin.xlsx')
mianyi_medicine_ready = f_load_dict(dict_loc+'split_mianyi_medicine.xlsx')
supportive_medicine_ready = f_load_dict(dict_loc+'split_supportive_medicine.xlsx')
anticancer_medicine_ready = f_load_dict(dict_loc+'split_anticancer_medicine.xlsx')
#fangan_ready
dict1 = xlrd.open_workbook( dict_loc + 'split_fangan_medicine.xlsx')
split_fangan_medicine = dict1.sheet_by_index(0)
fangan_medicine = split_fangan_medicine.col_values(0)
fangan_medicine = [re.split(r'[\n;；]',i) for i in fangan_medicine if i != '']
fangan_medicine_ready = []
for i in removekong(fangan_medicine):
for j in i:
fangan_medicine_ready.append(j)

#读取正则
fangan = '%s' % ('|'.join(fangan_medicine_ready))
hualiao_dose = r'(%s)[\u4E00-\u9FA5]{0,4}\s{0,3}\(?（?：?:?(\d{0,}\.?\d{1,}\s{0,}[Mm毫]?[Gg克]?\s{0,3}[，,、，。：;:.]?\s{0,3}[Dd]?\s{0,}\d?[-,、，。：;:.]?\d?[-,、，。：;:.]?\d?\s{0,}[Mm毫]?[Gg克]?[Dd]?\d?[-,、，。：;:.]?\d?\s{0,}[-,、，。：;:.]?\d?\s{0,}[Mm毫]?[Gg克]?[Dd]?\d?[-,、，。：;:.]?\d?)?(?!

最低0.47元/天解锁文章