- 博客(55)
- 资源 (11)
- 收藏
- 关注
原创 论文综述——Entity-centered Cross-document Relation Extraction
什么是关系抽取(RE)?以往的研究:从同一文本中抽取出的两个实体,分别作为头实体 (Peter Kappesser) 和尾实体 (U.S.) ,然后判别这两个实体之间是效忠关系 (allegiance)。表现形式: (head entity, relation, tail entity) ——> e.g. (Peter Kappesser, allegiance, U.S.)
2023-07-03 20:34:10
618
原创 论文综述——DORE: Document Ordered Relation Extraction based on Generative Framework
以往的研究中采用的生成范式是直接生成出对应的词组(lexicon 生成范式),但此类方法不能很好的适应文档级关系抽取。所以现有的生成式文档级关系抽取方法表现不佳,并不是模型能力不足,而是模型训练的范式不足导致的,因此作者提出DORE范式。缺点:失去关系间的部分依赖。如图所示,将所有的实例建模成关系矩阵,其中关系矩阵中的每一个单元格 (i, j) 对应一对实体对 (e_i,e_j) ,计算每种关系的条件概率。关系矩阵:以表填充作为核心解决方式,按照实体出现在文本中的顺序生成关系矩阵,单元格内填充关系。
2023-04-25 13:40:43
679
原创 论文综述——UNIRE: A Unified Label Space for Entity Relation Extraction
过构建标签空间来对实体和关系进行联合抽取的方法。实体关系抽取旨在提取文本中的实体并检测它们的实体类型,以及对每个实体对检测它们的关系。作者提出了一种统一标签空间的联合抽取方法——填表法,主要是将实体检测和关系抽取两个子任务放在同一个标签空间中进行处理。针对该方法,提出了一种对应的联合解码算法(Joint Decoding Algorithm),解码出表中的实体和关系。图中词对关系表。将文本表示为二维表结构,它具有更强的表示能力,能将所有的实体和关系都在这张表中完整得表示出来。
2023-01-02 10:04:51
822
原创 论文综述——MapRE: An Effective Semantic Mapping Approach for Low-resource Relation Extraction
关系抽取(Relation Extraction, RE)是自然语言处理中的一项基本任务,它旨在发现一个句子中两个实体之间的正确关系。RE问题通常被视为在大规模标注数据上的有监督分类问题。它的缺点是随着关系实例数量的减少,模型性能急剧下降。RE问题经常存在数据不足问题,以往的方法是远程监督(distant supervision)将已有的知识库对应到丰富的非结构化文本数据中,从而生成大量的训练数据,以便训练出一个效果不错的关系抽取器。
2023-01-02 09:34:51
558
原创 论文综述——Event-Event Relation Extraction using Probabilistic Box Embedding
事件关系抽取:文本中包含多个事件e1,e2,…,en,识别每个事件对(ei,ej)之间的关系r(ei,ej)子事件(Subevent)关系抽取:{PARENT-CHILD, CHILD-PARENT, COREF, NOREL}事件时序(Temporal)关系抽取:{BEFORE, AFTER, EQUAL, VAGUE}主流的方法都是采用Vector-based的方法,将文本和所有类别标签表征成向量,然后采用Multi-class Classification的方法逐个判断是否属于某个关系类型。
2023-01-02 08:55:01
1114
原创 论文综述——TEXT2EVENT: Controllable Sequence-to-Structure Generation for End-to-end Event Extraction
这篇文章主要是介绍提出了一个统一抽取模型,目的是使用单一架构解决不同的信息抽取的任务,所以就提出了这篇文章核心内容:序列到结构网络。对于网络的输出,还提出了按需解码控制特定任务或场景设定下的抽取目标,这一部分就是后面会提到的按需可控生成,使用事件Schema来约束生成空间,这样对于不同的任务不需要改变模型,比如说想要用这个模型训练我们的医疗数据,直接把医疗事件的schema注入进去就可以了。提出该任务还有一个更重要的目的就是想要低成本,也就是低资源学习。
2022-12-31 16:49:29
1011
2
原创 论文综述——Unified Structure Generation for Universal Information Extraction
提出了一个统一的text-to-structure的生成框架UIE。设计了结构化抽取语言SEL和结构化模式指导器SSI指导模型对不同的任务生成不同的结构。UIE在监督环境和低资源环境下都取得了非常具有竞争力的性能。
2022-12-14 20:49:35
1657
转载 git——note(二)常用命令
$ git config --global user.name "Your Name"$ git config --global user.email "email@example.com"# 通过git init命令把这个目录变成Git可以管理的仓库:$ git init$ git add [文件名]
2022-04-18 20:06:24
326
原创 pytorch学习笔记三——transformer
pytorch学习笔记三——transformer预备知识代码学习逻辑模型架构机器翻译任务实现主体部分模型构建Encoder-DecoderEncoder部分残差连接和层归一、位置前馈、多头注意力Decoder部分题外话预备知识transformer经典论文:attention is all you need代码学习逻辑从整体到局部关注每一部分数据流向(输入->运算->输出 矩阵维度变换)模型架构机器翻译任务实现主体部分import mathimport to
2021-12-10 22:32:57
2470
3
转载 conda创建虚拟环境
1、首先在所在系统中安装Anaconda。可以打开命令行输入conda -V检验是否安装以及当前conda的版本。2、conda常用的命令。1)conda list 查看安装了哪些包。2)conda env list 或 conda info -e 查看当前存在哪些虚拟环境3)conda update conda 检查更新当前conda3、创建python虚拟环境。 使用 conda create -n your_env_name python=X.X(2.7、3.6等)命令创建pytho
2021-11-27 15:42:53
50371
原创 一个简单的pytorch模型
1、创建一个全连接层2、传入数据,model作为可调用对象被当做函数调用,并输出返回值y_predict3、源码4、定义一个神经网络的方法1、创建一个全连接层model = torch.nn.Linear(1, 1)2、传入数据,model作为可调用对象被当做函数调用,并输出返回值y_predicty_predict = model(x_data)3、源码class Module(object): # 当子类被当做可调用对象调用时,会调用其重写的forward方法 def __call.
2021-03-24 15:53:25
553
转载 神经网络模型提升算法性能的方法
转自:https://machinelearningmastery.com/improve-deep-learning-performance/(英文原文) PS:找了好久,优快云都分类为转载,但是都没写原文地址。 提升算法性能的方法 列表划分为四块: 从数据上提升性能从算法上提升性能从算法调优上提升性能从模型融合上提升性能上述四块的排序对应其对性能的提升能力的排序。 文中的想法主要针对...
2021-03-23 20:02:42
2318
原创 五种经典卷积神经网络
LeNetAlexNet本文使用六步法分别实现LeNet(1998)、AlexNet(2012)、VGGNet(2014)、InceptionNet(2014)、ResNet(2015)除了卷积网络的“开篇之作”LeNet 以外,AlexNet、VGGNet、InceptionNet 以及 ResNet 这四种经典网络全部是在当年的 ImageNet 竞赛中问世的,它们作为深度学习的经典代表,使得 ImageNet 数据集上的错误率逐年降低。LeNetLeNet 即 LeNet5,由 Yann.
2021-02-21 16:02:21
8659
3
原创 weights.txt文件解说
第一层网络用553的卷积核,一共6个。下面给出了6个卷积核中的所有参数w以下记录了6个卷积核各自的偏置项b,每个卷积核一个偏置b,6个卷积核共有6个偏置b这里记录了BN操作中的缩放因子γ,每个卷积核一个γ,6个卷积核共有6个缩放因子γ这里记录了BN操作中的6个偏移因子β,每个卷积核一个β,6个卷积核共有6个偏移因子β这里记录了第一层全连接网络,共1536行128列的线上权重w,这里记录了第一层全连接网络128个偏置b这里记录了第二层全连接网络,128行10列线上权重w以下记录了第
2021-02-19 19:11:31
881
1
原创 TensorFlow2学习十二之卷积神经网络
一、基本概念1. 全连接NN2. 卷积(Convolutional)3.感受野(Receptive Field)4. 全零填充(padding)二、tensorflow描述卷积层1. keras构建CNN中的卷积层2. 批标准化(Batch Normalization, BN)3. 池化层(Pooling)4. 舍弃(Dropout)5. 构建神经网络三、Cifar101.Cifar10数据集卷积神经网络:借助卷积核提取特征后,送入全连接网络。主要模块:一般包括卷积层、BN 层、激活函数、池化层以及.
2021-02-19 16:54:43
871
原创 TensorFlow2学习十一之绘制准确率acc和损失函数loss曲线
model.fit中将训练集loss、测试集loss、训练集准确率保存了下来history=model.fit(训练集数据, 训练集标签, batch_size=, epochs=, validation_split=用作测试数据的比例, validation_data=测试集, validation_freq=测试频率)history包含以下几个属性:训练集loss: loss测试集loss: val_loss训练集准确率: sparse_categorical_accurac.
2021-01-24 12:05:22
11909
1
原创 TensorFlow2学习十之参数提取
提取可训练参数model.trainable_variables 返回模型中可训练的参数设置print输出格式np.set_printoptions(threshold=超过多少省略显示) # 设置打印效果np.set_printoptions(threshold=np.inf) # np.inf表示无限大print(model.trainable_variables)file = open('./weights.txt', 'w')for v in model.trainable_v
2021-01-24 11:43:26
704
原创 TensorFlow2学习九之存取模型
断点续训可以存取模型读取模型读取模型可以直接使用TensorFlow的load_weights(路径文件名)函数checkpoint_save_path = "./checkpoint/mnist.ckpt"if os.path.exists(checkpoint_save_path + '.index'): model.load_weights(checkpoint_save_path)保存模型保存模型参数可以使用TensorFlow给出的回调函数tf.keras.callbacks
2021-01-24 10:55:15
303
原创 TensorFlow2学习八之数据增强
图像增强:对图像的简单形变。TensorFlow2图像增强函数tf.keras.preprocessing.image.ImageDataGenerator()image_gen_train = tf.keras.preprocessing.image.ImageDataGenerator( rescale = 所有数据将乘以该数值 rotation_range = 随机旋转角度数范围 width_shift_range = 随机宽度偏移量 height_shift_range = 随机高度偏移
2021-01-24 10:32:05
481
原创 TensorFlow2学习七之加载自制数据集
一、自制数据集数据集路径读入数据一、自制数据集数据集路径.\mnist_image_labelmnist_train_jpg_60000和mnist_test_jpg_10000存放训练集和测试集mnist_test_jpg_10000.txt和mnist_train_jpg_60000.txt存放训练集和测试集标签train_path = './mnist_image_label/mnist_train_jpg_60000/' # 训练集图片路径train_txt = './.
2021-01-23 16:57:26
1073
原创 TensorFlow2学习六之构建神经网络
一、搭建神经网络模型tf.keras.models.Sequentialcompile()配置神经网络的训练方法优化器(Optimizer)损失函数(loss)评测指标(Metrics)fit()执行训练过程summary()打印出网络的结构和参数统计复现鸢尾花分类二、class搭建神经网络模型类模块搭建鸢尾花分类一、搭建神经网络模型第一步 导入相关模块第二步 准备测试集(x_train,y_train)和训练集(x_test,y_test)第三步 搭建网络结构model = tf.keras.m.
2021-01-23 15:16:37
369
原创 TensorFlow2学习五之神经网络优化过程
一、常用函数tf.where(条件语句,真返回A, 假返回B)np.random.RandomState.rand(n)np.vstack(数组1, 数组2)np.mgrid[]、x.ravel()、二、神经网络复杂度空间复杂度时间复杂度指数衰减学习率激活函数激活函数输出值的范围Sigmoid函数Tanh函数Relu函数Leaky Relu函数损失函数(loss)均方误差损失函数交叉熵损失函数自定义损失函数一、常用函数tf.where(条件语句,真返回A, 假返回B)条件语句真返回A,条件语句假返回.
2021-01-21 11:55:33
258
原创 TensorFlow2学习四之函数
构建神经网络准备数据:采集大量“特征、标签”数据搭建网络:搭建神经网络结构优化参数:训练网络获取最佳参数应用网络:将网络保存为模型,输入新数据分类或预测结果损失函数(loss function):预测值(y)与标准答案(y_)的差距。损失函数可以定量判断W、b的优劣,当损失函数输出最小时,参数W、b回出现最优值。...
2021-01-19 18:47:27
175
原创 两种方法解决AttributeError: module ‘tensorflow‘ has no attribute ‘placeholder‘
一import tensorflow.compat.v1 as tftf.disable_v2_behavior()替换import tensorflow as tf二如果后面还要继续用tf2版本,就可以只更改一句代码:data_in = tf.compat.v1.placeholder(tf.float32, [None, 100, 100, 3])
2021-01-12 17:06:29
1334
1
原创 python数据分析练习——姓名分析US_Baby_names_right.csv
第一步:导入相关模块import pandas as pdfrom pandas import Series,DataFrameimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号第二步:加载dataset目录下US_Baby_names_right.csv文件数据并查看数据
2020-07-06 18:43:06
2355
原创 python数据分析练习——FoodFacts.csv分析
python数据分析练习——FoodFacts.csv分析导包import numpy as npimport pandas as pdimport datetimeimport matplotlib.pyplot as pltimport seaborn as sns# 正常显示中文标签plt.rcParams['font.sans-serif'] = ['SimHei']# 自动适应布局plt.rcParams.update({'figure.autolayout': True})
2020-07-06 18:04:14
1191
原创 时间序列数据分析
时间序列数据分析导包datetime数据转换重采样、降采样、升采样类型使用说明date日期(年、月、日)time时间(时、分、秒、毫秒)datetime日期和时间timedelta两个datetime的差(日、秒、毫秒)txinfo用于存储时区信息的基本类型导包import datetimedatetimedatetime.date(2020, 1, 1)datetime.date(2020, 1, 1)datetime.time(
2020-07-06 17:24:52
820
原创 数据分析总结
数据分析总结导包读写查看信息对列操作str操作,类型转换删除del,检测缺失值nunique(),unique()min(),max(),median()resample数据合并value_counts(),groupby(),apply(),map(),agg(),sort_values(),lambda()导包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns#
2020-07-06 10:00:13
699
原创 数据可视化总结——matplotlib、seaborn
数据可视化总结——matplotlib、seaborn导包matplotlib基本参数折线图绘制直方图 hist(), plt.bar()绘制水平方向的柱状图饼图散点图箱线图seaborn基本参数直方图和密度曲线图密度曲线图毛毯图散点图catplot()如果需要看清每个数据点,可以使用swarmplot箱线图catplot()散点图矩阵小提琴图条形图使用catplot()使用条形显示每个分箱器中的观察计数countplot多变量图用双变量和单变量图绘制两个变量的图。回归图导包import numpy a
2020-07-06 09:52:43
1553
原创 matplotlib绘图练习2——绘制菱形sin,星形cos
matplotlib绘图练习2——绘制菱形sin,星形cos首先设置基本参数(linspace最初设置1000,结果整个图飘了,最后不断修改最后在50的时候完美了……)x = np.linspace(0, 10, 50)y1 = np.sin(x)y2 = np.cos(x)画图:plt.figure(figsize=(10, 6))plt.plot(x, y2, 'bd-', ) # *为菱形plt.plot(x, y1, 'g*-') # d为星形plt.xlabel('the
2020-06-26 19:27:50
1794
原创 matplotlib绘图练习
matplotlib绘图练习按要求绘制:绘制一个大小为 8*4 的图;第一个图表:x 和 y,颜色是红色,线的粗细为 2(默认为 1);标签是 sin(x)第二个图像:x 和 z 的函数图像,颜色是绿色(g 代表的绿色),线条的样式是‘–’,标签是 cos(x^2),线条的粗细为 3(linewidth 可简写为 lw)。x = np.linspace(-3, 3, 500)y = x**2;plt.figure()plt.plot(x, y, color="r", linestyle='--'
2020-05-12 11:58:22
574
原创 论文学习一之Gradient-Based Learning Applied to Document Recognition
论文学习一之Gradient-Based Learning Applied to Document Recognition摘要——使用BP算法多层神经网络训练构成种个成功的基于梯度学习技术的最佳案例。提供一个合适的网络架构,基于梯度学习算法就能将其用于合成复杂的决策面以便将高维模式(例如手写字符)区分归类,并进行最小预处理。本文综述了各种方法对手写字符特征识别,并将其与标准手写数字识别任务进行...
2020-04-01 15:45:06
2475
转载 anaconda安装、更新、换源
<div class="article-header-box"> <div class="article-header"> <div class="article-title-box"> <h1 class="title-article">anaconda安装、更新</h1> ...
2020-03-18 15:44:35
560
原创 朴素贝叶斯分类器——matlab实现
朴素贝叶斯分类对——matlab实现根据西瓜数据集判断某个西瓜是不是好瓜:本次实验是针对以上17行数据为训练数据,以及题目要求的1行数据为训练数据。实验源自于周志华的西瓜书,对于西瓜数据集3.0训练一个朴素贝叶斯分类器可参考:朴素贝叶斯分类MATLAB实现我的实验首先将data.txt文件内的数据导入matlab中的元胞数组中:前17行为训练数据集最后一行为测试数据集:加载数据代码...
2019-12-05 20:07:27
11330
6
原创 挖掘频繁模式、关联和相关性:基本概念和方法以及aprori算法MATLAB实现
挖掘频繁模式、关联和相关性:基本概念和方法概念频繁模式(frequent pattern):关联规则(association rule):关联规则挖掘是一个两步的过程常用关联规则算法实现Apriori算法MATLAB实现——使用候选产生频繁项集概念频繁模式(frequent pattern):是频繁地出现在数据集中的模式(如项集、子序列或子结构)。对于挖掘数据之间的关联、相关性和许多其他有...
2019-11-06 13:36:05
1263
原创 TensorFlow2.0学习三之线性回归
TensorFlow2.0学习笔记(三)线性回归Numpy下的线性回归TensorFlow 下的线性回归一个实际问题,某城市在 2013 年 - 2017 年的房价如下表所示:现在,我们希望通过对该数据进行线性回归,即使用线性模型 y = ax + b 来拟合上述数据,此处 a 和 b 是待求的参数。首先,定义数据,进行归一化操作import numpy as npX_raw = np...
2019-10-19 19:39:07
694
原创 操作系统实验之单处理机系统的进程调度
操作系统实验之单处理机系统的进程调度假设某单处理机系统采用“基于动态优先权的时间片轮转”调度算法。进程队列采用单向链表组织进程控制块。过程:假设进入的进程有3个,轮转时间片为5运行逻辑如下:初始化:根据优先级排序:第一个时间片轮转后:第二个时间片轮转后:第三个时间片轮转后:第四个时间片轮转后:第五个时间片轮转后所有节点均被删除。代码:#include <...
2019-10-19 18:49:59
4471
原创 TensorFlow2.0学习二之基础
TensorFlow学习(二)线性回归1.首先,导入TensorFlow1.首先,导入TensorFlowimport tensorflow as tfTensorFlow 使用 张量 (Tensor)作为数据的基本单位。TensorFlow 的张量在概念上等同于多维数组,我们可以使用它来描述数学中的标量(0 维数组)、向量(1 维数组)、矩阵(2 维数组)等各种量。# 定义一个随机数(...
2019-10-19 14:55:06
203
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人