- 博客(43)
- 收藏
- 关注
原创 Huggingface开源模型使用学习
导入模型后,其接受tokenizer的输入,输出hidden states(即文本的向量表示),是一种上下文表示。:可以是单条的string,也可以是一个string的list,还可以是list的list;:用于截断,令truncation=True,序列将在max_length处截断;使用的tokenizer必须和对应的模型在预训练时的tokenizer保持一致。可以直接指定模型的checkpoint的名字,然后自动下载对应词表。:用于填补,padding=True 可以使得到的序列长度对齐;
2023-10-25 10:03:40
740
原创 虚假新闻检测论文阅读(九):Rumor Detection on Social Media with Bi-Directional Graph Convolutional Networks
论文题目:Rumor Detection on Social Media with Bi-Directional Graph Convolutional Networks论文来源:AAAI 2020 清华大学。
2023-10-25 10:00:51
931
2
原创 K-Means和KNN
KNN:监督学习,类别是已知的,对已知分类的数据进行训练和学习,找到不同类的特征,再对未分类的数据进行分类。K-Means:无监督学习,事先不知道数据有几类,通过聚类分析将数据聚合成几个群体。聚类不需要对数据进行训练和学习。
2023-10-25 09:53:56
1444
2
原创 Hive SQL初识
Hive是sql语言,通过数据库的方式来操作HDFS文件系统,为了简化编程,底层计算方式为MapReduce。Hive是面向行存储的数据库。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑。
2023-09-02 22:07:10
108
原创 HTTP协议理解及报文结构解析
(8)OPTIONS:请求查询服务器的性能,或者查询与资源相关的选项和需求。应用层传输协议,是一种客户端(浏览器)和服务端(服务器)进行数据传输的规则。(6)TRACE:请求服务器回送收到的请求信息,用于测试或诊断;(3)HEAD:请求获取资源的响应消息报文首部;(7)CONNECT:用隧道协议进行TCP通信;上面提到过,GET没有请求数据,POST有。(4)PUT:请求服务器存储或修改资源;(5)DELETE:请求服务器删除资源;(2)POST:在资源后增加新的数据;(1)GET:请求获取URL资源;
2023-06-07 10:01:46
251
原创 Leetcode每日一题5.29:二叉树的递归遍历和层序遍历
二叉树算法设计路线:只管当前节点要做的事,其他抛给递归框架。如果当前节点会对下面的子节点有影响,可以通过辅助函数增长参数列表,借助参数传递信息。三要素法:(1)
2023-05-29 18:44:34
338
原创 Leetcode常见报错(1): runtime error: member access within null pointer of type ‘TreeNode‘ (solution.cpp)
这种情况是由于判断条件不完整造成的,要完善条件。判断条件不完善故会报错,还有一种情况是。例如 572题:另一棵树的子树。时必然返回false。
2023-05-24 17:24:13
1800
原创 【SQL】RIGHT JOIN 和 LEFT JOIN 关键字的用法
从Employees表(右表)中返回所有的行,当左表中没有匹配的值时也会返回并用null填充标识符。【例🌰】(leetcode No.1378:使用唯一标识码替换员工ID)从紧跟其后的右表返回所有的行,即使在左表中没有匹配的行。
2023-05-04 10:01:25
206
原创 ValueError:only one element tensors can be converted to Python scalars解决办法
ValueError:only one element tensors can be converted to Python scalars解决办法
2022-09-28 09:23:05
2785
原创 虚假新闻检测论文阅读(八):Assessing Arabic Weblog Credibility via Deep Co-learning
基于新闻文本的、半监督的、伪标签、深度协同学习的虚假新闻检测
2022-08-07 22:18:13
2014
原创 虚假新闻检测论文阅读(七):A temporal ensembling based semi-supervised ConvNet for the detection of fake news
基于新闻文本的、半监督的、伪标签、cnn结合temporal emsembling的虚假新闻检测
2022-08-07 22:03:28
1902
原创 虚假新闻检测论文阅读(六):A Deep Learning Model for Early Detection of Fake News on Social Media
基于新闻文本,半监督,伪标签,可信度评估的虚假新闻检测
2022-07-29 16:34:24
3010
1
原创 虚假新闻检测论文阅读(五):A Semi-supervised Learning Method for Fake News Detection in Social Media
关于基于新闻文本(+图像多模)、半监督学习、伪标签、LDA的虚假新闻检测
2022-07-27 11:43:38
299
原创 虚假新闻检测论文阅读(四):A novel self-learning semi-supervised deep learning network to detect fake news on...
基于新闻文本、半监督的、自学习、伪标签~虚假新闻检测
2022-07-26 12:51:22
771
原创 虚假新闻检测论文阅读(三):Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings
基于新闻文本、图结构、半监督学习
2022-07-22 19:15:57
355
原创 虚假新闻检测论文阅读(二):Semi-Supervised Learning and Graph Neural Networks for Fake News Detection
基于新闻文本,图神经网络,半监督学习
2022-07-18 15:39:40
747
原创 虚假新闻检测论文阅读(一):Fake News Detection using Semi-Supervised Graph Convolutional Network
虚假信息检测:基于新闻文本、图神经网络、半监督学习、WMD
2022-07-17 18:37:55
1109
原创 ABSA1: Attentional Encoder Network for Targeted Sentiment Classification
ABSA1: Attentional Encoder Network for Targeted Sentiment Classification一、引言以往而言,对于 ABSA 问题创建的模型大多数都是 RNN + Attention 的思路。存在问题Q:RNN 系列模型(例如NLP任务中的万金油 LSTM )极具表现力但很难并行化,并且随着时间的反向传播需要大量的内存和计算,基本上每个 RNN 的训练算法都是截断的 BPTT,这将会影响模型在更长时间上捕获依赖关系的能力。LSTM 在一定程度上可
2022-05-24 19:56:16
760
原创 PyTorch中的模型构建
一、构建模型的两个要素构建子模块:在自己建立的模型(继承nn.Module)的__init__()方法;拼接子模块:在模型的forward()方法中。二、nn.Module类模型中的 nn.Module :我们所有的模型,所有的网络层都是继承与这个类的。torch.nn包括(1)nn.Parameter、(2)nn.functional、(3)nn.Module、(4)nn.init,这几个子模块协同工作。1. nn.Parameter张量子类,表示可学习参数,如weight、bias。
2022-05-24 17:38:35
938
原创 PyTorch的数据读取机制
PyTorch 中的 Dataset 和 DataLoader读哪些数据?根据 Sampler(DataLoader源码中)输出的 index 决定。从哪里读数据?根据Dataset中设置的数据路径读取数据。如何读数据?Dataset的 __getitem__() 方法,可以帮助我们获取一个样本。代码示例(以下代码均选自细粒度情感分析的AEN模型): # 构建ABSADataset实例 self.trainset = ABSADataset(op
2022-05-24 17:37:43
1969
2
原创 torch.nn.Parameter()函数理解
使用PyTorch训练神经网络时,本质上相当于训练一个函数,输入数据 经过这个函数 输出一个预测,而我们给定这个函数的结构(如卷积、全连接等)之后,能够学习的就是这个函数的参数了。所以,可以把 torch.nn.Parameter() 理解为类型转换函数,将一个不可训练的类型Tensor转换成可以训练的类型parameter,并将这个parameter绑定到这个module里面,经过类型转换这个 self.v 变成了模型的一部分,成为模型中根据训练可以改动的参数。使用 torch.nn.Paramete
2022-05-09 17:07:32
2461
原创 Transformer回顾+理解
Transformer采用自注意力机制,与一般注意力机制计算分配值的方法基本相同,原理可参考https://editor.youkuaiyun.com/md/?articleId=124623933但!Query的来源不同,一般AM中的query来源于目标语句,而self-AM的query来源于源语句本身...
2022-05-09 16:35:40
830
2
原创 预训练语言模型的使用方法
如何使用预训练模型一、思路首先要考虑目标模型的数据量及目标数据与源数据的相关性。一般要根据数据集与预训练模型数据集的不同相似度,采用不同的处理方法。上图中1、数据集小,数据相似度高理想情况,可以将预训练模型当做特征提取器使用,所以有时候称为特征抽取。做法:去掉输出层,将剩下的整个网络当做一个固定的特征提取机,应用到新的数据集中。2、数据集大,数据相似度高冻结预处理模型中少量较低层,修改分类器,然后在新数据集的基础上重新开始训练。3、数据集小,数据相似度不高冻结预训练模型中较少的网络
2022-05-08 15:44:40
1752
原创 NLP领域的AM模型
1. Encoder-Decoder框架绝大多数文献中出现的AM模型都是附着在Encoder-Decoder框架下。但!!AM模型本身并不依赖于Encoder-Decoder框架。Encoder-Decoder框架:可以把它看作适合处理由一个句子(或篇章)生成另外一个句子(或篇章)的通用处理模型。Encoder:对输入句子X进行编码,将输入句子通过非线性变换转化为中间语义表示C:C=F(x1, x2, …, xm)。Decoder:根据句子X的中间语义表示C和之前已经生成的历史信息 y1, y2,
2022-05-07 11:23:17
795
原创 fastText学习——文本分类
之前主要有One-hot、Bag of Words、N-gram、TF-IDF词向量表示方法,但它们存在不足:转换得到的向量维度很高,需要较长训练时间;没有考虑单词与单词之间的关系,只是进行了统计。且优于TF-IDF具体表现在:1、FastText用单词的Embedding叠加获得的文档向量,将相似的句子分为一类;2、FastText学习到的Embedding空间维度比较低,可以快速进行训练。后将深度学习应用于文本表示,典型例子:fastText、Word2Vec、Bert。接下来本文主要
2022-05-04 15:05:21
1409
原创 torch.nn.Embedding()详解
PyTorch中的Embedding Layer一、语法格式torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None, norm_type=2.0, scale_grad_by_freq=False, sparse=False, _weight=None)1、参数说明(1)num_embeddings(int):语料
2022-05-04 15:04:12
7973
原创 PyTorch基础知识(可入门)
PyTorch基础核心是张量Tensor,一种多维数据的数学对象。使用torch包创建张量,具体的很简单,不多说了。(1)如果想用特定的值填充张量,可以使用 fill_() 方法。【任何带有下划线(_)的PyTorch方法都是指原位操作,即不用创建新对象就地修改内容】(2)当使用torch.Tensor构造函数时,默认张量类型是torch.FloatTensor。可以在使用时进行类型转换 或 利用torch.tensor()中的dtype参数。加减乘除操作都和其他类似。torch.transp
2022-04-14 15:19:21
2631
原创 神经网络相关知识回顾(PyTorch篇)
一、常见概念1、Batch(批量)(1)如果是模型训练方法,batch指将所有数据处理完以后一次性更新权重或参数的估计;(2)如果是模型训练中的数据,batch是一次输入供模型计算用的数据量。基于批量的模型训练步骤:a) 初始化参数b) 重复以下步骤:处理所有数据,更新参数与其对应的是递增算法,步骤如下:a) 初始化参数b) 重复以下步骤:处理一个或者一组数据点,更新参数(BP算法中,“处理”的具体操作是计算损失函数的梯度变化曲线。对于批量算法——计算平均或者总体损失函数的梯度变化曲线;
2022-04-14 10:39:32
1145
原创 tensorflow中tf.get_variable()函数详解
如果变量存在,函数tf.get_variable()会返回现有的变量;如果变量不存在,会根据给定形状和初始值创建一个新的变量。def get_variable(name, shape=None, dtype=None, initializer=None, regularizer=None, trainable=True,
2022-03-28 19:47:54
1862
原创 AttributeError: module ‘tensorflow‘ has no attribute ‘placeholder‘
用下面方法成功解决:https://blog.youkuaiyun.com/scp_6453/article/details/110724880
2022-03-28 18:39:07
452
原创 引入Spacy模块出错—OSError: [E941] Can‘t find model ‘en‘.
导入spacy模块包:import spacynlp=spacy.load(‘en’)报错:OSError: [E941] Can’t find model ‘en’. It looks like you’re trying to load a model from a shortcut, which is deprecated as of spaCy v3.0. To load the model, use its full name instead.解决方法:将import spacyn
2022-03-25 10:13:20
1416
原创 使用opencv读取图片错误([ WARN:0@13.701] global D:\a\opencv-python\opencv-python\opencv\modules\imgcodecs\..)
解决方法:参考https://blog.youkuaiyun.com/qq_43521500/article/details/108751507成功解决
2022-03-13 16:29:24
28724
原创 pandas中合并数据集
数据集的合并1、pandas.merge()语法:pandas.merge(left, right, how=‘inner’, on=None)left:参与合并的左侧DataFrame。right:参与合并的右侧DataFrame。how:连接方式,默认为inner,inner是使用两个表都有的键(笛卡尔积);left使用左表中所有的键;right使用右表中所有的键;outer使用两个表中所有的键。on:用于连接的列名,必须同时存在于左右两个dataFrame对象中,如果未指定,则以left
2021-10-23 18:00:24
1130
原创 NumPy中的where()函数
numpy.where(condition,x,y)输出什么取决于此处的condition(条件)。若condition为True,则输出x,否则(False)输出y。举个例子:>>>a=pd.Series([np.nan,2.5,0.0,3.5,4.5,np.nan], index=['f','e','d','c','b','a'])>>>b=pd.Series([0.,np.nan,2.,np.nan,np.nan,5.],
2021-10-23 10:36:09
336
原创 pandas中的sample方法
sample()函数????DataFrame.sample()用于随机获取数据并返回结果,类似于random.sample()函数语法:????DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)n:可选参数,整数,定义生成的随机行数。frac:可选参数,浮点数,并返回浮点值数据帧值的长度,不能与参数n一起使用;注意,如果frac>1,rep
2021-10-16 11:13:18
1176
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人