Quinn-ntmy-优快云博客

原创 Huggingface开源模型使用学习

导入模型后，其接受tokenizer的输入，输出hidden states（即文本的向量表示），是一种上下文表示。：可以是单条的string，也可以是一个string的list，还可以是list的list；：用于截断，令truncation=True，序列将在max_length处截断；使用的tokenizer必须和对应的模型在预训练时的tokenizer保持一致。可以直接指定模型的checkpoint的名字，然后自动下载对应词表。：用于填补，padding=True 可以使得到的序列长度对齐；

2023-10-25 10:03:40 740

原创虚假新闻检测论文阅读（九）：Rumor Detection on Social Media with Bi-Directional Graph Convolutional Networks

论文题目：Rumor Detection on Social Media with Bi-Directional Graph Convolutional Networks论文来源：AAAI 2020 清华大学。

2023-10-25 10:00:51 931 2

原创 Leetcode每日一题6.05：二叉树搜索树BST

二叉搜索树BST

2023-10-25 09:56:29 573

原创 K-Means和KNN

KNN：监督学习，类别是已知的，对已知分类的数据进行训练和学习，找到不同类的特征，再对未分类的数据进行分类。K-Means：无监督学习，事先不知道数据有几类，通过聚类分析将数据聚合成几个群体。聚类不需要对数据进行训练和学习。

2023-10-25 09:53:56 1444 2

原创 Linux & Shell

单引号内部嵌套双引号，不取出变量值。双引号内部嵌套单引号，取出变量值；反引号 '，执行引号中命令；

2023-09-18 19:27:26 120

原创 Hive SQL初识

Hive是sql语言，通过数据库的方式来操作HDFS文件系统，为了简化编程，底层计算方式为MapReduce。Hive是面向行存储的数据库。Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce，Hive中的表纯逻辑。

2023-09-02 22:07:10 108

原创 HTTP协议理解及报文结构解析

（8）OPTIONS：请求查询服务器的性能，或者查询与资源相关的选项和需求。应用层传输协议，是一种客户端（浏览器）和服务端（服务器）进行数据传输的规则。（6）TRACE：请求服务器回送收到的请求信息，用于测试或诊断；（3）HEAD：请求获取资源的响应消息报文首部；（7）CONNECT：用隧道协议进行TCP通信；上面提到过，GET没有请求数据，POST有。（4）PUT：请求服务器存储或修改资源；（5）DELETE：请求服务器删除资源；（2）POST：在资源后增加新的数据；（1）GET：请求获取URL资源；

2023-06-07 10:01:46 251

原创 Leetcode每日一题5.29：二叉树的递归遍历和层序遍历

二叉树算法设计路线：只管当前节点要做的事，其他抛给递归框架。如果当前节点会对下面的子节点有影响，可以通过辅助函数增长参数列表，借助参数传递信息。三要素法：（1）

2023-05-29 18:44:34 338

原创 SQL问题总结

以下内容需熟悉SQL语句之后，配合SQL习题食用更好🙊#MySQL。

2023-05-29 10:41:13 97

原创 Bert实战（基于PyTorch）

利用Bert进行特征提取

2023-05-29 10:15:49 1661

原创过拟合问题总结

11.11 记最近跑实验模型遇到了训练精度很高，验证精度很低的情况，搜集资料对解决方案进行了整理。

2023-05-29 10:10:49 139

原创 Leetcode常见报错(1)： runtime error: member access within null pointer of type ‘TreeNode‘ (solution.cpp)

这种情况是由于判断条件不完整造成的，要完善条件。判断条件不完善故会报错，还有一种情况是。例如 572题：另一棵树的子树。时必然返回false。

2023-05-24 17:24:13 1800

原创【SQL】RIGHT JOIN 和 LEFT JOIN 关键字的用法

从Employees表（右表）中返回所有的行，当左表中没有匹配的值时也会返回并用null填充标识符。【例🌰】（leetcode No.1378：使用唯一标识码替换员工ID）从紧跟其后的右表返回所有的行，即使在左表中没有匹配的行。

2023-05-04 10:01:25 206

原创 ValueError:only one element tensors can be converted to Python scalars解决办法

ValueError:only one element tensors can be converted to Python scalars解决办法

2022-09-28 09:23:05 2785

原创虚假新闻检测论文阅读（八）：Assessing Arabic Weblog Credibility via Deep Co-learning

基于新闻文本的、半监督的、伪标签、深度协同学习的虚假新闻检测

2022-08-07 22:18:13 2014

原创虚假新闻检测论文阅读（七）：A temporal ensembling based semi-supervised ConvNet for the detection of fake news

基于新闻文本的、半监督的、伪标签、cnn结合temporal emsembling的虚假新闻检测

2022-08-07 22:03:28 1902

原创虚假新闻检测论文阅读（六）：A Deep Learning Model for Early Detection of Fake News on Social Media

基于新闻文本，半监督，伪标签，可信度评估的虚假新闻检测

2022-07-29 16:34:24 3010 1

原创虚假新闻检测论文阅读（五）：A Semi-supervised Learning Method for Fake News Detection in Social Media

关于基于新闻文本（+图像多模）、半监督学习、伪标签、LDA的虚假新闻检测

2022-07-27 11:43:38 299

原创虚假新闻检测论文阅读（四）：A novel self-learning semi-supervised deep learning network to detect fake news on...

基于新闻文本、半监督的、自学习、伪标签~虚假新闻检测

2022-07-26 12:51:22 771

原创虚假新闻检测论文阅读（三）：Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings

基于新闻文本、图结构、半监督学习

2022-07-22 19:15:57 355

原创虚假新闻检测论文阅读（二）：Semi-Supervised Learning and Graph Neural Networks for Fake News Detection

基于新闻文本，图神经网络，半监督学习

2022-07-18 15:39:40 747

原创虚假新闻检测论文阅读（一）：Fake News Detection using Semi-Supervised Graph Convolutional Network

虚假信息检测：基于新闻文本、图神经网络、半监督学习、WMD

2022-07-17 18:37:55 1109

原创 ABSA1: Attentional Encoder Network for Targeted Sentiment Classification

ABSA1: Attentional Encoder Network for Targeted Sentiment Classification一、引言以往而言，对于 ABSA 问题创建的模型大多数都是 RNN + Attention 的思路。存在问题Q：RNN 系列模型（例如NLP任务中的万金油 LSTM ）极具表现力但很难并行化，并且随着时间的反向传播需要大量的内存和计算，基本上每个 RNN 的训练算法都是截断的 BPTT，这将会影响模型在更长时间上捕获依赖关系的能力。LSTM 在一定程度上可

2022-05-24 19:56:16 760

原创 PyTorch中的模型构建

一、构建模型的两个要素构建子模块：在自己建立的模型（继承nn.Module）的__init__()方法；拼接子模块：在模型的forward()方法中。二、nn.Module类模型中的 nn.Module ：我们所有的模型，所有的网络层都是继承与这个类的。torch.nn包括（1）nn.Parameter、（2）nn.functional、（3）nn.Module、（4）nn.init，这几个子模块协同工作。1. nn.Parameter张量子类，表示可学习参数，如weight、bias。

2022-05-24 17:38:35 938

原创 PyTorch的数据读取机制

PyTorch 中的 Dataset 和 DataLoader读哪些数据？根据 Sampler（DataLoader源码中）输出的 index 决定。从哪里读数据？根据Dataset中设置的数据路径读取数据。如何读数据？Dataset的 __getitem__() 方法，可以帮助我们获取一个样本。代码示例（以下代码均选自细粒度情感分析的AEN模型）： # 构建ABSADataset实例 self.trainset = ABSADataset(op

2022-05-24 17:37:43 1969 2

原创 torch.nn.Parameter()函数理解

使用PyTorch训练神经网络时，本质上相当于训练一个函数，输入数据经过这个函数输出一个预测，而我们给定这个函数的结构（如卷积、全连接等）之后，能够学习的就是这个函数的参数了。所以，可以把 torch.nn.Parameter() 理解为类型转换函数，将一个不可训练的类型Tensor转换成可以训练的类型parameter，并将这个parameter绑定到这个module里面，经过类型转换这个 self.v 变成了模型的一部分，成为模型中根据训练可以改动的参数。使用 torch.nn.Paramete

2022-05-09 17:07:32 2461

原创 Transformer回顾+理解

Transformer采用自注意力机制，与一般注意力机制计算分配值的方法基本相同，原理可参考https://editor.youkuaiyun.com/md/?articleId=124623933但！Query的来源不同，一般AM中的query来源于目标语句，而self-AM的query来源于源语句本身...

2022-05-09 16:35:40 830 2

原创预训练语言模型的使用方法

如何使用预训练模型一、思路首先要考虑目标模型的数据量及目标数据与源数据的相关性。一般要根据数据集与预训练模型数据集的不同相似度，采用不同的处理方法。上图中1、数据集小，数据相似度高理想情况，可以将预训练模型当做特征提取器使用，所以有时候称为特征抽取。做法：去掉输出层，将剩下的整个网络当做一个固定的特征提取机，应用到新的数据集中。2、数据集大，数据相似度高冻结预处理模型中少量较低层，修改分类器，然后在新数据集的基础上重新开始训练。3、数据集小，数据相似度不高冻结预训练模型中较少的网络

2022-05-08 15:44:40 1752

原创 NLP领域的AM模型

1. Encoder-Decoder框架绝大多数文献中出现的AM模型都是附着在Encoder-Decoder框架下。但！！AM模型本身并不依赖于Encoder-Decoder框架。Encoder-Decoder框架：可以把它看作适合处理由一个句子（或篇章）生成另外一个句子（或篇章）的通用处理模型。Encoder：对输入句子X进行编码，将输入句子通过非线性变换转化为中间语义表示C：C=F(x1, x2, …, xm)。Decoder：根据句子X的中间语义表示C和之前已经生成的历史信息 y1, y2,

2022-05-07 11:23:17 795

空空如也

空空如也