SCU-JJkinging-优快云博客

原创损失函数—Dice Loss: Dice Loss for Data-imbalanced NLP Tasks

2022-04-30 11:23:08 601

1. 前置篇：skip-gram原理详解及数学推导2. 负采样（以skip-gram为例）具体采样方法：为什么负采样开3/4次幂？在保证高频词容易被抽到的大方向下，通过权重3/4次幂的方式，适当提升低频词、罕见词被抽到的概率。如果不这么做，低频词，罕见词很难被抽到，以至于不被更新到对应的Embedding。参考为什么Word2Vec训练中, 需要对负采样权重开3/4次幂?3. Hierarchica

2022-04-28 17:21:20 324

原创 KMP笔记

KMP算法：class Solution: def strStr(self, s: str, p: str) -> int: """ s为主串 p为模式串如果t里有p，返回打头下标 O(m+n) O(m) """ nex = self.getNext(p) i = 0 j = 0 # 分别是s和p的指针 while i < len(s)

2022-03-17 15:52:25 456

原创 2021 CCF BDCI 全国信息检索挑战杯(CCIR-Cup) 智能人机交互自然语言理解

比赛网址：CCIR-Cup-智能人机交互自然语言理解. 大家好，我是SCU-JJkinging，这个比赛是前段时间偶然间看到的，发现和我的研究方向一致，就试着参加了，成绩还是比较乐观吧，最终成绩A榜第四，B榜第二。下面把我的ppt贴一下，更详细的介绍以及代码

2021-11-09 13:15:24 578 1

原创 1024拿个勋章

1024程序员节拿个勋章，嘻嘻！！！

2021-10-24 18:57:54 175 1

原创 JSON大文件格式化

在pycharm下方的Terminal中输入命令：python -m json.tool input-file.json output-file.json即可格式化完成！！！

2021-08-11 10:33:58 1136 1

原创 pytorch不同的层设置不同学习率

问题背景：不同的层设置不同的学习率model = BiLSTM_CRF() # 整个模型（包括BiLSTM和CRF）我们现在要做的就是给BiLSTM和CRF分别设置不同的学习率解决方法：crf_params = list(map(id, model.CRF.parameters())) #把CRF层的参数映射为idother_params = filter(lambda x: id(x) not in crf_params, model.parameters()) #在整个模型的参数中将CRF

2021-07-12 13:20:34 920

原创在linux服务器中 python环境import找不到自定义的模块

解决方法：vi /etc/profile在最后一行添加：export PYTHONPATH=$PYTHONPATH:/root/project_name其中project_name是你的项目名称source /etc/profile 立即生效

2021-05-12 20:01:58 525

原创训练Bert、Robert、ALBert等的巨大坑

！！！！！！！！！如下，我们在使用transformers包的get_linear_schedule_with_warmup()这个学习率预热API时，num_warmup_steps这个参数一定要设置为0，一定要设置为0，一定要设置为0！！！否则模型不会收敛（我在做中文文本语义匹配时发现的）scheduler = get_linear_schedule_with_warmup(optimizer, num_wa

2021-05-12 19:48:26 2541 6

原创 torch.utils.data中Dataset TensorDataset以及Dataloader

torch.utils.data中Dataset TensorDataset以及Dataloader

2021-05-03 16:48:08 272

原创我的pip配置国内源 and pytorch稳定版(pip安装)

C:\Users\jinxiang\AppData\Roaming\pip\pip.ini

2021-04-27 16:55:37 1069 2

原创 BiMPM报错：Resource punkt not found. Please use the NLTK Downloader to obtain the resource

解决方案

2021-04-27 13:18:57 272

原创 pytorch保存模型的两种方式

一、直接保存整个模型并读取## 保存模型torch.save(your_model, 'model_name.pth')## 读取模型your_model = torch.load('model_name.pth')二、只保存模型中的参数并读取## 保存模型torch.save({'you_model': your_model.state_dict()}, 'model_name.pt')## 读取模型model...

2021-04-22 19:16:58 35936 1

原创 os.path.normpath()与os.path.join()

为了避免出现路径字符串中混用正斜杠、反斜杠，使用os.path.normpath进行格式化 os.path.normpath(filePath)import osscript_dir = 'D:\\python_project\\ESIM\\scripts\\preprocessing'config = '../../config/preprocessing/snli_preprocessing.json'config_path_final = os.path.join(script_dir,

2021-04-22 16:54:18 1041

原创 pytorch的一个小坑

PyTorch expects the input to a layer to have the same device and data type (dtype) as the parameters of the layer. For most layers, including conv layers, the default data type is torch.float32.# 如果不添加dtype=torch.fp32会报错，它默认是torch.int64a = torch.arange(1

2021-04-20 22:20:51 322

原创 torch.nn.LSTM()

1.pytorch中LSTM的细节分析理解2.Pytorch中的RNN之pack_padded_sequence()和pad_packed_sequence()3.nn.utils.rnn.pack_padded_sequence 与 nn.utils.rnn.pad_packed_sequence

2021-04-20 14:24:38 260

原创 9.构造前缀树（中等）

现在有5个word，分别为by,by,hello,heat,the。所构成的TrieTree如图所示，其中包含一个根节点，值为空，跟几点所连接的是每个word的第一个字符，每个字符按照同样的方式生成与之连接的字符的TrieTree，在每个word的最末处，表示该word出现了几次。例如：“b”处为0，表示"b"这个单词没有出现过。“y”处为2，表示“by”这个单词出现了两次。...

2021-04-15 12:03:20 154

原创 41.二叉搜索树任意节点最小距离（简单）

给你一个二叉搜索树的根节点 root ，返回树中任意两不同节点值之间的最小差值。![在这里插入图片描述](https://img-blog.csdnimg.cn/20210413233213305.png示例 1：输入：root = [4,2,6,1,3]输出：1示例 2：输入：root = [1,0,48,null,null,12,49]输出：1提示：树中节点数目在范围 [2, 100] 内0 <= Node.val <= 105# Definition fo

2021-04-13 23:33:15 185

原创 8. 丑数 II（中等）

给你一个整数 n ，请你找出并返回第 n 个丑数。丑数就是只包含质因数 2、3 或 5 的正整数。示例 1：输入：n = 10输出：12解释：[1, 2, 3, 4, 5, 6, 8, 9, 10, 12] 是由前 10 个丑数组成的序列。示例 2：输入：n = 1输出：1解释：1 通常被视为丑数。提示：1 <= n <= 1690来源：力扣（LeetCode）链接：https://leetcode-cn.com/problems/ugly-number-i

2021-04-11 22:08:02 115

原创 40.丑数(简单)

给你一个整数 n ，请你判断 n 是否为丑数。如果是，返回 true ；否则，返回 false 。丑数就是只包含质因数 2、3 或 5 的正整数。示例 1：输入：n = 6输出：true解释：6 = 2 × 3示例 2：输入：n = 8输出：true解释：8 = 2 × 2 × 2示例 3：输入：n = 14输出：false解释：14 不是丑数，因为它包含了另外一个质因数 7 。示例 4：输入：n = 1输出：true解释：1 通常被视为丑数。提示：-23

2021-04-11 22:05:23 111

原创 oracle同义词与DBLink

2021年4月11日研一下在海成讲授的oracle同义词与DBLink的PPT，在此记录一下

2021-04-11 21:59:10 123

原创 Oracle用户及权限管理

这是2021年3月28日研一下在海成讲授的oracle用户及权限管理的PPT，在此记录一下

2021-04-11 21:54:06 98

原创 BERT详解——原理篇（组会PPT，其中大量参考李宏毅的bert课程视频）

2021-04-06 17:21:32 3467 5

原创高版本pytorch安装torchsnoop失败的解决

我的pytorch是1.7，目前最高版本是1.8。目录一、问题二、解决方法一、问题我们都知道torchsnoop是一款调试深度学习的神器，但是pytorch的版本太高，导致安装不了torchsnoop，那么我们该怎么解决呢？二、解决方法到github搜索torchsnoop，并将torchsnoop整个模块clone到本地（这里注意一定要通过git把整个模块克隆，不要直接下载压缩包（后面安装会报错！！！））然后在你的TorchSnooper文件夹下同时按住shift再点击鼠标右键，弹出框框

2021-03-28 23:08:58 526

原创 pandas将多张excel表的数据合成一张表

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2021/3/24 21:21# @Author : JJkinging# @File : test.pyimport pandas as pdimport osdef get_manyExcel_to_one(source_path, res_path): ''' description: 将多张excel表的数据纵向合成一张表 :param s

2021-03-24 22:31:36 977

原创 fileinput.FileInput () 读取文件时设置 ‘utf-8’ 编码方式

fileinput.FileInput(读取的文件路径名，openhook=fileinput.hook_encoded('utf-8', ''))))

2021-03-14 15:47:02 2090

转载 Transformer模型详细解读

Transformer模型详解

2021-01-30 15:41:24 443

转载深入理解注意力机制 Attention

注意力机制的基本思想和实现原理(一)注意力机制的基本思想和实现原理(二)

2021-01-29 10:57:02 353 1

原创 redis中AOF自动重写条件

如果要用redis的自动触发，就要涉及下面3个变量（AOF的功能要开启哦 appendonlyfile yes）：记录当前AOF文件大小的变量aof_current_size记录最后一次AOF重写之后，AOF文件大小的变量aof_rewrite_base_size增长百分比变量aof_rewrite_perc每当serverCron函数（redis的crontab）执行时，会检查以下条件是否全部满足，如果是的话，就会触发自动的AOF重写：没有 BGSAVE 命令在执行没有 BGREWRIT

2021-01-20 15:19:24 1557 1

转载 centos 配置好网卡后重启网卡失败，提示：Job for network.service failed because the control process exited with error

Job for network.service failed because the control process exited with error

2021-01-19 16:41:07 464

转载 pandas中的ExcelWriter和ExcelFile

pandas中的ExcelWriter和ExcelFile

2021-01-19 15:35:06 449

原创 pd.read_excel()和 pd.to_excel() 参数详解

pandas.read_excel（io，sheet_name = 0，header = 0，names = None，index_col = None，usecols = None，squeeze = False,dtype = None, ...）io：字符串，文件的路径对象。sheet_name：None、string、int、字符串列表或整数列表，默认为0。字符串用于工作表名称,整数用于零索引工作表位置,字符串列表或整数列表用于请求多个工作表，为None时获取所有工作表。值对应操

2021-01-19 15:32:59 17247

转载如何在pandas中使用set_index( )与reset_index( )设置索引

如何在pandas中使用set_index( )与reset_index( )设置索引

2021-01-18 20:19:32 407

原创本地主机ping不通本地centOS虚拟机

VMware NET Service 或者 DHCP服务未启动

2021-01-09 13:32:42 491

原创求候选码，3NF与BCNF分解

BNCF 分解2.例题 : R(U, F), U(A, B, C, D, E, F), F={A->B, C->DF, AC->E, D->F}解：依次考察每一条函数依赖，看其是否满足BNCF，若都满足，则无须分解比如 A->B, A+^++ = AB != U, 所以A->B不满足BCNF，所以可以把R分解为两部分:R1={A, B}, R2={A, C, D, E, F}, R1只有两个元素，必定满足BCNF，所以接下来只看R2，R2对应的函数依赖F2={C-&

2020-12-18 13:46:13 3241 2

转载如何求一个关系模式的候选码

首先来看候选码的定义：若关系中的某一属性组的值能唯一地标识一个元组，则称该属性组为候选码。若W是候选键，则必须满足两个条件：W的闭包是U；W没有冗余。设关系模式R中U=ABC.......等N个属性，U中的属性在FD中有四种范围：求候选码的简单方法方法：（1）如果有属性不在函数依赖集中出现，那么它必须包含在候选码中；（2）如果有属性不在函数依赖集中任何函数依赖的右边出现，那么它必须包含...

2020-12-17 17:40:23 3924

转载根据函数依赖求最小依赖集

【例1】关系模式R<U，F>，U={A，B，C，D，E}，F={A→BC，ABD→CE，E→D}，求F的最小依赖集。第一步：F右边单一化得到F1={A→B，A→C，ABD→C，ABD→E，E→D} 第二步：逐个去掉X→A依赖后，设剩下函数依赖集为G，求属性集X关于G的闭包，如果闭包包含右边属性A，则去掉该函数依赖。 A→B：(A)+=AC，不包含B，保留。 A→C：(A)+=AB，不包含C，...

2020-12-17 16:57:55 3395 4

原创数据库的完全依赖，部分依赖和传递依赖

一、部分函数依赖：设X,Y是关系R的两个属性集合，存在X→Y，若X’是X的真子集，存在X’→Y，则称Y部分函数依赖于X。例如：通过AB能得出C，通过A也能得出C，通过B也能得出C，那么说C部分依赖于AB。二、完全函数依赖设X,Y是关系R的两个属性集合，X’是X的真子集，存在X→Y，但对每一个X’都有X’!→Y，则称Y完全函数依赖于X。例如：通过AB能得出C，但是AB单独得不出C，那么说C完全依赖于AB.三、传递函数依赖设X,Y,Z是关系R中互不相同的属性集合，存在X→Y(Y !→X),Y→Z，

2020-12-17 14:36:34 8121

4-DCGAN实战.ipynb

一、DCGAN论文要点通过跨步卷积层（例如：stride= 2）代替池化层（例如：最大池化层）取消全连接层，用全局平均池化层代替（在判别器的最后一层）所有层的输出都用BatchNormalization做归一化生成器使用转置卷积层，激活函数使用ReLU函数，但最后一层输出层使用Tanh激活函数；判别器使用卷积层，激活函数使用LeakyReLU， the slope of the leak was set to 0.2 in all models. All weights were initialized from a zero-centered Normal distribution with standard deviation 0.02. （所有权重均从零中心正态分布初始化，标准偏差为0.02），Adam优化器的beta1值设置为0.5，学习率设置为0.0002，所有模型均采用小批量随机梯度下降（SGD）训练，最小批量为128。

2020-07-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人