- 博客(164)
- 资源 (1)
- 收藏
- 关注
原创 Word2Vec
1. 前置篇:skip-gram原理详解及数学推导2. 负采样(以skip-gram为例)具体采样方法:为什么负采样开3/4次幂? 在保证高频词容易被抽到的大方向下,通过权重3/4次幂的方式,适当提升低频词、罕见词被抽到的概率。如果不这么做,低频词,罕见词很难被抽到,以至于不被更新到对应的Embedding。参考为什么Word2Vec训练中, 需要对负采样权重开3/4次幂?3. Hierarchica
2022-04-28 17:21:20
296
原创 KMP笔记
KMP算法:class Solution: def strStr(self, s: str, p: str) -> int: """ s为主串 p为模式串 如果t里有p,返回打头下标 O(m+n) O(m) """ nex = self.getNext(p) i = 0 j = 0 # 分别是s和p的指针 while i < len(s)
2022-03-17 15:52:25
421
原创 2021 CCF BDCI 全国信息检索挑战杯(CCIR-Cup) 智能人机交互自然语言理解
比赛网址:CCIR-Cup-智能人机交互自然语言理解. 大家好,我是SCU-JJkinging,这个比赛是前段时间偶然间看到的,发现和我的研究方向一致,就试着参加了,成绩还是比较乐观吧,最终成绩A榜第四,B榜第二。 下面把我的ppt贴一下,更详细的介绍以及代码
2021-11-09 13:15:24
529
1
原创 JSON大文件格式化
在pycharm下方的Terminal中输入命令:python -m json.tool input-file.json output-file.json即可格式化完成!!!
2021-08-11 10:33:58
999
1
原创 pytorch不同的层设置不同学习率
问题背景:不同的层设置不同的学习率model = BiLSTM_CRF() # 整个模型(包括BiLSTM和CRF)我们现在要做的就是给BiLSTM和CRF分别设置不同的学习率解决方法:crf_params = list(map(id, model.CRF.parameters())) #把CRF层的参数映射为idother_params = filter(lambda x: id(x) not in crf_params, model.parameters()) #在整个模型的参数中将CRF
2021-07-12 13:20:34
841
原创 在linux服务器中 python环境import找不到自定义的模块
解决方法:vi /etc/profile在最后一行添加:export PYTHONPATH=$PYTHONPATH:/root/project_name其中project_name是你的项目名称source /etc/profile 立即生效
2021-05-12 20:01:58
476
原创 训练Bert、Robert、ALBert等的巨大坑
!!!!!!!!!如下,我们在使用transformers包的get_linear_schedule_with_warmup()这个学习率预热API时,num_warmup_steps这个参数一定要设置为0,一定要设置为0,一定要设置为0!!!否则模型不会收敛(我在做中文文本语义匹配时发现的)scheduler = get_linear_schedule_with_warmup(optimizer, num_wa
2021-05-12 19:48:26
2498
6
原创 torch.utils.data中Dataset TensorDataset以及Dataloader
torch.utils.data中Dataset TensorDataset以及Dataloader
2021-05-03 16:48:08
239
原创 我的pip配置国内源 and pytorch稳定版(pip安装)
C:\Users\jinxiang\AppData\Roaming\pip\pip.ini
2021-04-27 16:55:37
995
2
原创 BiMPM报错:Resource punkt not found. Please use the NLTK Downloader to obtain the resource
解决方案
2021-04-27 13:18:57
235
原创 pytorch保存模型的两种方式
一、直接保存整个模型并读取## 保存模型torch.save(your_model, 'model_name.pth')## 读取模型your_model = torch.load('model_name.pth')二、只保存模型中的参数并读取## 保存模型torch.save({'you_model': your_model.state_dict()}, 'model_name.pt')## 读取模型model...
2021-04-22 19:16:58
35008
1
原创 os.path.normpath()与os.path.join()
为了避免出现路径字符串中混用正斜杠、反斜杠,使用os.path.normpath进行格式化 os.path.normpath(filePath)import osscript_dir = 'D:\\python_project\\ESIM\\scripts\\preprocessing'config = '../../config/preprocessing/snli_preprocessing.json'config_path_final = os.path.join(script_dir,
2021-04-22 16:54:18
957
原创 pytorch的一个小坑
PyTorch expects the input to a layer to have the same device and data type (dtype) as the parameters of the layer. For most layers, including conv layers, the default data type is torch.float32.# 如果不添加dtype=torch.fp32会报错,它默认是torch.int64a = torch.arange(1
2021-04-20 22:20:51
230
原创 torch.nn.LSTM()
1.pytorch中LSTM的细节分析理解2.Pytorch中的RNN之pack_padded_sequence()和pad_packed_sequence()3.nn.utils.rnn.pack_padded_sequence 与 nn.utils.rnn.pad_packed_sequence
2021-04-20 14:24:38
232
原创 9.构造前缀树(中等)
现在有5个word,分别为by,by,hello,heat,the。所构成的TrieTree如图所示,其中包含一个根节点,值为空,跟几点所连接的是每个word的第一个字符,每个字符按照同样的方式生成与之连接的字符的TrieTree,在每个word的最末处,表示该word出现了几次。例如:“b”处为0,表示"b"这个单词没有出现过。“y”处为2,表示“by”这个单词出现了两次。...
2021-04-15 12:03:20
122
原创 41.二叉搜索树任意节点最小距离(简单)
给你一个二叉搜索树的根节点 root ,返回 树中任意两不同节点值之间的最小差值 。
给你一个整数 n ,请你找出并返回第 n 个 丑数 。丑数 就是只包含质因数 2、3 或 5 的正整数。示例 1:输入:n = 10输出:12解释:[1, 2, 3, 4, 5, 6, 8, 9, 10, 12] 是由前 10 个丑数组成的序列。示例 2:输入:n = 1输出:1解释:1 通常被视为丑数。提示:1 <= n <= 1690来源:力扣(LeetCode)链接:https://leetcode-cn.com/problems/ugly-number-i
2021-04-11 22:08:02
96
原创 40.丑数(简单)
给你一个整数 n ,请你判断 n 是否为 丑数 。如果是,返回 true ;否则,返回 false 。丑数 就是只包含质因数 2、3 或 5 的正整数。示例 1:输入:n = 6输出:true解释:6 = 2 × 3示例 2:输入:n = 8输出:true解释:8 = 2 × 2 × 2示例 3:输入:n = 14输出:false解释:14 不是丑数,因为它包含了另外一个质因数 7 。示例 4:输入:n = 1输出:true解释:1 通常被视为丑数。提示:-23
2021-04-11 22:05:23
91
原创 高版本pytorch安装torchsnoop失败的解决
我的pytorch是1.7,目前最高版本是1.8。目录一、问题二、解决方法一、问题我们都知道torchsnoop是一款调试深度学习的神器,但是pytorch的版本太高,导致安装不了torchsnoop,那么我们该怎么解决呢?二、解决方法到github搜索torchsnoop,并将torchsnoop整个模块clone到本地(这里注意一定要通过git把整个模块克隆,不要直接下载压缩包(后面安装会报错!!!))然后在你的TorchSnooper文件夹下 同时按住shift再点击鼠标右键,弹出框框
2021-03-28 23:08:58
476
原创 pandas将多张excel表的数据合成一张表
#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2021/3/24 21:21# @Author : JJkinging# @File : test.pyimport pandas as pdimport osdef get_manyExcel_to_one(source_path, res_path): ''' description: 将多张excel表的数据纵向合成一张表 :param s
2021-03-24 22:31:36
940
原创 fileinput.FileInput () 读取文件时设置 ‘utf-8’ 编码方式
fileinput.FileInput(读取的文件路径名,openhook=fileinput.hook_encoded('utf-8', ''))))
2021-03-14 15:47:02
2038
原创 redis中AOF自动重写条件
如果要用redis的自动触发,就要涉及下面3个变量(AOF的功能要开启哦 appendonlyfile yes):记录当前AOF文件大小的变量aof_current_size记录最后一次AOF重写之后,AOF文件大小的变量aof_rewrite_base_size增长百分比变量aof_rewrite_perc每当serverCron函数(redis的crontab)执行时,会检查以下条件是否全部满足,如果是的话,就会触发自动的AOF重写:没有 BGSAVE 命令在执行没有 BGREWRIT
2021-01-20 15:19:24
1481
1
转载 centos 配置好网卡后重启网卡失败,提示:Job for network.service failed because the control process exited with error
Job for network.service failed because the control process exited with error
2021-01-19 16:41:07
435
原创 pd.read_excel()和 pd.to_excel() 参数详解
pandas.read_excel(io,sheet_name = 0,header = 0,names = None,index_col = None,usecols = None,squeeze = False,dtype = None, ...)io:字符串,文件的路径对象。sheet_name:None、string、int、字符串列表或整数列表,默认为0。字符串用于工作表名称,整数用于零索引工作表位置,字符串列表或整数列表用于请求多个工作表,为None时获取所有工作表。值对应操
2021-01-19 15:32:59
16966
转载 如何在pandas中使用set_index( )与reset_index( )设置索引
如何在pandas中使用set_index( )与reset_index( )设置索引
2021-01-18 20:19:32
382
原创 求候选码,3NF与BCNF分解
BNCF 分解2.例题 : R(U, F), U(A, B, C, D, E, F), F={A->B, C->DF, AC->E, D->F}解:依次考察每一条函数依赖,看其是否满足BNCF,若都满足,则无须分解比如 A->B, A+^++ = AB != U, 所以A->B不满足BCNF,所以可以把R分解为两部分:R1={A, B}, R2={A, C, D, E, F}, R1只有两个元素,必定满足BCNF,所以接下来只看R2,R2对应的函数依赖F2={C-&
2020-12-18 13:46:13
3079
2
转载 如何求一个关系模式的候选码
首先来看候选码的定义:若关系中的某一属性组的值能唯一地标识一个元组,则称该属性组为候选码。 若W是候选键,则必须满足两个条件:W的闭包是U;W没有冗余。 设关系模式R中U=ABC.......等N个属性,U中的属性在FD中有四种范围: 求候选码的简单方法方法: (1)如果有属性不在函数依赖集中出现,那么它必须包含在候选码中; (2)如果有属性不在函数依赖集中任何函数依赖的右边出现,那么它必须包含...
2020-12-17 17:40:23
3804
转载 根据函数依赖求最小依赖集
【例1】关系模式R<U,F>,U={A,B,C,D,E},F={A→BC,ABD→CE,E→D},求F的最小依赖集。 第一步:F右边单一化 得到F1={A→B,A→C,ABD→C,ABD→E,E→D} 第二步:逐个去掉X→A依赖后,设剩下函数依赖集为G,求属性集X关于G的闭包,如果闭包包含右边属性A,则去掉该函数依赖。 A→B:(A)+=AC,不包含B,保留。 A→C:(A)+=AB,不包含C,...
2020-12-17 16:57:55
3306
4
原创 数据库的完全依赖,部分依赖和传递依赖
一、部分函数依赖:设X,Y是关系R的两个属性集合,存在X→Y,若X’是X的真子集,存在X’→Y,则称Y部分函数依赖于X。例如:通过AB能得出C,通过A也能得出C,通过B也能得出C,那么说C部分依赖于AB。二、完全函数依赖设X,Y是关系R的两个属性集合,X’是X的真子集,存在X→Y,但对每一个X’都有X’!→Y,则称Y完全函数依赖于X。例如:通过AB能得出C,但是AB单独得不出C,那么说C完全依赖于AB.三、传递函数依赖设X,Y,Z是关系R中互不相同的属性集合,存在X→Y(Y !→X),Y→Z,
2020-12-17 14:36:34
8009
4-DCGAN实战.ipynb
2020-07-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人