- 博客(127)
- 资源 (20)
- 收藏
- 关注

原创 NLP几个值得看的博主账号
博客园简枫, https://www.zhihu.com/column/pengshuang,文章不多,但是都精,有时间都可以看下。专栏慢慢学NLP专栏夕小瑶的卖萌屋机器学习札记优快云涛声依旧,https://blog.youkuaiyun.com/stpeace,优快云目前全网排名第一,文章中包含很多干货,可以有时间多看看。偏算法,java ,面试等内容。一个处女座的程序猿,https://blog.youkuaiyun.com/qq_41185868,CSD...
2020-12-03 14:19:33
562
原创 多模大模型
今天打开了csdn,惊喜(jingkong)的发现原力值失效了, 本来以为我怎么也能每年有个几篇文章的, 结果一看, 自从换了工作, 文章数断崖下降,23 24年居然一篇没有... 一定是因为被资本主义(gongsidalao)持续压榨中,真是天天都心力交瘁啊....多模对应的数据大部分都是mllm打头,比较好找,注意vl的文件需要处理对应的训练数据, 图片需要下载到本地,并且在训练文件中img_url 写入对应的图片地址。现在有很多框架, 都支持各种大模型, vl的文本的都是支持的。
2025-03-26 20:12:50
188
转载 xgb参数
链接:XGBoost参数调优完全指南(附Python代码) - 知识天地 - 博客园通用参数这些参数用来控制XGBoost的宏观功能。1、booster[默认gbtree]选择每次迭代的模型,有两种选择:gbtree:基于树的模型gbliner:线性模型2、silent[默认0]当这个参数值为1时,静默模式开启,不会输出任何信息。 一般这个参数就保持默认的0,因为这样能帮我们更好地理解模型。3、nthread[默认值为最大可能的线程数]这个参数用来进行多线程控...
2022-01-12 23:27:28
2766
原创 python graph
参考 https://www.cnblogs.com/openqt/p/4305530.html https://www.cnblogs.com/bonelee/p/14367378.html代码:# -*- encoding: utf-8 -*-from matplotlib import pyplot as pltimport networkx as nxdef display_toycase(): N = { 'a': set('bcdef'), .
2021-11-30 19:36:56
1406
原创 python group by
from itertools import groupbyuser_list = [ {"uid": 1, "sex": "男", "age": 10}, {"uid": 3, "sex": "男", "age": 20}, {"uid": 4, "sex": "女", "age": 20}, {"uid": 4, "sex": "女", "age": 31}, {"uid": 2, "sex": "男", "age": 10}]# 多字段分组user_s.
2021-09-15 10:45:00
501
原创 python 时间处理
遇到一个场景, 需要选取几天前的时间直接上代码吧,一看就能懂import timeimport datetimedef toycase1(): day = '20210701' timeArray = time.strptime(day, "%Y%m%d") day3 = datetime.timedelta(3) day_befor_3 = datetime.datetime(timeArray.tm_year, timeArray.tm_mon,
2021-07-07 10:18:44
140
原创 python 内存泄漏问题排查
参考https://blog.youkuaiyun.com/itfootball/article/details/95392266通过pympler 包检查首先 pip installpympler然后代码import部分添加from pympler import tracker,summary,muppy之后在你需要排查的代码段 前面加上memory_tracker = tracker.SummaryTracker()后面加上memory_tracker.print_diff(...
2021-04-25 16:17:02
719
原创 python2.7 正则匹配中文乱码问题
今天遇到了python2.7 正则匹配中文乱码问题,很是崩溃,试了好多种方法,最终还是解决了,记录下先说下我解决的方法# coding=utf-8import sys# print sys.getdefaultencoding()default_encoding = 'utf-8'if sys.getdefaultencoding() != default_encoding: reload(sys) sys.setdefaultencoding(default_en.
2021-03-26 10:21:34
1366
1
原创 设置google浏览器为黑色底色
搜了很多方法,不管用,最后发现有个扩展程序,直接加载就ok了https://chrome.google.com/webstore/detail/dark-reader/eimadpbcbfnmbkopoojfekhnkhdbieeh/related
2021-03-17 19:14:06
2076
原创 Linux 下通过via修改文件操作
参考链接:https://blog.youkuaiyun.com/dingxie1963/article/details/101259608打开文件:sudo via filename , 打开之后进入的是命令模式切换插入模式, 按 i 即可进入插入模式,从插入模式切换回命令模式按esc键插入模式可以修改文本内容退出: w filename (输入 「w filename」将文章以指定的文件名filename保存): wq (输入「wq」,存盘并退出vi): q! (输入q!, 不存盘强制..
2021-03-17 14:09:18
1269
原创 预训练模型
文本表示/词向量相关博客文本表示(一)—— word2vec(skip-gram CBOW) glove, transformer, BERT文本表示(二)—— word2vec 词向量训练代码文本表示(三)—— fasttext 词向量调用代码相似文本和文本表示 (链接总结)BERT相关深度学习之BERT详解BERT(一)—— BERT transformer attention 详解BERT(二)——BERT 缺陷BERT(三)——BERT 改进BERT_M..
2021-03-04 17:48:19
200
1
原创 NLP会议竞赛相关
CCKS、AIC、IPRE、CCF、semeval、ACL、EMNLP、NLPCCCCKSCCKS 2020竞赛三冠团队技术分享第二波:事件主体抽取赛题方案https://www.zhuanzhi.ai/document/a4346d0cc1211cb0d6b0a56b7a4f4bb2CCKS 2020篇章事件要素抽取比赛冠军方案解析https://bbs.huaweicloud.com/blogs/209117https://www.zhuanzhi.ai/document/57611..
2021-03-04 16:10:28
628
2
原创 Linux命令
1.查看本机ip ifconfig -a2. 拷贝文件:服务器到本地:Scp user@10.168.168.158:/home/user/toycase toycase
2021-03-04 16:02:54
122
原创 知识图谱——相关链接
先列一下之前我研究记录的相关博客知识图谱自动构建技术知识图谱(一)—— 简介知识图谱概念与技术 第一章 第二章知识图谱概念与技术 第三章知识图谱概念与技术 第四章其他大佬链接:知识图谱论文阅读笔记(三)实体链接 翻译 韩家炜老师的实体链接综述https://zhuanlan.zhihu.com/p/74914547https://www.zhuanzhi.ai/document/57611e46746f28b6cef823c784420d30CCKS 20...
2021-03-04 15:39:20
442
1
原创 深度学习(一)—— tips
整理一些之前的笔记,有的不一定对,也希望大家看到有问题的地方多多指出,非常感谢~~1.全连接层:神经元个数增加,模型复杂度提升,全连接层数加深,模型非线性表达能力提高。2.batchsize在机器翻译中,用更大的batch size配合更大学习率能提升模型优化速率和模型性能参考自:https://cloud.tencent.com/developer/news/4608553.RoBERTa和BERT对比整体效果 RoBERTa>XLNET>BERT参...
2021-03-04 15:31:37
235
1
原创 GRU和LSTM区别
GRU和LSTM的区别在于:①GRU通过更新门来控制上一时刻的信息传递和当前时刻计算的隐层信息传递。GRU中由于是一个参数进行控制,因而可以选择完全记住上一时刻而不需要当前计算的隐层值,或者完全选择当前计算的隐层值而忽略上一时刻的所有信息,最后一种情况就是无论是上一时刻的信息还是当前计算的隐层值都选择传递到当前时刻隐层值,只是选择的比重不同。而LSTM是由两个参数(遗忘门和输入门)来控制更新的,他们之间并不想GRU中一样只是由一个参数控制,因而在比重选择方面跟GRU有着很大的区别,例如它可以既不选择上一
2021-03-04 14:15:07
10213
1
原创 相似文本和文本表示 (链接总结)
列一下我之前研究的文本相似相关的一些博文文档相似度算法 Simhash语义相似度匹配(一)—— DSSM模型语义相似度匹配(二)—— ESIM模型sentence transformer另外,很多文本相似也可以通过句向量余弦相似度计算,相关文本表示博文有:文本表示(一)—— word2vec(skip-gram CBOW) glove, transformer, BERT文本表示(二)—— word2vec 词向量训练代码文本表示(三)—— fasttext 词向量调..
2021-03-04 14:05:23
232
1
原创 docker学习记录
暂时没用过docker的,建议还是先自己电脑装虚拟机来搞,别把服务器的环境搞崩了一、 ubuntu安装1.1 教程HY-V配置https://jingyan.baidu.com/article/380abd0a7671071d90192cad.html ubuntu安装https://jingyan.baidu.com/album/3f16e003e6e16a2591c103d9.html?picindex=4 安全设置 不勾选, 检查点关闭 配置网络 https://blog.csd..
2021-03-01 17:49:31
131
原创 python 基础
一、 pandas1. DataFramedf=df[(df["sentiment"].isin(["正面","负面","中性","有正有负"]))]df=df[(df["domain"].isin(["相关"]))]df['sentiment']=df['sentiment'].replace(["有正有负"],["负面"])>>> df.isnull().sum()commentcount 114content 140
2021-03-01 15:39:49
180
1
原创 可能用到的软件
一、终端软件1.MobaXterm 连服务器终端神器,本来之前用XFTP和XSHELL,后来有权限问题之后就被强推了这款,发现确实还挺好用2.XFTP3.XShell二、编辑工具1.MarkDownPad 编辑工具这个不多说了,就是markdown格式,不懂自行搜索下2.Notepad比较方便的文本编辑器,被推荐后一直用这个3.EmEditor界面比较简洁,但是强大在数据量很大的时候也能很快打开,这一点Notepad就相对差一些,另外还有比较和抽取的功能。其...
2021-03-01 10:48:08
165
原创 过采样(代码实现)
过采样import numpy as npimport itertoolsy_origin = [1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1]y_origin = np.array(y_origin)NUM_LABELS = 2def to_one_hot(data, depth): return (np.arange(depth)==data[:, None]).astype(np.int32)def over_sample( y_origin.
2021-02-26 18:55:34
1464
1
原创 python jieba分词的tmp_dir报错问题
跑代码报错:PermissionError: [Errno 1] Operation not permitted: '/tmp/tmpnrj1wcjg' -> '/tmp/jieba.cache'E0224 18:18:16.665461 140223449036608 __init__.py:156] Dump cache file failed.错误原因:jieba想要在系统根目录创建缓存文件/tmp/jieba.cache来存储模型,然而当前用户没有权限。 问题多在使用服务器,非r
2021-02-26 18:24:16
3191
原创 GPU/CPU 选择
有时候我们需要测试单cpu和GPU使用上效率的差别,如何选择使用CPU还是GPU呢?self.graph = tf.Graph()self.graph.as_default()if use_gpu: session_conf = tf.ConfigProto(allow_soft_placement=True, log_device_placement=False) session_conf.gpu_options.allow_growth = Trueelse: ..
2021-02-24 11:11:38
293
原创 评价指标 —— 分类
分类一般采用prf的评测指标参考链接:https://blog.youkuaiyun.com/liuliuzi_hz/article/details/53909436
2021-02-24 10:43:25
283
转载 特征工程——PCA
PCA:https://blog.youkuaiyun.com/program_developer/article/details/806327793.1 PCA的概念PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切...
2021-02-24 10:39:00
669
原创 归一化 标准化
1)概率模型不需要归一化,因为这种模型不关心变量的取值,而是关心变量的分布和变量之间的条件概率;2)SVM、线性回归之类的最优化问题需要归一化,是否归一化主要在于是否关心变量取值;3)神经网络需要标准化处理,一般变量的取值在-1到1之间,这样做是为了弱化某些变量的值较大而对模型产生影响。一般神经网络中的隐藏层采用tanh激活函数比sigmod激活函数要好些,因为tanh双曲正切函数的取值[-1,1]之间,均值为0.4)在K近邻算法中,如果不对解释变量进行标准化,那么具有小数量级的解释变量的影响就
2021-02-23 16:42:28
852
原创 tensorflow session.run()
1. 简单说一下,session.run(),需要几个参数,fetches,feed_dict,前者是输出,后者是输入。tf有个特点,是在模型中定义所有的张量,铺出一张图,session.run才会真正计算,这里fetches参数中包含的内容就是需要进行计算的变量。举个例子:loss = session.run(fetches=[ model.loss], feed_dict={ model.inpu...
2021-02-20 18:56:29
1460
原创 训练集、验证集、测试集的作用和区别
一、概述简单说,训练集就是用来训练模型用的,验证集为了验证模型的效果,测试集用来最终评测。所以基于这个,那训练数据的时候,就不要使用验证集和测试集的相关信息,包括统计均值方差特征等,但是验证集可以在模型训练过程中进行模型调参,就是手动调一些外部参数,像是epoch、learningrate、dropoutprob等。二、详述详细介绍下,参考:https://blog.youkuaiyun.com/ytusdc/article/details/86488537训练集(train set)——...
2021-02-20 18:32:57
17286
原创 TensorFlow 参数初始化方法
一、tf.truncated_normal_initializer初始化为正太分布1. tf.truncated_normal_initializertf.truncated_normal_initializer的意思是:从截断的正态分布中输出随机值。生成的值服从具有指定平均值和标准偏差的正态分布,如果生成的值大于平均值2个标准偏差的值则丢弃重新选择。ARGS:mean:一个python标量或一个标量张量。要生成的随机值的均值。stddev:一个python标量或一个标量张量。要生成的.
2021-02-20 18:02:41
2109
2
原创 Pycharm console / 无法运行程序
报错:Error:Console process terminated with error:bash: line 0: cd: C:/xxx/xxx: No such file or directorySudoPasswordPrompt26xxxx4q3q8fd21)settings-build,execution,deployment-console-python console 设置好working directory和path mappinghttps://bbs.youkuaiyun.com/to
2021-02-19 11:58:24
763
原创 batchsize的设置
现在很多算法都用到了batch,这里简单说下batchsize如何设置先来介绍下epoch、iteration、batchsize三者区别:batchsize:批大小,在深度学习中,一般采用SGD(随机梯度下降)训练,即每次训练在训练集中取batchsize个样本训练;iteration:1个iteration等于使用batchsize个样本训练一次epoch:1个epoch等于使用训练集中的全部样本训练一次为什么要设batchsize?1.当数据量足够大的时候可以适当的...
2021-02-09 18:24:34
4749
1
原创 sentence transformer
官方介绍https://sbert.net/docs/training/overview.htmlsentence-transformer仓库地址:UKPLab/sentence-transformers。主要是用来做文本相似的,框架如下:貌似还提供了其他预训练模型的支持,以及训练好的通用模型,其中包括一个多语言的distiluse-base-multilingual-cased模型。其它参考链接:https://zhuanlan.zhihu.com/p/1979588...
2021-02-09 18:04:49
2637
原创 NER 数据漏标问题
虽然以前也遇到过NER漏标的问题,也采用了一些方法去处理,但是没有系统思考过这个问题,偶然发现的一篇博客,说到了这个问题,感觉讲解的比较全面,还有实验论证,分享给大家ICLR2021 中唯一录取的NER论文:NER数据存在漏标怎么办?细节我不再做介绍了,有兴趣可以去上面博客学习,说一下文章里比较有价值的一些结论。一、实体漏标影响1.实验论证,随着实体漏标比例的上升,模型效果会下降越来越明显,下图可以看到,大概0.3以后开始下降越来越明显2.引入调节loss后(虚线部分),指标下降...
2021-02-09 11:43:08
1270
原创 tf.stop_gradient
详细可以参见链接:关于tf.stop_gradient的使用及理解 关于stop_gradient有时候我们其实不希望某些参数进行反向传播,这时候可以用这个函数,引入stop_gradient来对从loss到target net的反传进行截断。目的主要是在计算loss的时候,只对一部分进行权重更新...
2021-02-08 13:56:47
2138
原创 python 查看free GPU信息
粘的别人代码,还没测试有问题请指出,谢谢!def _get_free_gpu_id(free_size=0.7): free_command = "nvidia-smi -q -d Memory |grep -A4 GPU|grep Free" all_command = "nvidia-smi -q -d Memory |grep -A4 GPU|grep Total" free_result = subprocess.getoutput(free_command.
2021-02-04 12:12:35
321
原创 GPU使用问题总结
先记录一些已经遇到的问题,后续会持续补充1.服务器上,命令窗gpustat -i,实时查看动态,如果显卡占用一百多,而且程序跑的很慢,要看下是不是程序没有正确使用GPU之前遇到过这种情况,运行代码输出框会显示,无法正常使用GPU,或者说当前使用CPU有一次的问题是这个报错,ImportError: libcudnn.so.5: cannot open shared object file: No such file or directory这个问题原因是cudnn安装有问题,查看...
2021-02-02 17:40:00
927
2
原创 BERT_MRC
一、简介论文: 20年ACLA Unified MRC Framework for Named Entity Recognition代码链接:https://github.com/ShannonAI/mrc-for-flat-nested-ner二、方法介绍2.1解决问题解决嵌套型NER的问题,例子如下:有地方介绍,这种方法对于小样本效果会更好2.2原理论文引入了query先验知识,进行ner预测。 比如对于LOC类别,我们构造这样的query:找出...
2021-01-28 14:44:12
1717
CoQA_A_Conversational_Question_Answering_Challenge.pdf
2020-08-18
acora-2.2-cp27-cp27m-manylinux1_x86_64.whl
2020-08-18
valid.json之江电商评论观点挖掘比赛训练数据
2020-07-08
train_laptop.json之江电商评论观点挖掘比赛训练数据
2020-07-08
train.json 之江电商评论观点挖掘比赛训练数据
2020-07-08
wiki_idf 维基百科数据的idf值
2020-07-08
贝叶斯 人工智能 Bayesian Artificial Intelligence 2nd ed (2011)
2015-07-10
Ansj中文分词
2015-07-10
汉语自动分词综述
2011-12-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人