
python
YJII
这个作者很懒,什么都没留下…
展开
-
pacharm系列教程
https://www.imooc.com/wiki/pycharmlesson/git1.html原创 2022-11-17 22:38:00 · 128 阅读 · 0 评论 -
字符编码的常见形式
原文链接:https://blog.youkuaiyun.com/qq_43192819/article/details/108981008。版权声明:本文为优快云博主「柠 檬没我萌」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。Python3的str 默认不是bytes,所以不能decode,只能先encode转为bytes,再decode。所以str.decode 本质是bytes类型的str的decode。解码decode,就是吧一堆机器认识的,解释为人能读懂的。原创 2022-10-12 09:13:14 · 310 阅读 · 0 评论 -
参数设置——argparse
【代码】参数设置——argparse。原创 2022-09-24 11:27:21 · 276 阅读 · 0 评论 -
DP 硬件设备_实时查看gpu的使用率
【代码】DP 硬件设备_实时查看gpu的使用率。原创 2022-09-23 22:43:40 · 418 阅读 · 0 评论 -
句子填充到指定长度(mask矩阵生成)
【代码】句子填充到指定长度。原创 2022-09-22 20:32:27 · 298 阅读 · 0 评论 -
bert_文本聚类_1
【代码】bert_文本聚类_1。原创 2022-09-19 19:52:43 · 887 阅读 · 0 评论 -
爬虫常用句法
【代码】爬虫常用句法。原创 2022-09-17 09:57:22 · 207 阅读 · 0 评论 -
shell文件
【代码】shell文件。原创 2022-09-01 19:22:06 · 175 阅读 · 0 评论 -
Neo4j Cypher语言
neo4j模糊查询我与Neo4j用户一起工作时经常看到的一种建模方法是创建非常通用的关系(例如HAS,CONTAINS,IS),并在关系属性或端节点的属性/标签上进行过滤。create (x:Node {属性名:‘属性值’})match (x),(y) where x.属性=‘’ and y.属性=‘属性值’ create (x)-[r:关系名{关系属性:属性值}]->(y)match (x) where x.属性 contains ‘’ return x。......原创 2022-08-17 22:55:19 · 1667 阅读 · 0 评论 -
停用词删除
停用词文件:https://www.nltk.org/nltk_data/——73项原创 2022-08-12 21:02:45 · 171 阅读 · 0 评论 -
E-chart官方源码下载和关系图搭建
就完成官方样例的下载了。样例中的数据的地址,在HTML文件中有显示。链接:https://echarts.apache.org/examples/data/asset/data/原创 2022-07-31 16:39:07 · 689 阅读 · 0 评论 -
体质计算小网页
选择函数if(表达式){执行语句}循环函数for(表达式1,;表达式2){循环体}原创 2022-07-26 11:05:12 · 114 阅读 · 0 评论 -
NER实体识别工具(中文)
怎么谈?感觉这些NER工具都是面向的是通用领域,训练语料质量残差不齐,不要抱太大希望可以直接用在specific field。我实验的这几个中,感觉是spacy还算是好用一些的,剩下的一般吧。总结下的话,质量真不咋地。。。试验文件在github存放。...原创 2022-06-22 19:45:50 · 479 阅读 · 0 评论 -
图片处理的相关操作
上一节中涉及到了PDF文件的处理操作,但是PDF文件部分是扫描生成的,网上给出的解决方法有一些。但是,我觉得,扫描全能王挺好用的。https://www.camscanner.com/pdftoword菜鸟一枚 -----------------------------------------------------------------------------------------------......原创 2022-06-22 17:08:17 · 1138 阅读 · 0 评论 -
PDF相关的处理操作
参考:https://zhuanlan.zhihu.com/p/29410051https://zhuanlan.zhihu.com/p/29410051PDFminer使用,参考https://blog.youkuaiyun.com/weixin_43316082/article/details/117985881 如果出现解析不了的情况,就会返回cid.原创 2022-06-22 16:04:26 · 3761 阅读 · 1 评论 -
正则表达式入门
无原创 2022-06-16 21:45:53 · 131 阅读 · 0 评论 -
NLP中的对抗训练
本文仅限于代码调试,具体的原理,尚未解释。。。。model部分(bert为原型,分类问题)import torch.nn as nnfrom transformers import BertModel,BertTokenizername='bert-base-uncased'from torch.utils.data import TensorDataset, DataLoadermodel=BertModel.from_pretrained(name)tokenizer=BertTokeni原创 2022-04-05 16:27:17 · 1828 阅读 · 0 评论 -
Nezha中文预训练模型
from transformers import AutoTokenizer, AutoModelForMaskedLMtokenizer = AutoTokenizer.from_pretrained("peterchou/nezha-chinese-base")from transformers import AutoModelnezha=AutoModel.from_pretrained("peterchou/nezha-chinese-base")model = AutoModelForM原创 2022-04-05 14:52:25 · 1522 阅读 · 0 评论 -
loss_使用
sigmoid+binary_cross_entropy=binary_cross_entropy_with_losgitssoftmax+nll=cross_entropy_loss原创 2022-02-25 15:19:32 · 2048 阅读 · 0 评论 -
array和list的区别(可迭代性)
li=np.array(li)liOut[19]: array([0, 0, 0])li[:2]=1liOut[21]: array([1, 1, 0])li[:2]+[2,3]Out[22]: array([3, 4])l=[1,3,4]l[:2]+[3,2]Out[24]: [1, 3, 3, 2]原创 2022-02-21 10:12:24 · 264 阅读 · 0 评论 -
Fine-tuning Pre-Trained Transformer Language Models to Distantly Supervised Relation Extraction
Fine-tuning Pre-Trained Transformer Language Models to Distantly Supervised Relation Extraction解决问题:解决DS的错误标注问题和长尾分布,在预训练模型的基础上,提高了关系抽取的稳定性流程:语料NYT10(2005–2006 reserved for trainingand 2007 for testing. We use the version of thedataset pre-processed b原创 2022-02-10 19:17:20 · 498 阅读 · 0 评论 -
关系层次结构应用
Hierarchical Relation Extraction with Coarse-to-Fine Grained Attention(2018)核心:为了解决的是DS抽取的噪声问题,多采用mutiinstance 的方式选取instance喂给模型,但存在信息丢失较多和信息抽取不充分的问题,本文是在attention based 的方法上提出的改进,在表示一个bag中的关系类型时,将关系层次结构信息通过注意力引入关系向量表示中。基本流程:B(s1,s2,s3,s4)word–embeddi原创 2022-02-08 20:10:10 · 504 阅读 · 0 评论 -
Enhanced few shot relation extration through concept
Enhanced few shot relation extration through concept简介:在小样本数据中,提出了一种在关系抽取模型中融入概念的方法,因为对于相同的实体往往具有不同的概念,在句子中表示的含义不同。模型流程:实体概念嵌入(使用的已有的研究)句子嵌入(bert_based_model)概念-句子注意模块:第一步过滤因为这两个encode是在不同的向量空间里,提出添加全连接层的方式,使得两个向量映射到相同的空间,采用点乘的方式计算两个向量之间的相似度,在通过sof原创 2022-02-04 23:01:10 · 418 阅读 · 0 评论 -
exbert_AI explanation
在写之前,先要说一下explanation ,interpretable的区别,前者主要是面向黑盒子而言,就是未知的事物,或者是白箱操作,但一般在使用时,也并多未做多加区别。注意视图提供了模型自我注意的交互视图。在这里,用户可以改变层次,选择头部,并查看聚集的注意力。标记可以被屏蔽搜索结果显示在语料库视图中,首先显示最高相似性匹配。Summary视图显示匹配元数据的柱状图摘要,这有助于获取嵌入在搜索语料库中编码的元数据的快照An overview of the different component原创 2022-02-04 16:10:11 · 698 阅读 · 0 评论 -
准确率、召回率、F值
作者:木叶链接:https://www.zhihu.com/question/19645541/answer/39732647来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。一般来说,Precision就是检索出来的条目(比.原创 2022-01-30 08:07:45 · 1757 阅读 · 0 评论 -
机器学习笔记1_J
神经网络模型训练笔记在李宏毅老师的课程中,笔记如下:训练模型会出现梯度不在下降的问题,但多有可能不是最低值引起的,而是critical point ,包括鞍点和最低点,;另外,在梯度左右晃动时,可能是出现在了峡谷里,而且learning rate设置不太妥当,导致。overfitting一般是由于模型弹性较大,而数据较少引起的,观察的方式比较train data的loss和test data的loss,如果trainloss下降而testloss上升,则说明是overfitting了,可以采取增加数据原创 2022-01-11 22:11:02 · 188 阅读 · 0 评论 -
关系抽取发展历程
关系抽取方法:1、早期:1.1 基于规则的方法:人工定义抽取抽取规则,与语料进行匹配,抽取关系。规则一般由领域专家构建,用来描述两个实体所在结构。1.2 基于本体的方法:(本体是实体的上一级,比如周杰伦演唱了歌曲,本体是歌手)——可能有误2.传统ML阶段根据对数据是否标注,分为:有监督、无监督和半监督的方法。开展过程如下:首先学习过程,预处理样本为纯文本形式,对文本进行分析,建立关系抽取模型,在对测试文本进行训练。2.1 在有监督中,主要是:基于核函数的方法:如最短依存树法,输入句法结构树原创 2021-09-19 17:23:22 · 1109 阅读 · 0 评论 -
Seq2seq - End2end
端到端的神经网络模型:将原始数据作为输入,即词嵌入向量作为神经网络的输入,经过神经网络模型得到输出,输出与实际结果对比,得到误差,通过反向传播,调整模型参数,直至模型收敛,在输入与输出之间,整个神经网络是一体的(当做黑盒子来看待),即为端到端的模型。整个过程不再需要词性标注、句法分析、语义分析等多个子任务,每个子任务的结果会影响到模型的输出结果,就是非端到端的。序列到序列的模型:词嵌入得到词向量,在通过encoder(编码器)得到上下位张量,将context输入到解码器,产生输出。(就是两个RNN模型原创 2021-09-11 15:40:42 · 361 阅读 · 0 评论 -
在google colab里导入文件或自定义的模块
import osfrom google.colab import drivedrive.mount('/content/drive')path = "/content/drive/My Drive"base_dir=os.path.join(path,'RE')#定位到My drive文件下的RE文件下os.chdir(base_dir)os.listdir(base_dir)#RE下的子文件from model import DS_Mode#导入RE文件下model文件里的DS_Model原创 2021-09-03 21:25:53 · 1368 阅读 · 0 评论 -
torch模型创建、保存与加载
创建:class 类名():def int(self):super(类名,self).init()def forward(self,input):#执行#保存path=’’.pt’’torch.save()#加载model='模型名称‘’torch.model.load_state_dict()import torchimport torch.nn as nn#卷积-drop-展平-减少特征数linear#定义模型class NeutralModel(nn.Module):原创 2021-08-28 17:35:24 · 1497 阅读 · 0 评论 -
pytorch加载数据
加载数据关键在于:torch.utils.data.Dataloader(可以加载数据集,并将数据集转为Tensor形式)#安装包!pip install torchaudioimport torch import torchaudio#访问数据集yesno_data=torchaudio.datasets.YESNO('./',download=True)#加载数据集data_loader=torch.utils.data.DataLoader(yesno_data,batch_size原创 2021-08-28 16:20:14 · 231 阅读 · 0 评论 -
BERT模型
#google colab 上实现代码运行!pip install -q -U tensorflow-text!pip install -q tf-models-officialimport osimport shutilimport tensorflow as tfimport tensorflow_hub as hubimport tensorflow_text as textfrom official.nlp import optimization # to create Adam原创 2021-08-24 16:16:07 · 412 阅读 · 0 评论 -
词嵌入-相似度计算
#利用维基百科训练的模型,完成词嵌入import tensorflow_hub as hubembed = hub.load("https://tfhub.dev/google/Wiki-words-500/2")embeddings = embed(["cat is on the mat", "dog is in the fog"])english_sentences = ["dog", "Puppies are nice.", "I enjoy taking long walks along原创 2021-08-24 15:44:00 · 493 阅读 · 0 评论 -
SDP-LSTM语料中的实体和关系
import refrom nltk import tokenizef=open(file='D:\\pythonProject1\\CNN\Relation-Classification-using-Bidirectional-LSTM-Tree-master\\data\\TRAIN_FILE.TXT')lines=[]for line in f: lines.append(line.strip())relation=[]for i,line in enumerate(lines原创 2021-08-17 17:29:55 · 149 阅读 · 0 评论 -
SDP_LSTM 数据分析
# -*- codeing = utf-8 -*-# @Time : 2021/8/17 11:13# @Author : houjing# @File : 数据分析.py# @Software: PyCharmSDP# -*- codeing = utf-8 -*-# @Time : 2021/8/17 11:13# @Author : houjing# @File : 数据分析.py# @Software: PyCharmSDPimport matplotlib.pyplot a原创 2021-08-17 16:04:23 · 130 阅读 · 0 评论