
keep learning
明子哥哥
学习记录笔记
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Bert实战之文本分类(附代码)
1、概要Bert 是 Google 在 2018 年 10 月提出的一种利用大规模语料进行训练的语言模型,其通过Mask LM和sentence-level这两个子任务进行预训练。2、Bert怎么用2.1 fine-tune(微调)通过加载预训练好的 Bert 模型,将我们自己任务的数据集输入给该模型,在源网络上继续训练、不断更新模型的权重,最后得到一个适用于自己任务的模型。2.2 f...原创 2019-12-16 17:44:34 · 4630 阅读 · 0 评论 -
相关性分析-皮尔森、斯皮尔曼肯德尔相关性系数
def person_func(x,y): """ 1. person correlation coefficient(皮尔森相关性系数) 皮尔逊相关系数通常用r或ρ表示,度量两变量X和Y之间相互关系(线性相关) (1)公式 皮尔森相关性系数的值等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX, σY)。 (2)数据要求 a.正态分布 它是协方差与标准差的比值,并且在求皮尔森相关性系数以后,通常还会用t检原创 2021-01-28 15:31:19 · 4102 阅读 · 0 评论 -
图网络学习理论和实践(deepwalk,node2vec,metapath2vec,EGES)
本文主要记录一些经典的基于随机游走Graph Embedding方法,以及自己的一些实践经验。引言在NLP领域,关于如何对词进行更好的表示,有许多研究者进行了深入的研究。a. 独热表示(one-hot representation)将每一个表示成一个N维(N是词表大小)的向量,其中只有当前词对应的维度为1,其他为零。一般来说词表会比较大(至少是十万量级),因此高维稀疏的表示会导致维数灾难。还有一个重要的问题是,独热表示无法描述词与词之间的相似性,也就是我们常说的语义鸿沟。b. 分布式表示(dist原创 2020-07-23 14:33:51 · 1910 阅读 · 0 评论 -
【读论文】Hash Embeddings for Efficient Word Representations
abstractHash Embedding可以看作是普通word embedding 和通过随机hash 函数得到的词嵌入的interposition (插补)。在Hash Embedding中,每个token由k个d维embedding vectors和一个k维weight vector表示,token的最终d维表示是两者的乘积。实验表明,Hash Embedding可以轻松处理包...原创 2019-11-20 20:21:18 · 1224 阅读 · 0 评论