NLP
twinkleJun
sonder
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
seq2seq基础代码——数据预处理部分
#数据加载如下with open('data/letters_source.txt', 'r', encoding='utf-8') as f: source_data = f.read()with open('data/letters_target.txt', 'r', encoding='utf-8') as f: target_data = f.read()#数据加载前提下,进行数据预处理#首先是数据预处理函数def extract_character_vocab(dat原创 2020-06-15 09:27:00 · 1034 阅读 · 0 评论 -
余弦相似度计算文本相似度
搬运自https://zhuanlan.zhihu.com/p/433965141、余弦函数余弦函数在三角形中的计算公式在直角坐标系中向量a和向量b之间的距离我们用向量c表示,就是上图中的黄色直线,那么向量c在直角坐标系中的长度为将a,b,c带入三角函数的公式中得到如下的公式:这是2维空间中余弦函数的公式,那么多维空间余弦函数的公式就是:2、余弦相似度余弦相似度量:计算个体间的相似度。相似度越小,距离越大。相似度越大,距离越小。余弦相似度算法:一个向量空间中两个向量夹角间的余弦原创 2020-06-05 18:49:28 · 1276 阅读 · 2 评论 -
One-hot编码
One-hot编码1、什么是one-hot 编码?one-hot编码又称为一位有效编码,采用N位状态寄存器进行编码,在任意时候只有一位有效。2、one-hot编码过程比如:对[“中国”, “美国”, “日本”]进行one-hot编码1.确定要编码的对象–[“中国”, “美国”, “日本”, “美国”],2.确定分类变量–中国 美国 日本,共3种类别;3.以上问题就相当于,有3个样本,每个样本有3个特征,将其转化为二进制向量表示,我们首先进行特征的整数编码:中国–0,美国–1,日本原创 2020-06-02 20:16:15 · 471 阅读 · 0 评论
分享