
自然语言处理
文章平均质量分 63
悠风号
人的理想志向往往和他的能力成正比
展开
-
ES 向量搜索 function score 报错
如果全文索引中存在全零向量数据时,可以将consineSimilarity计算换成其它向量相似度计算方法,例如dotProduct。原因是向量搜索定义评分的计算方法consineSimilarity的计算过程中需要对两个向量求模。consineSimilarity替换为。...原创 2022-08-01 17:10:05 · 1860 阅读 · 1 评论 -
Python sax的 xml 数据文件解析及 如何去除解析文本中的特殊标签<sub>, <sup>
wq在数据解析之前,需要对数据中的异常文本(<sub>, <b>,<i>,<sup>等文本修饰符标签)进行预处理,例如下文,<Abstract> <AbstractText><b>Background:</b> Lung adenocarcinoma has a strong tend...原创 2019-11-28 18:55:27 · 1354 阅读 · 0 评论 -
自然语言处理--PTB数据集的预处理基本方法(上篇 1/2)
PTB数据集是目前语言模型学习中使用最为广泛的文本数据集,下载地址如下:点击打开链接在解压上述链接的压缩包,找到文件中的data文件,会发现有三个已经预处理国的三分数据文件ptb.test.txtptb.train.txtptb.valid.txtimport codecsimport collectionsfrom operator import itemgetter#训练集的数据文件...原创 2018-03-30 16:47:27 · 4524 阅读 · 1 评论 -
自然语言处理--PTB文本数据集的预处理方法(下篇 2/2)
在文本数据中,由于每个句子的长度不同,又无法像图像一样可以调整到固定高度,所以在对文本数据进行批处理 (batching) 时需要一些特殊操作,最常见的方法是使用填充(padding)的方法,即将同一批块内的句子长度补齐。其次,相对于循环神经网络,基于循环神经网络的神经语言模型的结构主要多了两层: 词向量层(embedding)和 softmax 层。词向量层在输入层,每个单词用一个实数向量表示,...原创 2018-03-30 17:26:12 · 2831 阅读 · 2 评论