
NLP
lien0906
这个作者很懒,什么都没留下…
展开
-
通俗理解word2vec
独热编码独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。举个例子,假设我们有四个样本(行),每个样本有三个特征(列),如图:我们的feature_1有两种可能的取值,比如是男/女,这里男用1表示,女用2表示。feature_2 和feature_3各有4种取值...转载 2020-01-14 10:29:29 · 316 阅读 · 1 评论 -
文本相似度计算-度量方法
2. 文本相似度计算-距离的度量完整机器学习实现代码GitHub欢迎转载,转载请注明出处https://www.cnblogs.com/huangyc/p/9786731.html欢迎沟通交流: 339408769@qq.com0. 目录1. 前言 2. 相似度计算方式 2.1 余弦相似度 2.2 欧式距离 2.3 曼哈顿距离 2.4 闵可夫斯基距离 2.5...转载 2019-10-29 11:55:02 · 3638 阅读 · 0 评论 -
文本相似度计算-文本向量化
0. 目录1.前言 2. 文本向量化 2.1 词集模型和词代模型 2.2 n-gram 2.3 TF-IDF 2.4 word2vec 2.5 主题词模型 3. 总结1. 文本相似度计算-文本向量化2. 文本相似度计算-距离的度量3. 文本相似度计算-DSSM算法4. 文本相似度计算-CNN-DSSM算法回到顶部1.前言在自然语言处理过...转载 2019-10-29 11:48:15 · 1591 阅读 · 0 评论 -
分词算法综述
之前总是在看前沿文章,真正落实到工业级任务还是需要实打实的硬核基础,我司选用了HANLP作为分词组件,在使用的过程中才感受到自己基础的薄弱,决定最近好好把分词的底层算法梳理一下。1. 简介NLP的底层任务由易到难大致可以分为词法分析、句法分析和语义分析。分词是词法分析(还包括词性标注和命名实体识别)中最基本的任务,可以说既简单又复杂。说简单是因为分词的算法研究已经很成熟了,大部分的准确率都...转载 2019-10-29 11:35:20 · 700 阅读 · 0 评论 -
TF-IDF介绍及应用
TF-IDF基本概念TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF指词频,IDF指逆向文件频率。主要用于评估某个字词对于一篇文章或一个语料库里的一篇文章的重要性。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引...转载 2019-10-29 11:22:55 · 1343 阅读 · 0 评论