
数据挖掘
文章平均质量分 95
数据挖掘相关算法模型
快乐小码农
热爱生活,热爱技术,做一个有态度的四有“中年人”。关注科技进步,聚焦人工智能领域的前沿研究:经典AI、NLP、机器学习、数据挖掘、推荐系统等相关技术。人生不易,勇往直前,分享生活中的小确幸。
展开
-
NLP基础——词表示、文本特征工程
文章目录NLP基础——词表示和文本特征1. Word Representation: 独热编码,tf-idf2. Word2Vec2.1 Word Embedding2.2 Gaussian Embedding2.3 Contextual Embedding3. 文本特征工程NLP基础——词表示和文本特征1. Word Representation: 独热编码,tf-idf词表示:0-1 one-hot encoding --> 句子表示:0-1(Boolean)构建词库V,对每个句子的表原创 2022-04-18 19:50:32 · 1063 阅读 · 0 评论 -
各种优化器SGD,AdaGrad,Adam,LBFGS都做了什么?
文章目录各种优化器SGD,AdaGrad,Adam,LBFGS都做了什么?1. SGD:2. SGD+Momentum:3. NAG(Nesterov Accelerated Gradient ):4. AdaGrad(Adaptive Gradient Algorithm):5. AdaDelta:6. RMSProp:7. Adam:8. [AdaMax](https://arxiv.org/pdf/1412.6980.pdf):9. AdamW:10. SGDW:11. [AMSGrad](https原创 2021-01-15 15:39:44 · 13989 阅读 · 0 评论 -
数据预处理:离散特征编码方法
文章目录数据预处理:离散特征编码方法无监督方法:1.序号编码OrdinalEncoder2.独热编码OneHotEncoder3.二进制编码BinaryEncoder4.计数编码CountEncoder5.哈希编码HashingEncoder6.BaseNEncoder7.Sum Contrast8.Backward Difference Contrast9.Helmert Contrast10.Polynomial Contrast有监督方法:11.TargetEncoder12.MEstimateEnc原创 2022-01-23 10:48:02 · 5151 阅读 · 0 评论 -
如何计算文本间距离:WMD
文章目录WMD1. 为什么提出?2. 如何解决问题?2.1 定义问题2.1.1 归一化词频2.1.2 词移动代价2.1.3 文档距离2.1.4 约束条件2.2 快速计算2.2.1 WCD2.2.2 RWMD2.2.3 Prefetch and prune 加速k-NN3. 优点?4. 缺点?改进方向?4.1 缺点4.2 改进算法S-WMD5. WMD应用6. WMD代码实现7. 参考WMDPaper: From Word Embeddings To Document Distances2015年,提原创 2021-03-19 10:07:37 · 2713 阅读 · 0 评论 -
NLP中常用的相似度计算方法
文章目录相似度计算方法1. 文本距离1.1 编辑距离(Edit Distance)1.2 最长公共子串、最长公共子序列(Long Common Subsequence,LCS)1.3 句向量表示(Word Averaging Model,WAM)1.4 WMD1.5 BM252. 统计指标2.1 Cosine Similarity2.2 Jaccard Similarity2.3 Pearson Correlation2.4 Euclidean Distance3. 深度匹配参考相似度计算方法1. 文本原创 2021-03-19 09:52:43 · 3041 阅读 · 0 评论 -
gensim中常用的Word2Vec,Phrases,Phraser,KeyedVectors
文章目录1. Phrases 和Phraser2. Word2Vec3. KeyedVector词向量保存的各种数据格式词向量用处参考gensim API1. Phrases 和Phrasergensim.models.phrases.Phrases 和gensim.models.phrases.Phraser的用处是从句子中自动检测常用的短语表达,N-gram多元词组。Phrases模型可以构建和实现bigram,trigram,quadgram等,提取文档中经常出现的2个词,3个词,4个词。具体原创 2021-03-11 18:27:30 · 4965 阅读 · 5 评论 -
多分类文本处理与特征工程
目录多分类文本处理与特征工程1. 语言模型1.1 模型评估(概率估计)1.2 平滑方法1.3 LM在拼写纠正(Spell Correction)中的应用:2. 预处理3. Word Representation: 独热编码,tf-idf4. Word2Vec4.1 Word Embedding4.2 Gaussian Embedding4.3 Contextual Embedding5. 文本特征工程多分类文本处理与特征工程1. 语言模型语言模型(LM,Language Model)就是用来判断某个句原创 2020-09-15 22:47:11 · 499 阅读 · 0 评论