
机器学习Machine Learning
文章平均质量分 92
机器学习(Machine Learning)本质上就是让计算机自己在数据中学习规律,并根据所得到的规律对未来数据进行预测。
机器学习包括如聚类、分类、决策树、贝叶斯、神经网络、深度学习(Deep Learning)等算法。
快乐小码农
热爱生活,热爱技术,做一个有态度的四有“中年人”。关注科技进步,聚焦人工智能领域的前沿研究:经典AI、NLP、机器学习、数据挖掘、推荐系统等相关技术。人生不易,勇往直前,分享生活中的小确幸。
展开
-
NLP基础——词表示、文本特征工程
文章目录NLP基础——词表示和文本特征1. Word Representation: 独热编码,tf-idf2. Word2Vec2.1 Word Embedding2.2 Gaussian Embedding2.3 Contextual Embedding3. 文本特征工程NLP基础——词表示和文本特征1. Word Representation: 独热编码,tf-idf词表示:0-1 one-hot encoding --> 句子表示:0-1(Boolean)构建词库V,对每个句子的表原创 2022-04-18 19:50:32 · 1065 阅读 · 0 评论 -
NLP基础——语言模型(LM)
文章目录NLP基础:语言模型(LM)1. 模型评估(概率估计)2. 平滑方法3. LM在拼写纠正(Spell Correction)中的应用NLP基础:语言模型(LM)语言模型(LM,Language Model)就是用来判断某个句子是否语义通顺。首先对句子进行分词,句子的概率可以表示为各个词的联合概率:P(s)=P(w1,w2,...,wn)P(s)=P(w_1,w_2,...,w_n)P(s)=P(w1,w2,...,wn)。根据Chain rule: P(A,B,C,D)=P(A)P(B|原创 2022-04-17 21:36:57 · 3642 阅读 · 0 评论 -
安装Scrapy出现报错:MemoryError: Cannot allocate write+execute memory for ffi.callback().
文章目录安装Scrapy出现报错:MemoryError: Cannot allocate write+execute memory for ffi.callback().方法1:删除pyopenssl库,安装openssl。方法2:更新requests库。方法3:将python版本升级为3.10.4,然后重新安装scrapy错误原因:解决方法:Step 1. 使用brew安装openssl.Step 2. 复制动态库文件`libssl.1.1.dylib`到路径@rpath中。异常:`Operation原创 2022-03-30 23:29:26 · 2484 阅读 · 0 评论 -
NLP文本生成的评价指标有什么?
文章目录NLP文本生成的评价指标有什么?1. BLEU2. ROUGE2.1 ROUGE-N (将BLEU的精确率优化为召回率)2.2 ROUGE-L (将BLEU的n-gram优化为公共子序列)2.3 ROUGE-W (ROUGE-W 是 ROUGE-L 的改进版)2.4 ROUGE-S (Skip-Bigram Co-Occurrence Statistics)3. METEOR4. 参考NLP文本生成的评价指标有什么?NLP文本生成任务的评价指标有哪些?怎么判断模型好坏呢?如何解读指标的意义?例如原创 2022-03-19 09:31:18 · 6507 阅读 · 2 评论 -
NLP中的数据增强:UDA、EDA
NLP数据增强方法:无监督EDA,半监督UDA方法,具体怎么做呢?原创 2022-03-09 15:12:12 · 3306 阅读 · 0 评论 -
基于seq2seq文本生成的采样策略、解码策略
文章目录基于seq2seq文本生成的解码、采样策略?1. 贪婪采样1.1 Greedy Search1.2 Beam Search2. 随机采样2.1 Temperature Sampling:2.2 Top-k Sampling:2.3 Top-p Sampling (Nucleus Sampling ):3. Reference基于seq2seq文本生成的解码、采样策略?基于Seq2Seq模型的文本生成有各种不同的decoding strategy。文本生成中的decoding strategy主要原创 2022-02-18 18:42:40 · 2185 阅读 · 0 评论 -
NLP数据增强方法总结
文章目录NLP数据增强1. UDA (Unsupervised Data Augmentation)【推荐】2. EDA (Easy Data Augmentation)NLP数据增强1. UDA (Unsupervised Data Augmentation)【推荐】参考:[1]: https://github.com/google-research/uda “Unsupervised Data Augmentation”[2]: https://arxiv.org/abs/1904.12848原创 2022-02-18 16:04:08 · 2148 阅读 · 0 评论 -
数据预处理:离散特征编码方法
文章目录数据预处理:离散特征编码方法无监督方法:1.序号编码OrdinalEncoder2.独热编码OneHotEncoder3.二进制编码BinaryEncoder4.计数编码CountEncoder5.哈希编码HashingEncoder6.BaseNEncoder7.Sum Contrast8.Backward Difference Contrast9.Helmert Contrast10.Polynomial Contrast有监督方法:11.TargetEncoder12.MEstimateEnc原创 2022-01-23 10:48:02 · 5151 阅读 · 0 评论 -
如何计算文本间距离:WMD
文章目录WMD1. 为什么提出?2. 如何解决问题?2.1 定义问题2.1.1 归一化词频2.1.2 词移动代价2.1.3 文档距离2.1.4 约束条件2.2 快速计算2.2.1 WCD2.2.2 RWMD2.2.3 Prefetch and prune 加速k-NN3. 优点?4. 缺点?改进方向?4.1 缺点4.2 改进算法S-WMD5. WMD应用6. WMD代码实现7. 参考WMDPaper: From Word Embeddings To Document Distances2015年,提原创 2021-03-19 10:07:37 · 2713 阅读 · 0 评论 -
NLP中常用的相似度计算方法
文章目录相似度计算方法1. 文本距离1.1 编辑距离(Edit Distance)1.2 最长公共子串、最长公共子序列(Long Common Subsequence,LCS)1.3 句向量表示(Word Averaging Model,WAM)1.4 WMD1.5 BM252. 统计指标2.1 Cosine Similarity2.2 Jaccard Similarity2.3 Pearson Correlation2.4 Euclidean Distance3. 深度匹配参考相似度计算方法1. 文本原创 2021-03-19 09:52:43 · 3045 阅读 · 0 评论 -
gensim中常用的Word2Vec,Phrases,Phraser,KeyedVectors
文章目录1. Phrases 和Phraser2. Word2Vec3. KeyedVector词向量保存的各种数据格式词向量用处参考gensim API1. Phrases 和Phrasergensim.models.phrases.Phrases 和gensim.models.phrases.Phraser的用处是从句子中自动检测常用的短语表达,N-gram多元词组。Phrases模型可以构建和实现bigram,trigram,quadgram等,提取文档中经常出现的2个词,3个词,4个词。具体原创 2021-03-11 18:27:30 · 4969 阅读 · 5 评论 -
Beam Search 及5种优化方法
文章目录Beam Search 及优化1. Review Beam Search2. Beam Search Refinement2.1 Hypothesis filtering2.2 Normalization2.2.1 Length Normalization2.2.2 Coverage Normalization2.2.3 End of sentence Normalization2.3 Decoding with auxiliary language model2.4 Decoding with原创 2021-01-11 10:16:23 · 5566 阅读 · 0 评论 -
NLP三大特征抽取器(CNN/RNN/TF)比较
目录NLP三大特征抽取器(CNN/RNN/TF)比较1. NLP任务1.1 NLP任务特点1.2 NLP任务类型2. RNN2.1 为什么RNN能够成为解决NLP问题的主流特征抽取器?2.2 RNN目前面临的两个严重问题3. CNN3.1 早期CNN模型结构3.2 目前主流CNN模型4. Transformer4.1 论文来源:Attention is all you need4.2 Tansformer的组成4.3 Transformer效果好的原因4.4 Transformer针对NLP任务特点的解决方原创 2020-09-17 11:48:39 · 3041 阅读 · 0 评论 -
多分类文本处理与特征工程
目录多分类文本处理与特征工程1. 语言模型1.1 模型评估(概率估计)1.2 平滑方法1.3 LM在拼写纠正(Spell Correction)中的应用:2. 预处理3. Word Representation: 独热编码,tf-idf4. Word2Vec4.1 Word Embedding4.2 Gaussian Embedding4.3 Contextual Embedding5. 文本特征工程多分类文本处理与特征工程1. 语言模型语言模型(LM,Language Model)就是用来判断某个句原创 2020-09-15 22:47:11 · 499 阅读 · 0 评论 -
数据不平衡的常用处理方法
数据不平衡处理常见处理方法1. 欠采样(下采样、Under-sampling、US)减少分类中多数类样本的样本数量实现样本均衡。随机删除随机删除一些多量样本。PG算法(Prototype Generation)在原有样本的基础上生成新的样本来实现样本均衡。2. 过采样(上采样、over-sampling )增加分类中少数样本的数量来现样本均衡。随机复制简单复制少数类样本形成多条记录。缺点:可能导致过拟合问题。样本构建SMOTE(Synthetic minori原创 2020-09-15 16:41:48 · 10323 阅读 · 1 评论 -
利用gensim构建word2vec词向量模型并保存词向量
利用gensim包的word2vec模块构建CBOW或Skip-Gram模型来进行词向量化比较方便。''' 根据训练语料库,自己训练语言模型得到词向量 '''# 对分词后的文本训练Word2vec模型from gensim.models import word2vecimport loggingdef get_wordvec(corpus_path, model_name, vec_path): # 获取日志信息 logging.basicConfig(foramt='%(asc原创 2020-05-09 10:32:35 · 9529 阅读 · 4 评论 -
数据分析使用pydotplus可视化决策树
环境:python 3.6anacoda 4win 764位下载计算机安装graphviz:Windows版本下载网址:https://graphviz.gitlab.io/_pages/Download/Download_windows.htmlmsi版本安装方便,不容易出错。按照默认路径C:\Program Files (x86)安装,一直Next安装完成。再将安装路径...原创 2019-12-03 09:17:10 · 6143 阅读 · 1 评论