
机器学习算法
文章平均质量分 95
mym_74
这个作者很懒,什么都没留下…
展开
-
knn简单使用
import numpy as npimport matplotlib.pyplot as pltraw_data_X = [[3.393533211, 2.331273381], [3.110073483, 1.781539638], [1.343808831, 3.368360954], [3.5822...原创 2019-11-04 17:48:39 · 439 阅读 · 0 评论 -
利用 TF-IDF 和Word Counts构建基础模型
TF-IDFdef number_normalizer(tokens): """ 将所有数字标记映射为一个占位符(Placeholder)。 对于许多实际应用场景来说,以数字开头的tokens不是很有用, 但这样tokens的存在也有一定相关性。 通过将所有数字都表示成同一个符号,可以达到降维的目的。 """ return ("#NUMBER" if to...原创 2019-11-03 21:22:14 · 546 阅读 · 0 评论 -
CountVectorize类的使用
CountVectorizerCountVectorizer会将文本中的词语转换为词频矩阵,它通过fit_transform函数计算各个词语出现的次数。CountVectorizer 参数详解一般要设置的参数是:ngram_range,max_df,min_df,max_features等,具体情况具体分析参数表作用input一般使用默认即可,可以设置为"filena...原创 2019-11-03 21:21:41 · 849 阅读 · 0 评论 -
Pipelines + GridSearch
加载库与数据直接给出示例import numpy as npimport pandas as pdimport lightgbm as lgbfrom lightgbm import LGBMRegressorfrom sklearn.model_selection import GridSearchCVfrom sklearn.feature_selection import Se...原创 2019-11-03 21:20:57 · 132 阅读 · 0 评论 -
使用lgbm分类文本
加载包import lightgbm as lgbimport pandas as pdfrom sklearn.model_selection import GridSearchCVfrom sklearn.model_selection import train_test_splitimport gensimimport jiebaimport osimport sysfro...原创 2019-11-03 21:20:13 · 2029 阅读 · 0 评论 -
pyahocorasick使用
简介pyahocorasick是个python模块,由两种数据结构实现:trie和Aho-Corasick自动机。教程简单使用方法import ahocorasickA = ahocorasick.Automaton()for idx, key in enumerate('he her hers she'.split()): A.add_word(key, (idx, ke...原创 2019-11-03 21:15:54 · 4050 阅读 · 0 评论 -
PCA介绍以及简单实例
111原创 2018-12-19 17:28:37 · 1629 阅读 · 1 评论 -
gensim训练wiki中文词向量
尝试用gensim来做word2vec,之后还会用glove和fasttext进行比较获得wiki语料前往维基百科:资料库下载, 点击中文版的下载,下载这份大的文件同时安装好需要的gensim包pip install --upgrade gensim加载wikiCorpus下载得到的*.bz2文件可用gensim的WikiCorpus处理 , 能用 get_texts 迭代每一篇文...原创 2019-03-07 16:37:44 · 2284 阅读 · 3 评论