
sparkmllib
阿龙学堂
砖搬的多了,就自然知道怎样省力了
展开
-
sparkmllib算法之特征转换-第一篇(StopWordsRemover)
0、停止词介绍停止词是应该从输入中排除的词,通常是因为词经常出现而且没有那么多含义。StopWordsRemover 将字符串序列(例如,Tokenizer 的输出)作为输入,并从输入序列中删除所有停用词。停用词列表由 stopWords 参数指定。某些语言的默认停用词可通过调用访问 StopWordsRemover.loadDefaultStopWords(language),其中可用选...原创 2020-03-16 18:05:14 · 417 阅读 · 0 评论 -
sparkmllib算法之特征转换-第一篇(分词器)
0、分词器分词是将文本(例如句子)分解为单个术语(通常是单词)的过程。一个简单的 Tokenizer类提供此功能。下面的示例显示了如何将句子拆分为单词序列。RegexTokenizer 允许基于正则表达式(正则表达式)匹配的更高级标记化。默认情况下,参数“pattern”(正则表达式,默认值:) "\\s+"用作分隔符以分割输入文本。或者,用户可以将参数“gap”设置为 false,指示正则表...原创 2020-03-16 17:55:32 · 469 阅读 · 0 评论 -
sparkmllib算法之操作-第三篇(CountVectorizer)
0、CountVectorizer 使用及原理CountVectorizer 并 CountVectorizerModel 旨在帮助将一组文本文档转换为标签计数的向量。当 apriori 字典不可用时,CountVectorizer 可以用作 Estimator 提取词汇表,并生成一个CountVectorizerModel。该模型为词汇表上的文档生成稀疏表示,然后可以将其传递给其他算法,如 ...原创 2020-03-16 17:38:45 · 794 阅读 · 0 评论 -
sparkmllib算法之操作-第三篇(Word2Vec)
1、定义如果用一句比较简单的话来总结,word2vec是用一个一层的神经网络(即CBOW)把one-hot形式的稀疏词向量映射称为一个n维(n一般为几百)的稠密向量的过程。为了加快模型训练速度,其中的tricks包括Hierarchical softmax,negative sampling, Huffman Tree等。2、原理word2vec可以分为两部分:模型与通过模型获得的词向...原创 2020-01-14 20:20:03 · 700 阅读 · 0 评论 -
sparkmllib算法之操作-第三篇(TF-IDF)
1、定义在信息检索中,tf-idf(词频-逆文档频率)是一种统计方法,用以评估一个单词在一个文档集合或语料库中的重要程度。经常被用作信息检索、文本挖掘以及用户模型的权重因素。tf-idf的值会随着单词在文档中出现的次数的增加而增大,也会随着单词在语料库中出现的次数的增多而减小。tf-idf是如今最流行的词频加权方案之一。tf-idf的各种改进版本经常被搜索引擎用作在给定用户查询时对文档的相...原创 2020-01-14 20:08:38 · 629 阅读 · 0 评论 -
sparkmllib算法之操作-第二篇
0、sparkmllib基础统计相关性 假设检验 总结器1、相关性计算两个系列数据之间的相关性是“统计”中的常见操作。在spark.ml我们提供了很多系列中的灵活性,计算两两相关性。目前支持的相关方法是Pearson和Spearman的相关。Correlation使用指定的方法为输入的矢量数据集计算相关矩阵。输出将是一个DataFrame,其中包含向量列的相关矩阵。im...原创 2020-03-16 17:19:50 · 413 阅读 · 0 评论 -
sparkmllib算法之操作-第一篇
0、简介sparkMLlib是spark中的一个算法包,主要是进行一些机器学习相关的操作及计算,主要包括以下几个方面: 序号 特征 特征描述 1 ML算法 常见的学习算法,例如分类,回归,聚类和协作过滤 2 特征化 特征提取,变换,降维和选择 3 管道 用于构建,评估和调整ML管道的工具 4 持久性 保存和加载...原创 2020-03-16 16:51:08 · 379 阅读 · 0 评论