
机器学习
阿龙学堂
砖搬的多了,就自然知道怎样省力了
展开
-
阿龙学堂-算法-逻辑回归
logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而...原创 2020-08-13 11:42:43 · 357 阅读 · 0 评论 -
sparkmllib算法之特征转换-第一篇(StopWordsRemover)
0、停止词介绍停止词是应该从输入中排除的词,通常是因为词经常出现而且没有那么多含义。StopWordsRemover 将字符串序列(例如,Tokenizer 的输出)作为输入,并从输入序列中删除所有停用词。停用词列表由 stopWords 参数指定。某些语言的默认停用词可通过调用访问 StopWordsRemover.loadDefaultStopWords(language),其中可用选...原创 2020-03-16 18:05:14 · 417 阅读 · 0 评论 -
sparkmllib算法之特征转换-第一篇(分词器)
0、分词器分词是将文本(例如句子)分解为单个术语(通常是单词)的过程。一个简单的 Tokenizer类提供此功能。下面的示例显示了如何将句子拆分为单词序列。RegexTokenizer 允许基于正则表达式(正则表达式)匹配的更高级标记化。默认情况下,参数“pattern”(正则表达式,默认值:) "\\s+"用作分隔符以分割输入文本。或者,用户可以将参数“gap”设置为 false,指示正则表...原创 2020-03-16 17:55:32 · 469 阅读 · 0 评论 -
sparkmllib算法之操作-第三篇(CountVectorizer)
0、CountVectorizer 使用及原理CountVectorizer 并 CountVectorizerModel 旨在帮助将一组文本文档转换为标签计数的向量。当 apriori 字典不可用时,CountVectorizer 可以用作 Estimator 提取词汇表,并生成一个CountVectorizerModel。该模型为词汇表上的文档生成稀疏表示,然后可以将其传递给其他算法,如 ...原创 2020-03-16 17:38:45 · 794 阅读 · 0 评论 -
sparkmllib算法之操作-第二篇
0、sparkmllib基础统计相关性 假设检验 总结器1、相关性计算两个系列数据之间的相关性是“统计”中的常见操作。在spark.ml我们提供了很多系列中的灵活性,计算两两相关性。目前支持的相关方法是Pearson和Spearman的相关。Correlation使用指定的方法为输入的矢量数据集计算相关矩阵。输出将是一个DataFrame,其中包含向量列的相关矩阵。im...原创 2020-03-16 17:19:50 · 413 阅读 · 0 评论 -
阿龙学堂-SparkGraphx基本操作篇-第一篇
0、需求实现我们要构建一个由 GraphX 项目上的各种协作者组成的属性图。vertex 属性可能包含用户名和职业。我们可以使用描述协作者之间关系的字符串来注释边:1、加载已有测试数据1.1、加载依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/P...原创 2020-03-16 15:59:28 · 412 阅读 · 0 评论 -
sparkmllib算法之操作-第三篇(Word2Vec)
1、定义如果用一句比较简单的话来总结,word2vec是用一个一层的神经网络(即CBOW)把one-hot形式的稀疏词向量映射称为一个n维(n一般为几百)的稠密向量的过程。为了加快模型训练速度,其中的tricks包括Hierarchical softmax,negative sampling, Huffman Tree等。2、原理word2vec可以分为两部分:模型与通过模型获得的词向...原创 2020-01-14 20:20:03 · 700 阅读 · 0 评论 -
sparkmllib算法之操作-第三篇(TF-IDF)
1、定义在信息检索中,tf-idf(词频-逆文档频率)是一种统计方法,用以评估一个单词在一个文档集合或语料库中的重要程度。经常被用作信息检索、文本挖掘以及用户模型的权重因素。tf-idf的值会随着单词在文档中出现的次数的增加而增大,也会随着单词在语料库中出现的次数的增多而减小。tf-idf是如今最流行的词频加权方案之一。tf-idf的各种改进版本经常被搜索引擎用作在给定用户查询时对文档的相...原创 2020-01-14 20:08:38 · 629 阅读 · 0 评论 -
机器学习常见算法分类汇总
机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。学习方式根据数据类型的不同,对一个问题的建模有...转载 2018-03-29 19:55:33 · 440 阅读 · 0 评论