
spark
文章平均质量分 85
戎煜
人生苦短,我用python
展开
-
Spark机器学习MLlib系列1(for python)--数据类型,向量,分布式矩阵,API
Spark机器学习MLlib系列1(for python)--数据类型,分布式矩阵,API关键词:Local vector,Labeled point,Local matrix,Distributed matrix,RowMatrix,IndexedRowMatrix,CoordinateMatrix,BlockMatrix。 前言:MLlib支持本地向量和存储在单机上的矩阵,当然也支持被存储为R原创 2016-09-20 11:42:18 · 4634 阅读 · 0 评论 -
MLlib主要概念之ML Pipelines
ML Pipelines前言:在这一节中,我们介绍一个叫做ML Pipelines管道的概念。ML Pipelines提供了一套建立在 DataFrames 之上的高级APIs来帮助用户创造和协调机器学习中实际实用的管道技术。 本文布局 Pipelines的主要概念MLlib是标准化的机器学习算法APIs来让机器学习算法变得更简单融合复杂的算法在一个管道里,或者工作流。管道是一种灵感来自于 sc原创 2016-09-21 10:26:32 · 1561 阅读 · 0 评论 -
Spark_Mllib系列之二———提取,转化和特征选择
Extracting, transforming and selecting features这部分将会讲到特征的算法,粗略的分为一下几个部分: 特征的提取TF-IDF 词条频率-逆向文件频率是一种被广泛使用在文本提取的向量化特征的方法,反映了一个词条对一篇语料库中的文章的重要性。条目表示为t,一篇文档表示为d,语料库表示为D,词条频率TF(td)是词条t出现在文档d中的次数,而文档频率DF是包原创 2016-10-31 15:52:41 · 995 阅读 · 0 评论