
ML基础
文章平均质量分 55
NULL
Gadaite
这个作者很懒,什么都没留下…
展开
-
Pyspark回归--IsotonicRegression
IsotonicRegression保序回归class pyspark.ml.regression.IsotonicRegression(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, weightCol=None, isotonic=True, featureIndex=0)目前使用并行池相邻违规者算法实现。仅支持单变量(单一特征)算法featureIndex = Param(parent=‘undefine原创 2022-03-12 09:07:07 · 445 阅读 · 0 评论 -
Pyspark回归--AFTSurvivalRegression
AFTSurvivalRegressionclass pyspark.ml.regression.AFTSurvivalRegression(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, fitIntercept=True, maxIter=100, tol=1e-06, censorCol=‘censor’, quantileProbabilities=[0.01, 0.05, 0.1, 0.25, 0.5,原创 2022-03-12 09:06:26 · 439 阅读 · 0 评论 -
Pyspark聚类--PowerIterationClustering
PowerIterationClusteringclass pyspark.ml.clustering.PowerIterationClustering(k=2, maxIter=20, initMode=‘random’, srcCol=‘src’, dstCol=‘dst’, weightCol=None)幂迭代聚类 (PIC),一种由 Lin 和 Cohen 开发的可扩展图聚类算法。 从摘要中:PIC 在数据的归一化成对相似度矩阵上使用截断幂迭代找到数据集的非常低维嵌入。 这个类还不是构造器/转换原创 2022-03-12 09:05:12 · 4219 阅读 · 0 评论 -
Pyspark聚类--LDA
LDAclass pyspark.ml.clustering.LDA(featuresCol=‘features’, maxIter=20, seed=None, checkpointInterval=10, k=10, optimizer=‘online’, learningOffset=1024.0, learningDecay=0.51, subsamplingRate=0.05, optimizeDocConcentration=True, docConcentration=None, topic原创 2022-03-12 09:04:42 · 1301 阅读 · 0 评论 -
Pyspark聚类--KMeans
KMeansclass pyspark.ml.clustering.KMeans(featuresCol=‘features’, predictionCol=‘prediction’, k=2, initMode=‘k-means||’, initSteps=2, tol=0.0001, maxIter=20, seed=None, distanceMeasure=‘euclidean’)使用类似 k-means++ 的初始化模式进行 K-means 聚类(Bahmani 等人的 k-means|| 算原创 2022-03-12 09:04:11 · 2168 阅读 · 0 评论 -
Pyspark聚类--GaussianMixture
GaussianMixtureclass pyspark.ml.clustering.GaussianMixture(featuresCol=‘features’, predictionCol=‘prediction’, k=2, probabilityCol=‘probability’, tol=0.01, maxIter=100, seed=None)GaussianMixture 聚类。 此类执行多元高斯混合模型 (GMM) 的期望最大化。 GMM 表示独立高斯分布的复合分布,具有相关的“混合”权原创 2022-03-12 09:03:40 · 684 阅读 · 0 评论 -
Pyspark聚类--BisectingKMeans
BisectingKMeansclass pyspark.ml.clustering.BisectingKMeans(featuresCol=‘features’, predictionCol=‘prediction’, maxIter=20, seed=None, k=4, minDivisibleClusterSize=1.0, distanceMeasure=‘euclidean’)一种基于 Steinbach、Karypis 和 Kumar 的论文“文档聚类技术比较”的二等分 k-means 算原创 2022-03-12 09:03:15 · 711 阅读 · 0 评论 -
Pyspark分类--RandomForestClassifier
RandomForestClassifierclass pyspark.ml.classification.RandomForestClassifier(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, probabilityCol=‘probability’, rawPredictionCol=‘rawPrediction’, maxDepth=5, maxBins=32, minInstancesPerNode=原创 2022-03-11 07:29:42 · 1280 阅读 · 0 评论 -
Pyspark分类--OneVsRest
OneVsRestclass pyspark.ml.classification.OneVsRest(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, classifier=None, weightCol=None, parallelism=1)将多类分类简化为二元分类。 使用一对一的策略执行减少。 对于具有 k 个类的多类分类,训练 k 个模型(每类一个)。 每个示例都针对所有 k 个模型进行评分,并选择得分最高原创 2022-03-11 07:29:09 · 395 阅读 · 0 评论 -
Pyspark分类--NaiveBayes
NaiveBayes朴素贝叶斯分类class pyspark.ml.classification.NaiveBayes(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, probabilityCol=‘probability’, rawPredictionCol=‘rawPrediction’, smoothing=1.0, modelType=‘multinomial’, thresholds=None, weig原创 2022-03-11 07:28:37 · 809 阅读 · 0 评论 -
Pyspark分类--MultilayerPerceptronClassifier
MultilayerPerceptronClassifierclass pyspark.ml.classification.MultilayerPerceptronClassifier(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, maxIter=100, tol=1e-06, seed=None, layers=None, blockSize=128, stepSize=0.03, solver=‘l-bfgs原创 2022-03-11 07:28:16 · 838 阅读 · 0 评论 -
Pyspark分类--LogisticRegression
LogisticRegression:逻辑回归分类class pyspark.ml.classification.LogisticRegression(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, maxIter=100, regParam=0.0, elasticNetParam=0.0, tol=1e-06, fitIntercept=True, threshold=0.5, thresholds=None,原创 2022-03-11 07:27:33 · 3765 阅读 · 0 评论 -
Pyspark分类--LinearSVC
LinearSVC:支持向量机线性分类LINEARSVC模型class pyspark.ml.classification.LinearSVC(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, maxIter=100, regParam=0.0, tol=1e-06, rawPredictionCol=‘rawPrediction’, fitIntercept=True, standardization=True,原创 2022-03-11 07:27:00 · 1806 阅读 · 0 评论 -
Pyspark分类--GBTClassifier
GBTClassifierclass pyspark.ml.classification.GBTClassifier(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, maxDepth=5, maxBins=32, minInstancesPerNode=1, minInfoGain=0.0, maxMemoryInMB=256, cacheNodeIds=False, checkpointInterval=10,原创 2022-03-11 07:26:28 · 4557 阅读 · 2 评论 -
Pyspark特征工程--Word2Vec
Word2Vecclass pyspark.ml.feature.Word2Vec(vectorSize=100, minCount=5, numPartitions=1, stepSize=0.025, maxIter=1, seed=None, inputCol=None, outputCol=None, windowSize=5, maxSentenceLength=1000)Word2Vec 训练一个 Map(String, Vector) 模型,即将一个词转换成代码,用于进一步的自然语言处理或原创 2022-03-11 07:25:12 · 2662 阅读 · 0 评论 -
Pyspark特征工程--VectorSlicer
VectorSlicerclass pyspark.ml.feature.VectorSlicer(inputCol=None, outputCol=None, indices=None, names=None)这个类接受一个特征向量并输出一个带有原始特征子数组的新特征向量。 可以使用索引 (setIndices()) 或名称 (setNames()) 指定特征子集。 必须至少选择一项功能。 不允许有重复的特征,因此选定的索引和名称之间不能有重叠。 输出向量将首先使用所选索引对特征进行排序(按给定顺序)原创 2022-03-11 07:24:33 · 269 阅读 · 0 评论 -
Pyspark特征工程--VectorSizeHint
VectorSizeHintclass pyspark.ml.feature.VectorSizeHint(inputCol=None, size=None, handleInvalid=‘error’)将大小信息添加到向量列的元数据的特征转换器。 VectorAssembler 需要其输入列的大小信息,并且不能在没有此元数据的情况下用于流数据帧VectorSizeHint 修改 inputCol 以包含大小元数据并且没有 outputCol只有指定大小的才能使用01.创建数据from pysp原创 2022-03-11 07:23:47 · 458 阅读 · 0 评论 -
Pyspark特征工程--VectorIndexer
VectorIndexerclass pyspark.ml.feature.VectorIndexer(maxCategories=20, inputCol=None, outputCol=None, handleInvalid=‘error’)用于对 Vector 数据集中的分类特征列进行索引的类两种使用模式: 1.自动识别分类特征(默认行为) 这有助于将未知向量的数据集处理成具有一些连续特征和一些分类特征的数据集。 连续和分类之间的选择基于 maxCategories 参数。原创 2022-03-10 11:39:03 · 743 阅读 · 0 评论 -
Pyspark特征工程--VectorAssembler
VectorAssembler是一个转换器它将给定的列列表组合到一个向量列中 将原始特征和由不同特征变换器生成的特征组合成单个特征向量非常有用以便训练ML模型如逻辑回归和决策树 VectorAssembler接受以下输入列类型:所有数字类型,布尔类型和矢量类型。 在每一行中,输入列的值将按 指定的顺序连接到一个向量中 返回的是一个vector,向量01.加载模块创建对象from pyspark.sql import SparkSessionfrom pyspark.ml.feature原创 2022-03-10 11:38:30 · 3893 阅读 · 0 评论 -
Pyspark特征工程--Tokenizer
Tokenizer是一个分词器 Tokenizer是将文本如一个句子拆分成单词的过程,在spark ml中提供Tokenizer实现此功能RegexTokenizer提供了跟高级的基于正则表达式匹配的单词拆分 默认情况下: 参数pattern(默认的正则表达式:"\s+") 作为分隔符用于拆分输入的文本 用户将可将参数 gaps设置为false,指定正则表达式pattern表示为tokens,而不是分隔符,这样作为划分结果 找到的所有匹配项01.导入模块,创建对象from pyspark原创 2022-03-10 11:37:58 · 638 阅读 · 0 评论 -
Pyspark特征工程--StringIndexer
StringIndexer转换器可以把一列类别型的特征(或标签)进行编码,使其数值化。 索引的范围从0开始,该过程可以使得相应的特征索引化,使得某些无法接受类别型特征的算法可以使用。并提高诸如决策树等机器学习算法的效率。 索引构建的顺序为标签的频率,优先编码频率较大的标签,所以出现频率最高的标签为0号。如果输入的是数值型的,我们会把它转化成字符型,然后再对其进行编码。 返回的新列的类型为:double代码如下:01.生成对象#%%from pyspark.sql import Spa原创 2022-03-10 11:37:24 · 2794 阅读 · 0 评论 -
Pyspark特征工程--StopWordsRemover
StopWordsRemoverclass pyspark.ml.feature.StopWordsRemover(inputCol=None, outputCol=None, stopWords=None, caseSensitive=False, locale=NoneStopWordsRemover的功能是直接移除所有停用词(stopword),所有从inputCol输入的量都会被它检查,然后再outputCol中,这些停止词都会去掉了。默认的话会在构建StopWordsRemover对象的时候原创 2022-03-10 11:36:51 · 638 阅读 · 0 评论 -
Pyspark特征工程--StandardScaler
StandardScalerclass pyspark.ml.feature.StandardScaler(withMean=False, withStd=True, inputCol=None, outputCol=None)通过使用训练集中样本的列汇总统计数据去除均值并缩放到单位方差来标准化特征(归一化)“单位标准差”是使用校正后的样本标准差计算的,该标准差计算为无偏样本方差的平方根withMean = Param(parent=‘undefined’, name=‘withMean’, doc原创 2022-03-10 11:36:17 · 1263 阅读 · 0 评论 -
Pyspark特征工程--SQLTransformer
SQLTransformerclass pyspark.ml.feature.SQLTransformer(statement=None)实现由 SQL 语句定义的转换。目前我们只支持 SQL 语法,如“SELECT … FROM THIS”,其中“THIS”表示输入数据集的基础表基础表也支持临时表01.创建数据:from pyspark.sql import SparkSessionspark = SparkSession.builder.appName("SQLTransformer").m原创 2022-03-10 11:35:47 · 249 阅读 · 0 评论 -
Pyspark特征工程--RFormula
RFormulaclass pyspark.ml.feature.RFormula(formula=None, featuresCol=‘features’, labelCol=‘label’, forceIndexLabel=False, stringIndexerOrderType=‘frequencyDesc’, handleInvalid=‘error’)实现根据 R 模型公式拟合数据集所需的转换。 目前,我们支持有限的 R 运算符子集,包括“~”、“.”、“:”、“”和“-”。另请参阅 R原创 2022-03-10 11:35:15 · 419 阅读 · 0 评论 -
Pyspark特征工程--RegexTokenizer
RegexTokenizer:正则表达式分词器class pyspark.ml.feature.RegexTokenizer(minTokenLength=1, gaps=True, pattern=’\s+’, inputCol=None, outputCol=None, toLowercase=True)一个基于正则表达式的分词器,它通过使用提供的正则表达式模式(Java语言)来拆分文本(默认)或重复匹配正则表达式(如果 gaps 为 false)来提取令牌。 可选参数还允许使用最小长度过滤令牌。原创 2022-03-10 11:34:40 · 546 阅读 · 0 评论 -
Pyspark特征工程--QuantileDiscretizer
QuantileDiscretizerclass pyspark.ml.feature.QuantileDiscretizer(numBuckets=2*, inputCol=None, outputCol=None, relativeError=0.001, handleInvalid=‘error’)QuantileDiscretizer 采用具有连续特征的列,并输出具有分箱分类特征的列。可以使用 numBuckets 参数设置分箱的桶数。使用的桶数可能会小于此值,例如,如果输入的不同值太少而无法创原创 2022-03-10 11:34:05 · 1717 阅读 · 0 评论 -
Pyspark特征工程--PolynomialExpansion
PolynomialExpansion:多项式特征扩展class pyspark.ml.feature.PolynomialExpansion(degree=2, inputCol=None, outputCol=None)在多项式空间中执行特征扩展。 正如在多项式展开的维基百科中所说,“在数学中,和乘积的展开通过使用乘法分布在加法上的事实将其表示为乘积之和”。 以一个二元特征向量为例:(x, y),如果我们想将其扩展为 2 阶,则得到 (x, x * x, y, x * y, y * y)。01.创原创 2022-03-09 11:02:23 · 295 阅读 · 0 评论 -
Pyspark特征工程--PCA
PCA:主成分分析class pyspark.ml.feature.PCA(k=None, inputCol=None, outputCol=None)主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。PCA 训练模型以将向量投影到前 k 个主成分的低维空间model.explainedVariance:返回由每个主成分解释的方差比例向量01.创建数据from pyspark.sql import SparkSessionspark原创 2022-03-09 11:01:49 · 1067 阅读 · 0 评论 -
Pyspark特征工程--OneHotEncoderEstimator
从spark版本2.4起,**OneHotEncoderEstimator已重命名为OneHotEncoder 常用于StringIndexer之后,返回的新的列是一个向量例如,对于 5 个类别,输入值 2.0 将映射到 [0.0, 0.0, 1.0, 0.0] 的输出向量。独热编码(One-Hot Encoding)将表示为标签索引的分类特征映射到二进制向量,该向量最多具有一个单一的单值,该单值表示所有特征值集合中特定特征值的存在。此编码允许期望连续特征(例如逻辑回归)的算法使用分类特征。原创 2022-03-09 11:01:21 · 2670 阅读 · 0 评论 -
Pyspark特征工程--Normalizer
Normalizer归一化class pyspark.ml.feature.Normalizer(p=2.0, inputCol=None, outputCol=None)使用给定的 p 范数将向量形式化为具有单位范数1-范数:║x║1=│x1│+│x2│+…+│xn│2-范数:∣∣x∣∣2=(∣∣x1∣∣2+∣∣x2∣∣2+...+∣∣xn∣∣2)(1/2)||x||^2 = (||x1||^2+||x2||^2+...+||xn||^2)^(1/2)∣∣x∣∣2=(∣∣x1∣∣2+∣∣x2原创 2022-03-09 11:00:47 · 459 阅读 · 0 评论 -
Pyspark特征工程--NGram
NGramclass pyspark.ml.feature.NGram(n=2, inputCol=None, outputCol=None)将输入的字符串数组转换为 n-gram 数组的特征转换器。 输入数组中的空值将被忽略。 它返回一个 n-gram 数组,其中每个 n-gram 由空格分隔的单词字符串表示。 当输入为空时,返回一个空数组。 当输入数组长度小于 n(每 n-gram 的元素数)时,不返回 n-gram默认n=201.初始化:from pyspark.sql import Spa原创 2022-03-09 11:00:24 · 338 阅读 · 0 评论 -
Pyspark特征工程--MinMaxScaler
MinMaxScalerclass pyspark.ml.feature.MinMaxScaler(min=0.0, max=1.0, inputCol=None, outputCol=None)使用列摘要统计将每个特征单独重新缩放到一个公共范围 [min, max],这也称为最小-最大归一化或重新缩放。特征 E 的重新缩放值计算为: 重新缩放 (e_i) = (e_i --E_min) / (E_max --E_min) * (max --min) + min 对于 E_max == E_mi原创 2022-03-09 10:59:21 · 1172 阅读 · 0 评论 -
Pyspark特征工程--MinHashLSH
MinHashLSHclass pyspark.ml.feature.MinHashLSH(inputCol=None, outputCol=None, seed=None, numHashTables=1)Jaccard 距离的 LSH 类输入可以是密集或稀疏向量,但如果是稀疏的,则效率更高。 例如 Vectors.sparse(10, [(2, 1.0), (3, 1.0), (5, 1.0)]) 表示空间中有 10 个元素。 该集合包含元素 2、3 和 5。此外,任何输入向量必须至少有 1 个非原创 2022-03-09 10:58:22 · 1624 阅读 · 0 评论 -
Pyspark特征工程--MaxAbsScaler
MaxAbsScalerclass pyspark.ml.feature.MaxAbsScaler(inputCol=None, outputCol=None)通过除以每个特征中的最大绝对值,将每个特征单独重新缩放到范围 [-1, 1]。它不会移动/居中数据,因此不会破坏任何稀疏性01.初始化from pyspark.sql import SparkSessionspark = SparkSession.builder.config("spark.Driver.host","192.168.1.4原创 2022-03-09 10:57:49 · 390 阅读 · 0 评论 -
Pyspark特征工程--IndexToString
IndexToStringclass pyspark.ml.feature.IndexToString(inputCol=None, outputCol=None, labels=None)将一列索引映射回对应字符串值的新列的转换器。 索引字符串映射要么来自输入列的 ML 属性,要么来自用户提供的标签(优先于 ML 属性)。 请参阅 StringIndexer 将字符串转换为索引。01.初始化:from pyspark.sql import SparkSessionspark = SparkSes原创 2022-03-09 10:57:15 · 484 阅读 · 0 评论 -
Pyspark特征工程--Imputer
Imputerclass pyspark.ml.feature.Imputer(strategy=‘mean’, missingValue=nan, inputCols=None, outputCols=None)用于完成缺失值的插补估计器,使用缺失值所在列的平均值或中值。 输入列应该是 DoubleType 或 FloatType。 目前 Imputer 不支持分类特征,并且可能为分类特征创建不正确的值。请注意,均值/中值(mean/median)是在过滤掉缺失值后计算的,输入列中的所有 Null原创 2022-03-09 10:56:42 · 563 阅读 · 0 评论 -
Pyspark特征工程--DCT
DCT:离散余弦变换class pyspark.ml.feature.DCT(inverse=False, inputCol=None, outputCol=None)一个特征变换器,它对一个实向量进行一维离散余弦变换。 不对输入向量执行零填充。 它返回一个表示 DCT 的相同长度的实向量。 返回向量被缩放,使得变换矩阵是单一的(又名缩放的 DCT-II)inverse = Param(parent=‘undefined’, name=‘inverse’, doc=‘Set transformer t原创 2022-03-08 04:31:05 · 245 阅读 · 0 评论 -
Pyspark特征工程--CountVectorizer
CountVectorizer是属于常见的特征数值计算类,是一个文本特征提取方法对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率CountVectorizer会将文本中的词语转换为词频矩阵,它通过fit_transform函数计算各个词语出现的次数 返回数据是一个稀疏向量,内容是一个键值对,值为个数(double类型)01.创建对象,模拟数据from pyspark.ml.feature import CountVectorizerfrom pyspark.sql import S原创 2022-03-08 04:30:26 · 801 阅读 · 0 评论 -
Pyspark特征工程--ChiSqSelector
ChiSqSelector:卡方选择器class pyspark.ml.feature.ChiSqSelector(numTopFeatures=50, featuresCol=‘features’, outputCol=None, labelCol=‘label’, selectorType=‘numTopFeatures’, percentile=0.1, fpr=0.05, fdr=0.05, fwe=0.05)卡方特征选择,选择分类特征用于预测分类标签选择器支持不同选择方法:numTopFea原创 2022-03-08 04:29:32 · 447 阅读 · 0 评论