数据挖掘与模型部署:从频繁模式挖掘到生产应用
1. 可扩展频繁模式挖掘算法开发模型
在数据挖掘领域,频繁模式挖掘(FPM)是一项基础且重要的技术。下面我们通过一个具体的商业案例来介绍如何使用可扩展的频繁模式挖掘算法开发模型。
首先,我们需要导入所需的库并创建Spark会话:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pyspark.sql.functions import monotonically_increasing_id
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName(
"NewsgroupsPreprocessing"
).getOrCreate()
spark.sparkContext.setLogLevel("ERROR")
接着,加载并显示数据:
store_data = spark.read.format('csv')\
.option('header','true')\
.option('inferSchema', 'true')\
.option('timestamp', 'true')\
.load('s3a://test234/store_data.csv')
store_data = store_data.withColumn(
超级会员免费看
订阅专栏 解锁全文
1902

被折叠的 条评论
为什么被折叠?



