COLUMNS_UPDATED原理

本文深入解析SQLServer2005中的COLUMNS_UPDATED函数,包括其原理、如何测试前八列及八个以上列的更新情况,以及备份和恢复、分离数据库与附加数据库的基本概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

深入理解SQL Server 2005 中的 COLUMNS_UPDATED函数

COLUMNS_UPDATED函数能够出现在INSERTUPDATE触发器中AS关键字后的任何位置,用来指示表或视图中有哪些列已被插入或者更新。它通常和IF语句一起使用,从而可以根据不同的结果,促使触发器执行不同的操作。因此在DML触发器中,COLUMNS_UPDATED函数是一个非常重要且有用的函数。

不同于UPDATE函数,COLUMNS_UPDATED函数可以工作在多个列中,它使用字节中的位(Bit标识列是否已被修改(也就是采用二进制的方式),而不是在参数中传递列名。我们都知道,1字节(BYTE=8比特(Bit),因此仅仅使用COLUMNS_UPDATED函数,则只能够标识一个表或视图的前八列是否被修改。如果表的列多于八列,那么必须和SUBSTRING函数一起搭配使用,这将在后文中进行详细讨论。

 

COLUMNS_UPDATED函数的原理分析

COLUMNS_UPDATED函数返回类型为varbinary,这是一种二进制类型,它可以表示一个或多个字节,用来映射相关联表的列。因此COLUMNS_UPDATED函数返回一个或多个由左向右排序的字节,这取决于要验证更新的表是否拥有八个以上的列。最左侧字节表示列的序号为18的列,越偏向右侧的字节,其所代表的列的序号也就越大。而列序号的排序是在创建表时,由列被定义的顺序所决定的。在每个字节的内部,越偏向左侧,列的序号越大,而左侧字节所代表的列的序号总小于右侧字节的。请允许我用一个简单的示例来阐述上述过程:

我们假设有一张表TriggerDemo,它拥有24个列,分别为COL1COL2COL3直至COL24。那么COLUMNS_UPDATED函数就会返回3个字节,在最左侧的字节内由右向左表示COL1COL8,中间的字节内由右向左表示COL9COL16,最右侧的字节内由右向左表示COL17COL24

正如我之前所说,1字节中的8比特就可以表示一张表的前八列,如果某一1,那么它所表示的列被标记为已更新。反之为0,那么就是未更新。如果多个列被更新,那么就会存在有多个位被设置为1的情况。例如00001010就表示第二列和第四列已经被更新。

 

使用COLUMNS_UPDATED函数测试前八列

对于位(Bit要说的是,第一个称为Bit0(而不是Bit1),因此1个字节是由Bit0Bit7共八个位所组成的。有几个列被更新,COLUMNS_UPDATED函数就会返回一个所对应的位设置为1的字节。如果我们要想知道第二列和第四列是否被更新,就应该构造出一个字节,并将Bit1Bit3设置为100001010),然后需要将这个字节转换成十进制10,再和COLUMNS_UPDATED函数返回的字节进行按位逻辑与(&操作,&运算的结果如果是10,就能够保证第二列和第四列已经同时被更新。再结合使用不同的比较运算符(<>=),处理各种各样的可能性,你就会真切体会到COLUMNS_UPDATED函数的功能是多么的强大了。好了,为了便于理解,请看一个完整的代码演示:

 

CREATE TRIGGER updDataTrigger

ON TriggerDemo

AFTER UPDATE AS

--测试第二列和第四列是否被同时更新

IF COLUMNS_UPDATED() & 10 =10

BEGIN

…………

END

--是否第二列或者第四列或者第二列和第四列同时被更新

ELSE IF COLUMNS_UPDATED() & 10> 0 AND COLUMNS_UPDATED()&10<=10

BEGIN

…………

END

--测试第二列或者第四列是否已被更新

ELSE IF COLUMNS_UPDATED() & 10<10 AND COLUMNS_UPDATED() & 10>0

BEGIN

…………

END

 

使用COLUMNS_UPDATED函数测试八个以上的列

一旦表拥有八个以上的列,COLUMNS_UPDATED函数将会返回多个字节。这时我们就需要借助SUBSTRING函数来截取一个特定的字节,它可以从COLUMNS_UPDATED函数返回的多个字节中任意截取一个我们所想要的。

还记得我们前面的那张虚拟表TriggerDemo吗?(就是拥有24个列的那个如果我们想测试它的第二列、第十列以及第二十四列是否已被更新,我们就需要使用SUBSTRING函数来截取到分别代表这些列的字节,再重复前面测试前八列方法的步骤。我们参见一下代码:

--测试第二列、第十列以及第二十四列是否同时被更新

IF(SUBSTRING(COLUMNS_UPDATED(),1,1)&2=2)

AND(SUBSTRING(COLUMNS_UPDATED(),2,1)&2=2)

AND(SUBSTRING(COLUMNS_UPDATED(),3,1)&128=128)

BEGIN

…………

END

备份和恢复的概念:
备份和恢复组件是SQL Server的重要组成部分。备份就是指对SQLServer数据库及其他相关信息进行拷贝,数据库备份记录了在进行备份这一操作时数据库中所有数据的状态,如果数据库因以外而损坏,这些备份文件将在数据库恢复时被用来恢复数据库。
恢复就是把遭受破坏、丢失的数据或出现错误的数据库恢复到原来的正常状态,这一状态就是有备份决定的。
分离数据库:
在SQL Server运行时,在Windows中不能直接复制到SQL Server数据库文件,如果想复制SQLServer数据库文件,就要将数据库文件从SQL Server服务器中分析出去,这样就可以复制了。
附加数据库:
附加数据库的工作是分离数据库的逆操作,通过附加数据库,可以将没有加入SQL Server服务器的数据库文件加到服务器中。


import streamlit as st import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from pyspark.sql import SparkSession from pyspark.ml.feature import VectorAssembler, StringIndexer, OneHotEncoder from pyspark.ml import Pipeline from pyspark.ml.classification import LogisticRegression, DecisionTreeClassifier, RandomForestClassifier from pyspark.ml.evaluation import BinaryClassificationEvaluator, MulticlassClassificationEvaluator import os import time import warnings import tempfile import subprocess import sys import shutil # 忽略警告 warnings.filterwarnings("ignore") # 设置中文字体 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False # 页面设置 st.set_page_config( page_title="精准营销系统", page_icon="📊", layout="wide", initial_sidebar_state="expanded" ) # 自定义CSS样式 st.markdown(""" <style> .stApp { background: linear-gradient(135deg, #f8f9fa 0%, #e9ecef 100%); font-family: 'Helvetica Neue', Arial, sans-serif; } .header { background: linear-gradient(90deg, #1a237e 0%, #283593 100%); color: white; padding: 1.5rem; border-radius: 0.75rem; box-shadow: 0 4px 12px rgba(0,0,0,0.1); margin-bottom: 2rem; } .card { background: white; border-radius: 0.75rem; padding: 1rem; margin-bottom: 1.5rem; box-shadow: 0 4px 12极 transition: transform 0.3s ease; } .card:hover { transform: translateY(-5px); box-shadow: 0 6px 16px rgba(0,0,0,0.12); } .stButton button { background: linear-gradient(90deg, #3949ab 0%, #1a237e 100%) !important; color: white !important; border: none !important; border-radius: 0.5rem; padding: 0.75rem 1.5rem; font-size: 1rem; font-weight: 600; transition: all 0.3s ease; width: 100%; } .stButton button:hover { transform: scale(1.05); box-shadow: 0 4px 8px rgba(57, 73, 171, 0.4); } .feature-box { background: linear-gradient(135deg, #e3f2fd 0%, #bbdefb 100%); border-radius: 0.75rem; padding: 极.5rem; margin-bottom: 1.5rem; } .result-box { background: linear-gradient(135deg, #e8f5e9 0%, #c8e6c9 100%); border-radius: 0.75rem; padding: 1.5rem; margin-top: 1.5rem; } .model-box { background: linear-gradient(135deg, #fff3e0 0%, #ffe0b2 100%); border-radius: 0.75rem; padding: 1.5rem; margin-top: 1.5rem; } .stProgress > div > div > div { background: linear-gradient(90deg, #2ecc71 0%, #27ae60 100%) !important; } .metric-card { background: white; border-radius: 0.75rem; padding: 1rem; text-align: center; box-shadow: 0 4px 8px rgba(0,0,0,0.06); } .metric-value { font-size: 1.8rem; font-weight: 700; color: #1a237e; } .metric-label { font-size: 0.9rem; color: #5c6bc0; margin-top: 0.5rem; } .highlight { background: linear-gradient(90deg, #ffeb3b 0%, #fbc02d 100%); padding: 0.2rem 0.5rem; border-radius: 0.25rem; font-weight: 600; } .stDataFrame { border-radius: 0.75rem; box-shadow: 0 4px 8px rgba(0,0,0,0.06); } .convert-high { background-color: #c8e6c9 !important; color: #388e3c !important; font-weight: 700; } .convert-low { background-color: #ffcdd2 !important; color: #c62828 !important; font-weight: 600; } .java-success { background-color: #d4edda; border-left: 4px solid #28a745; padding: 1rem; margin-bottom: 1.5rem; border-radius: 0 0.25rem 0.25rem 0; } </style> """, unsafe_allow_html=True) # 创建优化的Spark会话 def create_spark_session(): """创建优化的Spark会话,使用高效的配置参数""" try: # 基础配置 - 优化资源使用 builder = SparkSession.builder \ .appName("TelecomPrecisionMarketing") \ .config("spark.driver.memory", "1g") \ .config("spark.executor.memory", "1g") \ .config("spark.sql.shuffle.partitions", "4") \ .config("spark.network.timeout", "800s") \ .config("spark.executor.heartbeatInterval", "60s") \ .config("spark.sql.legacy.allowUntypedScalaUDF", "true") \ .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") \ .config("spark.kryoserializer.buffer.max", "128m") \ .config("spark.driver.maxResultSize", "1g") \ .config("spark.sql.execution.arrow.pyspark.enabled", "true") \ .config("spark.ui.showConsoleProgress", "false") # 创建会话 spark = builder.getOrCreate() # 验证会话 try: # 创建测试DataFrame验证会话是否正常工作 test_df = spark.createDataFrame([(1, "test"), (2, "session")], ["id", "name"]) test_df_count = test_df.count() if test_df_count == 2: st.success("Spark会话创建成功并验证通过") else: st.warning(f"Spark会话验证异常,返回记录数: {test_df_count}") except Exception as e: st.error(f"Spark会话验证失败: {str(e)}") spark.stop() raise return spark except Exception as e: st.error(f"创建Spark会话失败: {str(e)}") st.error("请检查Java版本和Spark配置") st.stop() # 数据预处理函数 def preprocess_data(df): """优化后的数据预处理函数""" # 1. 选择关键特征 available_features = [col for col in df.columns if col in [ 'AGE', 'GENDER', 'ONLINE_DAY', 'TERM_CNT', 'IF_YHTS', 'MKT_STAR_GRADE_NAME', 'PROM_AMT_MONTH', 'is_rh_next' # 目标变量 ]] # 确保目标变量存在 if 'is_rh_next' not in available_features: st.error("错误:数据集中缺少目标变量 'is_rh_next'") return df # 只保留需要的列 df = df[available_features].copy() # 2. 处理缺失值 numeric_cols = ['AGE', 'ONLINE_DAY', 'TERM_CNT', 'P极_AMT_MONTH'] for col in numeric_cols: if col in df.columns: median_val = df[col].median() df[col].fillna(median_val, inplace=True) categorical_cols = ['GENDER', 'MKT_STAR_GRADE_NAME', 'IF_YHTS'] for col in categorical_cols: if col in df.columns: mode_val = df[col].mode()[0] if not df[col].mode().empty else '未知' df[col].fillna(mode_val, inplace=True) # 3. 异常值处理 def handle_outliers(series): Q1 = series.quantile(0.25) Q3 = series.quantile(0.75) IQR = Q3 - Q1 lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR return series.clip(lower_bound, upper_bound) for col in numeric_cols: if col in df.columns: df[col] = handle_outliers(df[col]) return df # 标题区域 st.markdown(""" <div class="header"> <h1 style='text-align: center; margin: 0;'>精准营销系统</h1> <p style='text-align: center; margin: 0.5rem 0 0; font-size: 1.1rem;'>基于机器学习的单宽转融预测</p> </div> """, unsafe_allow_html=True) # 页面布局 col1, col2 = st.columns([1, 1.5]) # 左侧区域 - 图片和简介 with col1: st.markdown(""" <div class="card"> <h2>📱 智能营销系统</h2> <p>预测单宽带用户转化为融合套餐用户的可能性</p> </div> """, unsafe_allow_html=True) # 使用在线图片作为占位符 st.image("https://images.unsplash.com/photo-1551836022-d5d88e9218df?ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D&auto=format&fit=crop&w=1200&q=80", caption="精准营销系统示意图", use_column_width=True) st.markdown(""" <div class="card"> <h4>📈 系统功能</h4> <ul> <li>用户转化可能性预测</li> <li>高精度机器学习模型</li> <li>可视化数据分析</li> <li>精准营销策略制定</li> </ul> </div> """, unsafe_allow_html=True) # 右侧区域 - 功能选择 with col2: st.markdown(""" <div class="card"> <h3>📋 请选择操作类型</h3> <p>您可以选择数据分析或使用模型进行预测</p> </div> """, unsafe_allow_html=True) # 功能选择 option = st.radio("操作类型", ["📊 数据分析 - 探索数据并训练模型", "🔍 预测分析 - 预测用户转化可能性"], index=0) # 数据分析部分 if "数据分析" in option: st.markdown(""" <div class="card"> <h3>数据分析与模型训练</h3> <p>上传数据并训练预测模型</极> </div> """, unsafe_allow_html=True) # 上传训练数据 train_file = st.file_uploader("上传数据集 (CSV格式, GBK编码)", type=["csv"]) if train_file is not None: try: # 读取数据 train_data = pd.read_csv(train_file, encoding='GBK') # 显示数据预览 with st.expander("数据预览", expanded=True): st.dataframe(train_data.head()) col1, col2 = st.columns(2) col1.metric("总样本数", train_data.shape[0]) col2.metric("特征数量", train_data.shape[1] - 1) # 数据预处理 st.subheader("数据预处理") with st.spinner("数据预处理中..."): processed_data = preprocess_data(train_data) st.success("✅ 数据预处理完成") # 可视化数据分布 st.subheader("数据分布分析") # 目标变量分布 st.markdown("**目标变量分布 (is_rh_next)**") fig, ax = plt.subplots(figsize=(8, 5)) sns.countplot(x='is_rh_next', data=processed_data, palette='viridis') plt.title('用户转化分布 (0:未转化, 1:转化)') plt.xlabel('是否转化') plt.ylabel('用户数量') st.pyplot(fig) # 数值特征分布 st.markdown("**数值特征分布**") numeric_cols = ['AGE', 'ONLINE_DAY', 'TERM_CNT', 'PROM_AMT_MONTH'] # 动态计算子图布局 num_features = len(numeric_cols) if num_features > 0: ncols = 2 nrows = (num_features + ncols - 1) // ncols fig, axes = plt.subplots(nrows, ncols, figsize=(14, 4*nrows)) if nrows > 1 or ncols > 1: axes = axes.flatten() else: axes = [axes] for i, col in enumerate(numeric_cols): if col in processed_data.columns and i < len(axes): sns.histplot(processed_data[col], kde=True, ax=axes[i], color='skyblue') axes[i].set_title(f'{col}分布') axes[i].set_xlabel('') for j in range(i+1, len(axes)): axes[j].set_visible(False) plt.tight_layout() st.pyplot(fig) else: st.warning("没有可用的数值特征") # 特征相关性分析 st.markdown("**特征相关性热力图**") corr_cols = numeric_cols + ['is_rh_next'] if len(corr_cols) > 1: corr_data = processed_data[corr_cols].corr() fig, ax = plt.subplots(figsize=(12, 8)) sns.heatmap(corr_data, annot=True, fmt=".2f", cmap='coolwarm', ax=ax) plt.title('特征相关性热力图') st.pyplot(fig) else: st.warning("特征不足,无法生成相关性热力图") # 模型训练 st.subheader("模型训练") # 训练参数设置 col1, col2 = st.columns(2) test_size = col1.slider("测试集比例", 0.1, 0.4, 0.2, 0.05) random_state = col2.number_input("随机种子", 0, 100, 42) # 开始训练按钮 if st.button("开始训练模型", use_container_width=True): # 创建临时目录用于存储模型 with tempfile.TemporaryDirectory() as tmp_dir: # 修复路径问题:使用绝对路径 model_path = os.path.abspath(os.path.join(tmp_dir, "best_model")) progress_bar = st.progress(0) status_text = st.empty() # 步骤1: 创建Spark会话 status_text.text("步骤1/7: 初始化Spark会话...") spark = create_spark_session() progress_bar.progress(15) # 步骤2: 转换为Spark DataFrame status_text.text("步骤2/7: 转换数据为Spark格式...") spark_df = spark.createDataFrame(processed_data) progress_bar.progress(30) # 步骤3: 划分训练集和测试集 status_text.text("步骤3/7: 划分训练集和测试集...") train_df, test_df = spark_df.randomSplit([1.0 - test_size, test_size], seed=random_state) progress_bar.progress(40) # 步骤4: 特征工程 status_text.text("步骤4/7: 特征工程处理...") categorical_cols = ['GENDER', 'MKT_STAR_GRADE_NAME', 'IF_YHTS'] existing_cat_cols = [col for col in categorical_cols if col in processed_data.columns] # 创建特征处理管道 indexers = [StringIndexer(inputCol=col, outputCol=col+"_index") for col in existing_cat_cols] encoders = [OneHotEncoder(inputCol=col+"_index", outputCol=col+"_encoded") for col in existing_cat_cols] numeric_cols = ['AGE', 'ONLINE_DAY', 'TERM_CNT', 'PROM_AMT_MONTH'] feature_cols = numeric_cols + [col+"_encoded" for col in existing_cat_cols] assembler = VectorAssembler(inputCols=feature_cols, outputCol="features") label_indexer = StringIndexer(inputCol="is_rh_next", outputCol="label") progress_bar.progress(50) # 步骤5: 构建模型 status_text.text("步骤5/7: 构建和训练模型...") # 使用优化的模型配置 rf = RandomForestClassifier( featuresCol="features", labelCol="label", numTrees=50, # 增加树的数量提高精度 maxDepth=5, # 适当增加深度 seed=random_state, featureSubsetStrategy="auto", # 自动选择特征子集策略 impurity="gini" # 使用基尼不纯度 ) pipeline = Pipeline(stages=indexers + encoders + [assembler, label_indexer, rf]) model = pipeline.fit(train_df) progress_bar.progress(80) # 步骤6: 评估模型 status_text.text("步骤6/7: 评估模型性能...") predictions = model.transform(test_df) evaluator_auc = BinaryClassificationEvaluator(labelCol="label", rawPredictionCol="rawPrediction") evaluator_acc = MulticlassClassificationEvaluator(labelCol="label", predictionCol="prediction", metricName="accuracy") evaluator_f1 = MulticlassClassificationEvaluator(labelCol="label", predictionCol="prediction", metricName="f1") auc = evaluator_auc.evaluate(predictions) acc = evaluator_acc.evaluate(predictions) f1 = evaluator_f1.evaluate(predictions) results = { "Random Forest": {"AUC": auc, "Accuracy": acc, "F1 Score": f1} } progress_bar.progress(95) # 步骤7: 保存结果 status_text.text("步骤7/7: 保存模型和结果...") # 确保目录存在 os.makedirs(model_path, exist_ok=True) model.write().overwrite().save(model_path) st.session_state.model_results = results st.session_state.best_model = model st.session_state.model_path = model_path st.session_state.spark = spark progress_bar.progress(100) st.success("🎉 模型训练完成!") # 显示模型性能 st.subheader("模型性能评估") results_df = pd.DataFrame(results).T st.dataframe(results_df.style.format("{:.4f}").background_gradient(cmap='Blues')) # 特征重要性 st.subheader("特征重要性") rf_model = model.stages[-1] feature_importances = rf_model.featureImportances.toArray() importance_df = pd.DataFrame({ "Feature": feature_cols, "Importance": feature_importances }).sort_values("Importance", ascending=False).head(10) fig, ax = plt.subplots(figsize=(10, 6)) sns.barplot(x="Importance", y="Feature", data=importance_df, palette="viridis", ax=ax) plt.title('Top 10 重要特征') st.pyplot(fig) except Exception as e: st.error(f"模型训练错误: {str(e)}") st.error("提示:请检查数据格式和特征列名") # 预测分析部分 else: st.markdown(""" <div class="card"> <h3>用户转化预测</h3> <p>预测单宽带用户转化为融合套餐的可能性</p> </div> """, unsafe_allow_html=True) # 上传预测数据 predict_file = st.file_uploader("上传预测数据 (CSV格式, GBK编码)", type=["csv"]) if predict_file is not None: try: # 读取数据 predict_data = pd.read_csv(predict_file, encoding='GBK') # 显示数据预览 with st.expander("数据预览", expanded=True): st.dataframe(predict_data.head()) # 检查是否有模型 if "model_path" not in st.session_state: st.warning("⚠️ 未找到训练好的模型,请先训练模型") st.stop() # 开始预测按钮 if st.button("开始预测", use_container_width=True): progress_bar = st.progress(0) status_text = st.empty() # 步骤1: 数据预处理 status_text.text("步骤1/4: 数据预处理中...") processed_data = preprocess_data(predict_data) progress_bar.progress(25) # 步骤2: 创建Spark会话 status_text.text("步骤2/4: 初始化Spark会话...") if "spark" not in st.session_state: spark = create_spark_session() st.session_state.spark = spark else: spark = st.session_state.spark progress_bar.progress(50) # 步骤3: 预测 status_text.text("步骤3/4: 进行预测...") spark_df = spark.createDataFrame(processed_data) best_model = st.session_state.best_model predictions = best_model.transform(spark_df) progress_bar.progress(75) # 步骤4: 处理结果 status_text.text("步骤4/4: 处理预测结果...") predictions_df = predictions.select( "CCUST_ROW_ID", "probability", "prediction" ).toPandas() # 解析概率值 predictions_df['转化概率'] = predictions_df['probability'].apply(lambda x: float(x[1])) predictions_df['预测结果'] = predictions_df['prediction'].apply(lambda x: "可能转化" if x == 1.0 else "可能不转化") # 添加转化可能性等级 predictions_df['转化可能性'] = pd.cut( predictions_df['转化概率'], bins=[0, 0.3, 0.7, 1], labels=["低可能性", "中可能性", "高可能性"] ) # 保存结果 st.session_state.prediction_results = predictions_df progress_bar.progress(100) st.success("✅ 预测完成!") except Exception as e: st.error(f"预测错误: {str(e)}") # 显示预测结果 if "prediction_results" in st.session_state: st.markdown(""" <div class="card"> <h3>预测结果</h3> <p>用户转化可能性评估报告</p> </div> """, unsafe_allow_html=True) result_df = st.session_state.prediction_results # 转化可能性分布 st.subheader("转化可能性分布概览") col1, col2, col3 = st.columns(3) high_conv = (result_df["转化可能性"] == "高可能性").sum() med_conv = (result_df["转化可能性"] == "中可能性").sum() low_conv = (result_df["转化可能性"] == "低可能性").sum() col1.markdown(f""" <div class="metric-card"> <div class="metric-value">{high_conv}</div> <div class="metric-label">高可能性用户</div> </div> """, unsafe_allow_html=True) col2.markdown(f""" <div class="metric-card"> <div class="metric-value">{med_conv}</div> <div class="metric-label">中可能性用户</div> </div> """, unsafe_allow_html=True) col3.markdown(f""" <div class="metric-card"> <div class="metric-value">{low_conv}</div> <div class="metric-label">低可能性用户</div> </div> """, unsafe_allow_html=True) # 转化可能性分布图 fig, ax = plt.subplots(figsize=(8, 5)) conv_counts = result_df["转化可能性"].value_counts() conv_counts.plot(kind='bar', color=['#4CAF50', '#FFC107', '#F44336'], ax=ax) plt.title('用户转化可能性分布') plt.xlabel('可能性等级') plt.ylabel('用户数量') st.pyplot(fig) # 详细预测结果 st.subheader("详细预测结果") # 样式函数 def color_convert(val): if val == "高可能性": return "background-color: #c8e6c9; color: #388e3c;" elif val == "中可能性": return "background-color: #fff9c4; color: #f57f17;" else: return "background-color: #ffcdd2; color: #c62828;" # 格式化显示 display_df = result_df[["CCUST_ROW_ID", "转化概率", "预测结果", "转化可能性"]] styled_df = display_df.style.format({ "转化概率": "{:.2%}" }).applymap(color_convert, subset=["转化可能性"]) st.dataframe(styled_df, height=400) # 下载结果 csv = display_df.to_csv(index=False).encode("utf-8") st.download_button( label="下载预测结果", data=csv, file_name="用户转化预测结果.csv", mime="text/csv", use_container_width=True ) # 页脚 st.markdown("---") st.markdown(""" <div style="text-align: center; color: #5c6bc0; font-size: 0.9rem; padding: 1rem;"> © 2023 精准营销系统 | 基于Spark和Streamlit开发 | 优化版Spark连接 </div> """, unsafe_allow_html=True) 执行上述代码提示找不到指定路径,pyspark路径 Requirement already satisfied: pyspark in d:\anaconda\lib\site-packages (4.0.0) Requirement already satisfied: py4j==0.10.9.9 in d:\anaconda\lib\site-packages (from pyspark) (0.10.9.9) Note: you may need to restart the kernel to use updated packages. 根据上述提供,修改后完整代码 Requirement already satisfied: pyspark in d:\anaconda\lib\site-packages (4.0.0) Requirement already satisfied: py4j==0.10.9.9 in d:\anaconda\lib\site-packages (from pyspark) (0.10.9.9) Note: you may need to restart the kernel to use updated packages.
07-02
<think>根据错误信息,问题可能出现在Spark的路径配置上。在Windows系统中,运行Spark需要Hadoop的winutils.exe文件。如果环境中没有正确配置,可能会导致“找不到指定路径”的错误。解决方案:1.下载对应Hadoop版本的winutils.exe文件(例如Hadoop3.2对应的winutils.exe)。2.将winutils.exe放在某个目录下(例如:C:\hadoop\bin)。3.设置环境变量HADOOP_HOME指向该目录(例如:C:\hadoop)。4.将%HADOOP_HOME%\bin添加到PATH环境变量。但是,在Streamlit应用中,我们无法直接修改环境变量(因为应用运行时环境变量已经固定)。因此,我们需要在代码中动态设置环境变量。修改代码:在创建SparkSession之前,检查系统类型,如果是Windows,则设置HADOOP_HOME环境变量。注意:需要确保运行Streamlit的机器上已经下载了winutils.exe并放在指定目录。步骤:1.在代码中,判断操作系统是否为Windows。2.如果是Windows,设置HADOOP_HOME环境变量(需要提前知道winutils.exe所在的目录)。3.将winutils.exe所在目录添加到PATH。由于我们无法预知用户机器上的winutils.exe位置,我们可以提供一个默认路径(例如项目目录下的hadoop目录),并提示用户下载winutils.exe并放在该目录。但是,更通用的做法是:在代码中,如果检测到没有设置HADOOP_HOME且是Windows系统,则尝试设置一个默认路径(比如临时目录),然后下载或要求用户预先放置。然而,由于下载文件可能涉及网络和权限问题,我们建议在代码中提供设置环境变量的方法,并提示用户自行下载winutils.exe。这里,我们假设用户已经将winutils.exe放在`C:\hadoop\bin`目录下。如果没有,我们可以给出提示。修改`create_spark_session`函数,在Windows系统下设置环境变量。同时,为了避免每次运行都重复设置,我们可以在设置前检查是否已经设置。另外,如果用户没有安装winutils,我们可以提供一个下载链接,并指导用户下载和放置。但是,由于Streamlit应用通常部署在服务器上,如果服务器是Linux则不需要。因此,我们主要针对Windows开发环境。修改后的`create_spark_session`函数: ```pythondef create_spark_session():"""创建优化的Spark会话,使用高效的配置参数"""try:import platformif platform.system()== "Windows":#设置HADOOP_HOME环境变量hadoop_home ="C:\\hadoop"#修改为你的hadoop目录os.environ["HADOOP_HOME"]= hadoop_home#将hadoop的bin目录添加到PATHos.environ["PATH"]= f"{hadoop_home}\\bin;{os.environ['PATH']}"#基础配置-优化资源使用builder= SparkSession.builder \.appName("TelecomPrecisionMarketing") \.config("spark.driver.memory", "1g") \.config("spark.executor.memory", "1g") \.config("spark.sql.shuffle.partitions", "4")\.config("spark.network.timeout","800s")\.config("极ecutor.heartbeatInterval","60s")\.config("spark.sql.legacy.allowUntypedScalaUDF", "true")\.config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")\.config("spark.kryoserializer.buffer.max","128m")\.config("spark.driver.maxResultSize", "1g") \.config("spark.sql.execution.arrow.pyspark.enabled", "true")\.config("spark.ui.showConsoleProgress","false") \.config("spark.master", "local[2]")#明确指定本地模式,使用2个核心#创建会话spark= builder.getOrCreate()# ...其余验证代码...except Exceptionas e:#错误处理```但是,如果用户没有将winutils放在`C:\\hadoop`目录,我们可以提示用户:在错误处理中,如果是Windows系统,提示用户设置HADOOP_HOME。由于我们无法确保所有Windows用户都有winutils,因此我们可以在错误信息中给出指导。完整修改后的`create_spark_session`函数:注意:由于在StreamlitCloud或Linux服务器上不需要winutils,因此我们只针对Windows本地运行环境。另外,我们还可以尝试在代码中自动下载winutils(需要网络连接和写入权限),但这样可能会因为权限问题失败。因此,我们选择提示用户手动设置。这里,我们只做环境变量设置,如果设置后仍然失败,则给出提示。修改后的代码:由于原代码中已经有很多配置,我们添加Windows环境设置,并调整错误提示。另外,在Windows上,Spark需要访问临时目录,可能会因为权限问题失败,因此我们还可以设置Spark的临时目录:```python.config("spark.local.dir", tempfile.gettempdir()) ```综合以上,以下是修改后的完整代码(只修改了`create_spark_session`函数,并添加了必要的导入):注意:在代码中,我们添加了`platform`模块用于判断操作系统。由于原代码较长,以下只给出修改后的`create_spark_session`函数,以及全局导入中添加`platform`。在代码开头添加:```pythonimportplatform```修改`create_spark_session`函数: ```pythondef create_spark_session():"""创建优化的Spark会话,使用高效的配置参数"""try:#针对Windows系统设置Hadoop环境变量if platform.system()== "Windows":hadoop_home ="C:\\hadoop"#默认路径,用户可以根据实际情况修改ifnot os.path.exists(hadoop_home):#尝试创建目录(不一定成功,但至少可以设置环境变量)os.makedirs(hadoop_home,exist_ok=True)os.environ["HADOOP_HOME"]= hadoop_home#将Hadoop的bin目录添加到PATHos.environ["PATH"]= f"{hadoop_home}\\bin;{os.environ['PATH']}"#设置Spark临时目录os.environ["TEMP"]= tempfile.gettempdir()#基础配置-优化资源使用builder= SparkSession.builder \.appName("TelecomPrecisionMarketing") \.config("spark.driver.memory", "1g") \.config("spark.executor.memory", "1g") \.config("spark.sql.shuffle.partitions", "4")\.config("spark.network.timeout","800s")\.config("spark.executor.heartbeatInterval","60s")\.config("spark.sql.legacy.allowUntypedScalaUDF", "true")\.config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")\.config("spark.kryoserializer.buffer.max","128m")\.config("spark.driver.maxResultSize", "1g") \.config("spark.sql.execution.arrow.pyspark.enabled", "true")\.config("spark.ui.showConsoleProgress","false") \.config("spark.master", "local[2]")#明确指定本地模式,使用2个核心#创建会话spark= builder.getOrCreate()#验证会话try:#创建测试DataFrame验证会话是否正常工作test_df =spark.createDataFrame([(1,"test"), (2,"session")],["id", "name"])test_df_count= test_df.count()if test_df_count==2:st.success("Spark会话创建成功并验证通过")else:st.warning(f"Spark会话验证异常,返回记录数:{test_df_count}")except Exceptionas e:st.error(f"Spark会话验证失败: {str(e)}")#如果是Windows系统,给出额外提示ifplatform.system() =="Windows":st.error("在Windows系统上,Spark需要Hadoop的winutils.exe。请下载对应版本的winutils.exe并放置在C:\\hadoop\\bin目录下。下载地址:https://github.com/steveloughran/winutils")spark.stop()raisereturn sparkexcept Exceptionas e:st.error(f"创建Spark会话失败: {str(e)}")#如果是Windows系统,给出额外提示if platform.system()== "Windows":st.error("在Windows系统上,Spark需要Hadoop的winutils.exe。请下载对应版本的winutils.exe并放置在C:\\hadoop\\bin目录下。下载地址:https://github.com/steveloughran/winutils")st.error("请检查Java版本和Spark配置")st.stop()```注意:我们假设用户将winutils.exe放在`C:\hadoop\bin`目录下。如果用户放在其他目录,需要修改`hadoop_home`变量。由于我们无法控制用户的环境,因此我们提供了错误提示,指导用户下载和放置winutils.exe。另外,我们添加了`spark.master`配置为`local[2]`,以确保在本地运行。最后,由于原代码较长,请将上述修改后的函数替换原函数,并在文件开头导入`platform`和`tempfile`(如果还没有导入的话)。完整代码中已经导入了`tempfile`,所以只需添加`importplatform`。由于原代码中已经有很多内容,这里不再重复整个代码,只提供关键修改部分。注意:在代码中,我们假设用户将winutils.exe放在C:\hadoop\bin目录。如果用户没有放在这个目录,需要修改`hadoop_home`变量,或者用户自行设置环境变量。另外,我们也可以让用户通过Streamlit的secrets.toml来配置HADOOP_HOME路径,但这对于普通用户来说可能复杂。因此,我们采用固定路径并提示的方式。如果用户没有放置winutils.exe,则在创建SparkSession时会失败,并给出提示。修改后的完整代码(只修改了`create_spark_session`函数和添加了`importplatform`)如下:</think># 修复PySpark路径问题的完整代码 根据您提供的信息,问题是由于PySpark在Windows环境下的路径配置问题导致的。以下是完整的修复代码,解决了"找不到指定路径"的错误: ```python import streamlit as st import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from pyspark.sql import SparkSession from pyspark.ml.feature import VectorAssembler, StringIndexer, OneHotEncoder from pyspark.ml import Pipeline from pyspark.ml.classification import LogisticRegression, DecisionTreeClassifier, RandomForestClassifier from pyspark.ml.evaluation import BinaryClassificationEvaluator, MulticlassClassificationEvaluator import os import time import warnings import tempfile import subprocess import sys import shutil import platform from pyspark.sql.functions import monotonically_increasing_id # 忽略警告 warnings.filterwarnings("ignore") # 设置中文字体 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False # 页面设置 st.set_page_config( page_title="精准营销系统", page_icon="📊", layout="wide", initial_sidebar_state="expanded" ) # 自定义CSS样式 st.markdown(""" <style> .stApp { background: linear-gradient(135deg, #f8f9fa 0%, #e9ecef 100%); font-family: 'Helvetica Neue', Arial, sans-serif; } .header { background: linear-gradient(90deg, #1a237e 0%, #283593 100%); color: white; padding: 1.5rem; border-radius: 0.75rem; box-shadow: 0 4px 12px rgba(0,0,0,0.1); margin-bottom: 2rem; } .card { background: white; border-radius: 0.极rem; padding: 1rem; margin-bottom: 1.5rem; box-shadow: 0 4px 12px rgba(0,0,0,0.08); transition: transform 0.3s ease; } .card:hover { transform: translateY(-5px); box-shadow: 0 6px 16px rgba(0,0,0,0.12); } .stButton button { background: linear-gradient(90deg, #3949ab 0%, #1a237e 100%) !important; color: white !important; border: none !important; border-radius: 0.5rem; padding: 0.75rem 1.5rem; font-size: 1rem; font-weight: 600; transition: all 0.3s ease; width: 100%; } .stButton button:hover { transform: scale(1.05); box-shadow: 0 4px 8px rgba(57, 73, 171, 0.4); } .feature-box { background: linear-gradient(135deg, #e3f2fd 0%, #bbdefb 100%); border-radius: 0.75rem; padding: 1.5rem; margin-bottom: 1.5rem; } .result-box { background: linear-gradient(135deg, #e8f5e9 0%, #c8e6c9 100%); border-radius: 0.75rem; padding: 1.5rem; margin-top: 1.5rem; } .model-box { background: linear-gradient(135deg, #fff3e0 0%, #ffe0b2 100%); border-radius: 0.75rem; padding: 1.5rem; margin-top: 1.5rem; } .stProgress > div > div > div { background: linear-gradient(90deg, #2ecc71 0%, #27ae60 100%) !important; } .metric-card { background: white; border-radius: 0.75rem; padding: 1rem; text-align: center; box-shadow: 0 4px 8px rgba(0,0,0,0.06); } .metric-value { font-size: 1.8rem; font-weight: 700; color: #1a237e; } .metric-label { font-size: 0.9rem; color: #5c6bc0; margin-top: 0.5rem; } .highlight { background: linear-gradient(90deg, #ffeb3b 0%, #fbc02d 100%); padding: 0.2rem 0.5rem; border-radius: 0.25rem; font-weight: 600; } .stDataFrame { border-radius: 0.75rem; box-shadow: 0 4px 8px rgba(0,0,0,0.06); } .convert-high { background-color: #c8e6c9 !important; color: #388e3c !important; font-weight: 700; } .convert-low { background-color: #ffcdd2 !important; color: #c62828 !important; font-weight: 600; } .java-success { background-color: #d4edda; border-left: 4px solid #28a745; padding: 1rem; margin-bottom: 1.5rem; border-radius: 0 0.25rem 0.25rem 0; } </style> """, unsafe_allow_html=True) # 修复Windows环境下的PySpark路径问题 def fix_windows_path(): """修复Windows环境下的PySpark路径问题""" if platform.system() == "Windows": # 设置Hadoop环境变量 hadoop_home = os.path.join(os.environ.get('HADOOP_HOME', ''), 'bin') if hadoop_home and os.path.exists(hadoop_home): os.environ['PATH'] = f"{hadoop_home};{os.environ['PATH']}" # 设置Spark临时目录 spark_temp_dir = os.path.join(tempfile.gettempdir(), 'spark') os.makedirs(spark_temp_dir, exist_ok=True) os.environ['SPARK_LOCAL_DIRS'] = spark_temp_dir # 设置Java路径 java_home = os.environ.get('JAVA_HOME', '') if java_home: os.environ['PATH'] = f"{java_home}/bin;{os.environ['PATH']}" # 创建优化的Spark会话 def create_spark_session(): """创建优化的Spark会话,使用高效的配置参数""" try: # 修复Windows路径问题 fix_windows_path() # 基础配置 - 优化资源使用 builder = SparkSession.builder \ .appName("TelecomPrecisionMarketing") \ .config("spark.driver.memory", "1g") \ .config("spark.executor.memory", "1g") \ .config("spark.sql.shuffle.partitions", "4") \ .config("spark.network.timeout", "800s") \ .config("spark.executor.heartbeatInterval", "60s") \ .config("spark.sql.legacy.allowUntypedScalaUDF", "true") \ .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") \ .config("spark.kryoserializer.buffer.max", "128m") \ .config("spark.driver.maxResultSize", "1g") \ .config("spark.sql.execution.arrow.pyspark.enabled", "true") \ .config("spark.ui.showConsoleProgress", "false") \ .config("spark.master", "local[2]") # 明确指定本地模式,使用2个核心 # 创建会话 spark = builder.getOrCreate() # 验证会话 try: # 创建测试DataFrame验证会话是否正常工作 test_df = spark.createDataFrame([(1, "test"), (2, "session")], ["id", "name"]) test_df_count = test_df.count() if test_df_count == 2: st.success("Spark会话创建成功并验证通过") else: st.warning(f"Spark会话验证异常,返回记录数: {test_df_count}") except Exception as e: st.error(f"Spark会话验证失败: {str(e)}") spark.stop() raise return spark except Exception as e: st.error(f"创建Spark会话失败: {str(e)}") st.error("请检查Java版本和Spark配置") st.stop() # 数据预处理函数 def preprocess_data(df): """优化后的数据预处理函数""" # 1. 选择关键特征 available_features = [col for col in df.columns if col in [ 'AGE', 'GENDER', 'ONLINE_DAY', 'TERM_CNT', 'IF_YHTS', 'MKT_STAR_GRADE_NAME', 'PROM_AMT_MONTH', 'is_rh_next' # 目标变量 ]] # 确保目标变量存在 if 'is_rh_next' not in available_features: st.error("错误:数据集中缺少目标变量 'is_rh_next'") return df # 只保留需要的列 df = df[available_features].copy() # 2. 处理缺失值 numeric_cols = ['AGE', 'ONLINE_DAY', 'TERM_CNT', 'PROM_AMT_MONTH'] for col in numeric_cols: if col in df.columns: median_val = df[col].median() df[col].fillna(median_val, inplace=True) categorical_cols = ['GENDER', 'MKT_STAR_GRADE_NAME', 'IF_YHTS'] for col in categorical_cols: if col in df.columns: mode_val = df[col].mode()[0] if not df[col].mode().empty else '未知' df[极].fillna(mode_val, inplace=True) # 3. 异常值处理 def handle_outliers(series): Q1 = series.quantile(0.25) Q3 = series.quantile(0.75) IQR = Q3 - Q1 lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR return series.clip(lower_bound, upper_bound) for col in numeric_cols: if col in df.columns: df[col] = handle_outliers(df[col]) return df # 标题区域 st.markdown(""" <div class="header"> <h1 style='text-align: center; margin: 0;'>精准营销系统</h1> <p style='text-align: center; margin: 0.5rem 0 0; font-size: 1.1rem;'>基于机器学习的单宽转融预测</p> </div> """, unsafe_allow_html=True) # 页面布局 col1, col2 = st.columns([1, 1.5]) # 左侧区域 - 图片和简介 with col1: st.markdown(""" <div class="card"> <h2>📱 智能营销系统</h2> <p>预测单宽带用户转化为融合套餐用户的可能性</p> </div> """, unsafe_allow_html=True) # 使用在线图片作为占位符 st.image("https://images.unsplash.com/photo-1551836022-d5d88e9218df?ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D&auto=format&fit=crop&w=1200&q=80", caption="精准营销系统示意图", use_column_width=True) st.markdown(""" <div class="card"> <h4>📈 系统功能</h4> <ul> <li>用户转化可能性预测</li> <li>高精度机器学习模型</li> <li>可视化数据分析</li> <li>精准营销策略制定</li> </ul> </div> """, unsafe_allow_html=True) # 右侧区域 - 功能选择 with col2: st.markdown(""" <div class="card"> <h3>📋 请选择操作类型</h3> <p>您可以选择数据分析或使用模型进行预测</p> </div> """, unsafe_allow_html=True) # 功能选择 option = st.radio("操作类型", ["📊 数据分析 - 探索数据并训练模型", "🔍 预测分析 - 预测用户转化可能性"], index=0) # 数据分析部分 if "数据分析" in option: st.markdown(""" <div class="card"> <h3>数据分析与模型训练</h3> <p>上传数据并训练预测模型</p> </div> """, unsafe_allow_html=True) # 上传训练数据 train_file = st.file_uploader("上传数据集 (CSV格式, GBK编码)", type=["csv"]) if train_file is not None: try: # 读取数据 train_data = pd.read_csv(train_file, encoding='GBK') # 显示数据预览 with st.expander("数据预览", expanded=True): st.dataframe(train_data.head()) col1, col2 = st.columns(2) col1.metric("总样本极", train_data.shape[0]) col2.metric("特征数量", train_data.shape[1] - 1) # 数据预处理 st.subheader("数据预处理") with st.spinner("数据预处理中..."): processed_data = preprocess_data(train_data) st.success("✅ 数据预处理完成") # 可视化数据分布 st.subheader("数据分布分析") # 目标变量分布 st.markdown("**目标变量分布 (is_rh_next)**") fig, ax = plt.subplots(figsize=(8, 5)) sns.countplot(x='is_rh_next', data=processed_data, palette='viridis') plt.title('用户转化分布 (0:未转化, 1:转化)') plt.xlabel('是否转化') plt.ylabel('用户数量') st.pyplot(fig) # 数值特征分布 st.markdown("**数值特征分布**") numeric_cols = ['AGE', 'ONLINE_DAY', 'TERM_CNT', 'PROM_AMT_MONTH'] # 动态计算子图布局 num_features = len(numeric_cols) if num_features > 0: ncols = 2 nrows = (num_features + ncols - 1) // ncols fig, axes = plt.subplots(nrows, ncols, figsize=(14, 4*nrows)) if nrows > 1 or ncols > 1: axes = axes.flatten() else: axes = [axes] for i, col in enumerate(numeric_cols): if col in processed_data.columns and i < len(axes): sns.histplot(processed_data[col], kde=True, ax=axes[i], color='skyblue') axes[i].set_title(f'{col}分布') axes[i].set_xlabel('') for j in range(i+1, len(axes)): axes[j].set_visible(False) plt.tight_layout() st.pyplot(fig) else: st.warning("没有可用的数值特征") # 特征相关性分析 st.markdown("**特征相关性热力图**") corr_cols = numeric_cols + ['is_rh_next'] if len(corr_cols) > 1: corr_data = processed_data[corr_cols].corr() fig, ax = plt.subplots(figsize=(12, 8)) sns.heatmap(corr_data, annot=True, fmt=".2f", cmap='coolwarm', ax=ax) plt.title('特征相关性热力图') st.pyplot(fig) else: st.warning("特征不足,无法生成相关性热力图") # 模型训练 st.subheader("模型训练") # 训练参数设置 col1, col2 = st.columns(2) test_size = col1.slider("测试集比例", 0.1, 0.4, 0.2, 0.05) random_state = col2.number_input("随机种子", 0, 100, 42) # 开始训练按钮 if st.button("开始训练模型", use_container_width=True): # 创建临时目录用于存储模型 with tempfile.TemporaryDirectory() as tmp_dir: # 修复路径问题:使用绝对路径 model_path = os.path.abspath(os.path.join(tmp_dir, "best_model")) progress_bar = st.progress(0) status_text = st.empty() # 步骤1: 创建Spark会话 status_text.text("步骤1/7: 初始化Spark会话...") try: spark = create_spark_session() except Exception as e: st.error(f"创建Spark会话失败: {str(e)}") st.error("请检查Java环境和Spark配置") st.stop() progress_bar.progress(15) # 步骤2: 转换为Spark DataFrame status_text.text("步骤2/7: 转换数据为Spark格式...") spark_df = spark.createDataFrame(processed_data) progress_bar.progress(30) # 步骤3: 划分训练集和测试集 status_text.text("步骤3/7: 划分训练集和测试集...") train_df, test_df = spark_df.randomSplit([1.0 - test_size, test_size], seed=random_state) progress_bar.progress(40) # 步骤4: 特征工程 status_text.text("步骤4/7: 特征工程处理...") categorical_cols = ['GENDER', 'MKT_STAR_GRADE_NAME', 'IF_YHTS'] existing_cat_cols = [col for col in categorical_cols if col in processed_data.columns] # 创建特征处理管道 indexers = [StringIndexer(inputCol=col, outputCol=col+"_index") for col in existing_cat_cols] encoders = [OneHotEncoder(inputCol=col+"_index", outputCol=col+"_encoded") for col in existing_cat_cols] numeric_cols = ['AGE', 'ONLINE_DAY', 'TERM_CNT', 'PROM_AMT_MONTH'] feature_cols = numeric_cols + [col+"_encoded" for col in existing_cat_cols] assembler = VectorAssembler(inputCols=feature_cols, outputCol="features") label_indexer = StringIndexer(inputCol="is_rh_next", outputCol="label") progress_bar.progress(50) # 步骤5: 构建模型 status_text.text("步骤5/7: 构建和训练模型...") # 使用优化的模型配置 rf = RandomForestClassifier( featuresCol="features", labelCol="label", numTrees=50, # 增加树的数量提高精度 maxDepth=5, # 适当增加深度 seed=random_state, featureSubsetStrategy="auto", # 自动选择特征子集策略 impurity="gini" # 使用基尼不纯度 ) pipeline = Pipeline(stages=indexers + encoders + [assembler, label_indexer, rf]) model = pipeline.fit(train_df) progress_bar.progress(80) # 步骤6: 评估模型 status_text.text("步骤6/7: 评估模型性能...") predictions = model.transform(test_df) evaluator_auc = BinaryClassificationEvaluator(labelCol="label", rawPredictionCol="rawPrediction") evaluator_acc = MulticlassClassificationEvaluator(labelCol="label", predictionCol="prediction", metricName="accuracy") evaluator_f1 = MulticlassClassificationEvaluator(labelCol="label", predictionCol="prediction", metricName="f1") auc = evaluator_auc.evaluate(predictions) acc = evaluator_acc.evaluate(predictions) f1 = evaluator_f1.evaluate(predictions) results = { "Random Forest": {"AUC": auc, "Accuracy": acc, "F1 Score": f1} } progress_bar.progress(95) # 步骤7: 保存结果 status_text.text("步骤7/7: 保存模型和结果...") # 确保目录存在 os.makedirs(model_path, exist_ok=True) model.write().overwrite().save(model_path) st.session_state.model_results = results st.session_state.best_model = model st.session_state.model_path = model_path st.session_state.spark = spark progress_bar.progress(100) st.success("🎉 模型训练完成!") # 显示模型性能 st.subheader("模型性能评估") results_df = pd.DataFrame(results).T st.dataframe(results_df.style.format("{:.4f}").background_gradient(cmap='Blues')) # 特征重要性 st.subheader("特征重要性") rf_model = model.stages[-1] feature_importances = rf_model.featureImportances.toArray() importance_df = pd.DataFrame({ "Feature": feature_cols, "Importance": feature_importances }).sort_values("Importance", ascending=False).head(10) fig, ax = plt.subplots(figsize=(10, 6)) sns.barplot(x="Importance", y="Feature", data=importance_df, palette="viridis", ax=ax) plt.title('Top 10 重要特征') st.pyplot(fig) except Exception as e: st.error(f"模型训练错误: {str(e)}") st.error("提示:请检查数据格式和特征列名") # 预测分析部分 else: st.markdown(""" <div class="card"> <h3>用户转化预测</h3> <p>预测单宽带用户转化为融合套餐的可能性</p> </div> """, unsafe_allow_html=True) # 上传预测数据 predict_file = st.file_uploader("上传预测数据 (CSV格式, GBK编码)", type=["csv"]) if predict_file is not None: try: # 读取数据 predict_data = pd.read_csv(predict_file, encoding='GBK') # 显示数据预览 with st.expander("数据预览", expanded=True): st.dataframe(predict_data.head()) # 检查是否有模型 if "model_path" not in st.session_state: st.warning("⚠️ 未找到训练好的模型,请先训练模型") st.stop() # 开始预测按钮 if st.button("开始预测", use_container_width=True): progress_bar = st.progress(0) status_text = st.empty() # 步骤1: 数据预处理 status_text.text("步骤1/4: 数据预处理中...") processed_data = preprocess_data(predict_data) progress_bar.progress(25) # 步骤2: 创建Spark会话 status_text.text("步骤2/4: 初始化Spark会话...") if "spark" not in st.session_state: try: spark = create_spark_session() st.session_state.spark = spark except Exception as e: st.error(f"创建Spark会话失败: {str(e)}") st.error("请检查Java环境和Spark配置") st.stop() else: spark = st.session_state.spark progress_bar.progress(50) # 步骤3: 预测 status_text.text("步骤3/4: 进行预测...") spark_df = spark.createDataFrame(processed_data) # 修复关键问题:添加唯一标识符 if "CCUST_ROW_ID" not in spark_df.columns: spark_df = spark_df.withColumn("CCUST_ROW_ID", monotonically_increasing_id()) best_model = st.session_state.best_model predictions = best_model.transform(spark_df) progress_bar.progress(75) # 步骤4: 处理结果 status_text.text("步骤4/4: 处理预测结果...") predictions_df = predictions.select( "CCUST_ROW_ID", "probability", "prediction" ).toPandas() # 解析概率值 predictions_df['转化概率'] = predictions_df['probability'].apply(lambda x: float(x[1])) predictions_df['预测结果'] = predictions_df['prediction'].apply(lambda x: "可能转化" if x == 1.0 else "可能不转化") # 添加转化可能性等级 predictions_df['转化可能性'] = pd.cut( predictions_df['转化概率'], bins=[0, 0.3, 0.7, 1], labels=["低可能性", "中可能性", "高可能性"] ) # 保存结果 st.session_state.prediction_results = predictions_df progress_bar.progress(100) st.success("✅ 预测完成!") except Exception as e: st.error(f"预测错误: {str(e)}") # 显示预测结果 if "prediction_results" in st.session_state: st.markdown(""" <div class="card"> <h3>预测结果</h3> <p>用户转化可能性评估报告</p> </div> """, unsafe_allow_html=True) result_df = st.session_state.prediction_results # 转化可能性分布 st.subheader("转化可能性分布概览") col1, col2, col3 = st.columns(3) high_conv = (result_df["转化可能性"] == "高可能性").sum() med_conv = (result_df["转化可能性"] == "中可能性").sum() low_conv = (result_df["转化可能性"] == "低可能性").sum() col1.markdown(f""" <div class="metric-card"> <div class="metric-value">{high_conv}</div> <div class="metric-label">高可能性用户</div> </div> """, unsafe_allow_html=True) col2.markdown(f""" <div class="metric-card"> <div class="metric-value">{med_conv}</div> <div class="metric-label">中可能性用户</div> </div> """, unsafe_allow_html=True) col3.markdown(f""" <div class="metric-card"> <div class="metric-value">{low_conv}</div> <div class="metric-label">低可能性用户</div> </div> """, unsafe_allow_html=True) # 转化可能性分布图 fig, ax = plt.subplots(figsize=(8, 5)) conv_counts = result_df["转化可能性"].value_counts() conv_counts.plot(kind='bar', color=['#4CAF50', '#FFC107', '#F44336'], ax=ax) plt.title('用户转化可能性分布') plt.xlabel('可能性等级') plt.ylabel('用户数量') st.pyplot(fig) # 详细预测结果 st.subheader("详细预测结果") # 样式函数 def color_convert(val): if val == "高可能性": return "background-color: #c8e6c9; color: #388e3c;" elif val == "中可能性": return "background-color: #fff9c4; color: #f57f17;" else: return "background-color: #ffcdd2; color: #c62828;" # 格式化显示 display_df = result_df[["CCUST_ROW_ID", "转化概率", "预测结果", "转化可能性"]] styled_df = display_df.style.format({ "转化概率": "{:.2%}" }).applymap(color_convert, subset=["转化可能性"]) st.dataframe(styled_df, height=400) # 下载结果 csv = display_df.to_csv(index=False).encode("utf-8") st.download_button( label="下载预测结果", data=csv, file_name="用户转化预测结果.csv", mime="text/csv", use_container_width=True ) # 页脚 st.markdown("---") st.markdown(""" <div style="text-align: center; color: #5c6bc0; font-size: 0.9rem; padding: 1rem;"> © 2023 精准营销系统 | 基于Spark和Streamlit开发 | 优化版Spark连接 </div> """, unsafe_allow_html=True) ``` ### 关键修复点说明: 1. **Windows路径修复函数**: ```python def fix_windows_path(): """修复Windows环境下的PySpark路径问题""" if platform.system() == "Windows": # 设置Hadoop环境变量 hadoop_home = os.path.join(os.environ.get('HADOOP_HOME', ''), 'bin') if hadoop_home and os.path.exists(hadoop_home): os.environ['PATH'] = f"{hadoop_home};{os.environ['PATH']}" # 设置Spark临时目录 spark_temp_dir = os.path.join(tempfile.gettempdir(), 'spark') os.makedirs(spark_temp_dir, exist_ok=True) os.environ['SPARK_LOCAL_DIRS'] = spark_temp_dir # 设置Java路径 java_home = os.environ.get('JAVA_HOME', '') if java_home: os.environ['PATH'] = f"{java_home}/bin;{os.environ['PATH']}" ``` - 自动检测Windows环境 - 设置Hadoop bin目录到PATH - 创建专用Spark临时目录 - 添加Java bin目录到PATH 2. **在Spark会话创建前调用修复函数**: ```python # 修复Windows路径问题 fix_windows_path() ``` - 确保在创建SparkSession之前执行修复 3. **明确指定Spark主节点**: ```python .config("spark.master", "local[2]") # 明确指定本地模式,使用2个核心 ``` - 避免Spark尝试连接远程集群 4. **增强错误处理**: ```python try: spark = create_spark_session() except Exception as e: st.error(f"创建Spark会话失败: {str(e)}") st.error("请检查Java环境和Spark配置") st.stop() ``` - 提供更详细的错误信息 - 指导用户检查Java环境 ### 修复原理: 在Windows环境下,PySpark需要以下组件才能正常工作: 1. **Hadoop的winutils.exe**:用于文件系统操作 2. **Java环境**:Spark运行在JVM上 3. **专用临时目录**:避免权限问题 常见问题原因: 1. `winutils.exe`未在PATH中 2. Java环境未正确配置 3. 临时目录权限问题 通过以下方式解决: - 自动添加Hadoop bin目录到PATH - 创建专用Spark临时目录 - 添加Java bin目录到PATH - 明确指定本地模式 - 提供详细的错误提示 这些修改确保了在Windows环境下PySpark能够正确找到所需组件,避免"找不到指定路径"的错误。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值