本期的文章源于工作中,需要固定label的位置,便于在spark模型中添加或删除特征,而不影响模型的框架或代码。
spark的jupyter下使用sql
这是我的工作环境的下情况,对你读者的情况,需要具体分析。
sql = '''
select
*
from
tables_names -- hdfs下的表名
where
条件判断
'''
Data = DB.impala_query(sql) -- 是DataFrame格式
**注意:**DB是自己写的脚本文件
改变列的位置
前面生成了DataFrame
mid = df['Mid']
df.drop(labels=['Mid'], axis=1,inplace = True)
df.insert(0, 'Mid', mid) # 插在第一列后面,即为第二列
df
缺失值填充
df.fillna(0)
未完待补充完善。
本文介绍了一种在Spark中固定Label位置的方法,以便于在模型中添加或删除特征时保持代码框架不变。通过示例展示了如何使用SQL查询数据,并在DataFrame中调整列的位置和填充缺失值。
621

被折叠的 条评论
为什么被折叠?



